對話理想汽車郎鹹朋:智駕“差生”如何追趕特斯拉

很長一段時間裡,理想汽車都難以接住華爲問界在智能駕駛上的宣傳攻勢。這項原本不被納入消費者購車決策前三的選項,成爲了兩家汽車品牌在一線競爭中的關鍵角色。

理想汽車銷售人員會通過座艙體驗等其他產品功能,遮掩智駕相對落後的事實,甚至避免直接提及華爲。彼時,與理想L系列車型直接對標的問界新M7打開了用戶對於智駕功能的認知,也帶動品牌銷量以令行業震驚的速度高漲。

但今年劇情的走向出現反轉。理想汽車成爲了繼華爲之後,第二家“全國都能開”的汽車製造商,反超了原本領先的蔚來和小鵬。

理想汽車銷售也開始主動向用戶推售帶高階智駕軟件的MAX版本車型。最新的數據是,用戶選購AD Max的定單佔比從5月份的37%提升至7月的49%,其中L9 MAX版本的選購率達到75%。

讓一些競爭對手感到不安的是,理想汽車似乎在極短時間裡,快速彌補了智駕短板。這位後來者在傳統人工書寫規則的時代沒有表現出領先優勢,卻在切換至業內前沿的端到端技術後,突然逆襲,這讓外界備受關注。

業內對理想智駕的態度正在發生微妙的轉變。一位華爲智駕工程師向界面新聞透露,過去內部只關注特斯拉和小鵬汽車的研發進展,但現在理想汽車也被納入了討論話題圈。

理想汽車曾是“蔚小理”裡最不被看好的一家,所堅持的增程式路線被詬病技術落後。但現在它的銷量位居新勢力榜首,而增程路線也在被越來越多汽車公司採納。

智能駕駛領域複製了一樣的劇情。理想汽車智能駕駛研發副總裁郎鹹朋和智能駕駛研發負責人賈鵬接受界面新聞等媒體採訪時覆盤,智駕“差生”是如何在不到兩年時間裡,迭代三個版本,最終將與特斯拉的差距縮短至半年以內。

由於起步時期對利潤和效益的極致追求,理想汽車在智駕領域的投入保守,一直是業內追隨者的姿態。

拉長時間線來看,在理想汽車剛剛成立那年,華爲即啓動了自動駕駛技術研發。而當2021年理想汽車開始自研智駕之時,同期蔚來汽車和小鵬汽車已經落地了高速領航輔助駕駛功能(NOA)。

在去年行業忙着城區NOA的比賽時,理想汽車CEO李想在9月召開的秋季戰略會上反思,理想汽車在智駕上全力投入偏晚。他第一次明確,智能駕駛是公司核心戰略,要在2024年成爲智駕的絕對頭部。

理想汽車開始大規模招人,成爲當時爲數不多能夠給出高薪資和多崗位的企業。當時理想汽車認爲學習華爲的軍團作戰模式,可以通過人才的密度換取研發的速度。

但實際落地進程並不順利。一年時間裡,理想汽車先後嘗試了神經先驗網絡(NPN)和無圖兩個方案,投入大量人力迭代、更新和測試,始終無法達到擬人程度。小鵬汽車和華爲在今年初相繼實現了全國大規模開城目標,而理想汽車去年底全國無圖百城開通的目標,降級爲通勤模式。

接連切換技術路線,讓郎鹹朋很快意識到技術路線的瓶頸。在他看來,面對無窮的真實場景,人永遠無法提前對所有情況都進行定義。要想從根本解決問題,端到端是當下的最優技術路徑。

不同於傳統自動駕駛系統分爲感知、規劃、定位和決策等多個模塊,端到端架構強調感知決策一體化,其最大優勢是減少模塊間信息傳遞損失,提高智駕能力上限。自動駕駛開始真正依靠人工智能而不是詳盡的地圖繪製和編碼來取得進步。

特斯拉是率先切換這一前沿技術的汽車公司,緊接着是國內智能電動汽車廠商和華爲等自動駕駛供應商。在“開城競賽”的同時,汽車公司在端到端上掀起新一輪的比拼。理想汽車在新技術路線上再一次嘗試。

在實際落地過程中,小鵬汽車和華爲採用“分段式端到端”,將感知和規控用分別的模型取代,而特斯拉和理想汽車是更爲激進的“One Model”(一個大模型)。爲了安全冗餘,理想汽車沒有把控制模塊包含在內。

但只有端到端是不夠的。郎鹹朋告訴界面新聞,不管是端到端還是傳統的感知決策模型,都是根據已知的數據,訓練或者人工設計規則去滿足場景條件。這蘊含的潛在問題是,如果是沒見過的場景,系統即無法很好工作。

一個典型的實踐是賈鵬在美國體驗特斯拉全自動駕駛軟件FSD V12.3版本。他發現FSD在東西海岸城市的用戶體驗差異明顯。從波士頓到紐約,特斯拉在不熟悉和道路工況更復雜的城市上,智駕表現急劇下降,接管率大幅提升。

國內的道路場景比紐約要更加多變。在車端芯片算力有限的前提下,單獨的端到端模型難以保證無瑕疵運轉。想要讓自動駕駛真正像人一樣思考,理想汽車引入了VLM視覺語言模型,並從去年9月開始了端到端+VLM雙系統的預研。

李想在今年6月召開的中國汽車重慶論壇上,首次向公衆披露了雙系統的概念。系統1運行端到端模型,解決行駛過程中需要及時響應的路況信息;系統2可以像人類一樣讀懂導航地圖等信息內容,處理複雜和需要邏輯推演的泛化場景。

賈鵬進一步向界面新聞表示,VLM在整套架構中承擔的角色是,將決策結果和參考軌跡提供給系統1,但端到端模型不一定會採用這個推理信息。這保證了系統1的唯一決策權,避免了兩套系統運行打架。

不過,所有投入端到端的智駕團隊還需要解決同一個問題:怎麼測試和驗證端到端模型的能力。

端到端架構使用的神經網絡大模型是“黑盒”,VLM也是“黑盒”,兩者最大的弊端在於失效模式不清晰。這讓架構的上限遠高於傳統規控時代,但同樣也會出現低級錯誤,難以爲安全兜底。

由於沒有類目清晰的代碼,這些問題的篩選查找也更爲麻煩。一位智駕研發人員向界面新聞解釋,如果不知道端到端模型運行中哪裡有問題,就無法針對性採集數據制定訓練策略。

理想汽車的解題思路是引入世界模型,對系統1和系統2進行考試。這個用來驗收訓練成果的考試模型被稱作系統3。

系統3的題庫一方面來自精挑細選的理想汽車車主實際駕駛過程中的“真題”和“錯題”,且能夠提供這部分“題目”的車主比例不到3%;另一方面,理想汽車會通過重建和生成的方式形成“模擬題”,覆蓋更多的場景。只有模型通過測驗獲得高分後,纔將被逐步推送給用戶。

理想汽車利用系統3取代了過去鋪研發人員,實地駕駛成百上千公里的傳統路測方式。這不僅加快了模型迭代速度,且節省了高昂的人力成本。

同樣利用虛擬仿真能力的還有蔚來汽車。這家新勢力上個月向外界釋放了國內首個智能駕駛世界模型。該模型具備空間重建和時間推演能力,在100毫秒內推演出216種可能發生的場景,尋找到最優決策。

賈鵬指出,如果效仿SORA純生成視頻的方式,會造成較多的幻覺,生產場景沒有辦法直接拿來使用。理想汽車是把真實場景重建後,在這基礎上進行泛化生成,並提供可參考的,符合物理規律的場景。

進入到自動駕駛時代,各家汽車公司比拼的不僅是人才深度,還有數據和算力,這將直接影響端到端的上限能力。

郎鹹朋提到,理想汽車相似的車型結構,讓所有車上攝像頭配置、安裝位置都一致,可以實現數據共用。並且,理想汽車從2019年第一代理想ONE開始進行數據閉環研發,有效累積訓練數據量超過12億公里,比另外兩家頭部新勢力更早,也更多。

小鵬汽車CEO何小鵬提出的一個觀點是,數據多並不代表能夠做好自動駕駛。郎鹹朋同樣指出,除了數據的數量和質量,更難的是數據的配比。

今年剛開始投入雙系統項目研發時,理想智駕團隊發現,測試車在等紅燈時,總想變到其他車道。後來他們才知道,導致問題的原因是刪除了用戶在紅燈前長時間等待的數據。這一原本被忽視的數據,卻是讓模型學會分辨等紅燈和堵車兩種不同等待場景的關鍵信息。

事實上,能夠快速發現並解決這一問題,還在於理想汽車在雲端建立了數據挖掘模型、場景理解模型等多個小模型。這套完整的工具鏈和基礎能力建設,是自動駕駛裡進行數據篩選和清洗的重要一環。

郎鹹朋認爲,這就好比去醫院看病,一個問題場景出現後在內部有個“分診臺”,自動分析歸屬於哪個場景問題,給到模型分診建議,然後再拿着分診建議找到相類似的場景數據,補充到訓練樣本里,進行下一步迭代。

在賈鵬看來,將來大部分智駕工程師是在做數據和模型測試這一頭一尾的工作,反而中間模型本身的結構設計,可能不需要過多工程師。

隨着業務模式發生改變,理想汽車調整了人力配置和組織架構。傳統自動駕駛模塊化的組織架構體系裡,從場景設計到研發、測試、交付和問題修改,都需要大量人力投入,但轉爲端到端後,數據蒐集、樣本製作、自動化訓練以及自動化迭代等領域,人的參與度大幅降低。

理想汽車智駕團隊經歷了一輪擴張後,又裁退了不少人。郎鹹朋解釋說:“當時我們要擴張智駕團隊,是從流程看,全國各地都要鋪得很大,需要更多研發工程師以及測試人員。但是再往後走,即使我可以投資源招到這些人,但是招到之後我依然解決不了往後走到更高能力的問題。”

當前理想汽車智駕團隊按照RD和PD兩條脈絡研發。前者負責技術預研,探索下一代人工智能發展方向,後者則進行量產工作,針對現行版本向用戶交付和維護。

在外界看來,理想汽車智駕進步速度突飛猛進,但從去年9月開始,智駕團隊每週都有人工智能周例會,工程師們固定和李想分享關於自動駕駛、智能空間等人工智能相關話題。關於雙系統的討論,就是這樣 “慢慢聊出來的”。

理想汽車的快速進步讓外界懷疑,關於智能駕駛的故事劇本里,不存在領先者恆定的高枕無憂。但郎鹹朋指出,後來者參與遊戲的難度實際上正變得越來越高。自動駕駛比拼的不僅是技術,更是資金,是企業的盈利能力。

一個最直觀的數據是,理想汽車目前僅是在算力的租卡投入上,一年的開銷要達到10億元人民幣,而未來進入到更高級別自動駕駛研發,一年的訓練算力花銷將高達10億美金。據悉,理想汽車和小鵬汽車智駕雲端最新算力儲備分別是4.5EFLOPS和2.51EFLOPS。

過去國內新勢力都是摸索特斯拉的技術演進方向,步步跟隨。但在特斯拉不再對外披露技術方案,理想汽車提供了破除端到端迷霧的一套全新方法論。上述華爲研發人員向界面新聞表示, 這將有利於中國智駕不再沿着特斯拉的路徑,亦步亦趨的模仿。

但是,端到端是不是走向更高級別自動駕駛的的技術終解,郎鹹朋以及投身於國內智駕熱潮中的先行者,可能都沒有辦法給出回答。

而對於真正購車的用戶來說,採用何種自動駕駛技術從來不是關注的重點,安全、可靠、好用和穩定等實際體驗指標纔是他們評判優劣的恆定標準。

界面新聞節選了與郎鹹朋和賈鵬的對話內容,在不影響原意情況下有所編輯:

站在了無人區的邊緣

Q:目前理想這套端到端+VLM的智駕架構,是基於什麼想法設計的,未來發展如何

郎鹹朋:去年戰略會時期,我們參考了包括特斯拉FSD在內的智駕方案,發現想要實現自動駕駛的目標,存在很大的挑戰。不管是端到端,還是傳統的感知決策模型,他的做法都是給大量數據,根據已知的數據,訓練或者人工設計規則去滿足這些場景條件,這樣潛在問題是,如果沒見過的場景,系統就不能很好的工作。

基於讓系統能正確地處理複雜或者未知的場景,我們探索怎麼樣能讓車輛,有像人一樣的思考和決策或者判斷推理的能力。我們採用了跟人類大腦的思考和認知方式比較類似的雙系統架構。系統1我們用的是端到端模型,系統2用了VLM模型。將來有沒有其他的實現方式,我們也在迭代當中,但是現在來看,這套框架和實驗方式是比較適合後面做自動駕駛的。

賈鵬:我們試駕特斯拉FSD V12.3版本時,發現它在東西海岸表現差異非常大,這促進我們思考,在國內做自動駕駛,車端芯片算力有限的情況下,單獨一個模型不是那麼有效。我們當時想法是在端到端的基礎上再加一個真正有泛化能力,有邏輯思考能力的一套系統,自然而然就想到了VLM,雖然它不直接控車,但是會提供決策。

往後發展,隨着算力提升,模型規模變大,系統1和系統2能夠做到比較緊耦合。也可以借鑑現在多模態模型的大模型發展趨勢,統一語音,視覺和激光雷達。這套範式可以支撐我們做到L4,可能是我們實現真正人工智能的終極答案。再往後,可能就真的到了無人區,實現自動駕駛真的大規模量產,但目前還沒有看到哪一家跑出來。

Q:端到端和VLM這兩個系統是怎麼協作的?

賈鵬:這倆系統一直都在實時運行。一塊跑端到端,因爲模型小一些,幀率比較高,比如跑個十幾赫茲。另外VLM模型規模參數量就大的多,是22億參數,目前能跑到大概3.4赫茲3至4赫茲。VLM一直都在,只不過它是把決策結果和參考的軌跡扔給系統1,端到端模型推理後,決定是否用這個信息。

Q:現在VLM是必須的嗎,在這裡面的必要性的程度大概是有多少?

郎鹹朋:我們在L3起主要的支撐作用還是端到端,它是代表這個人正常的行爲下的駕駛能力,但到了L4一定是VLM或者大模型,這裡面起到更重要的作用。可能90%以上的時間它不起作用,但它起作用這些內容,是決定這個系統到底是L3還是L4的一個關鍵點,是能真正的能去應對這種未知的場景。

Q:怎麼測試和驗證端到端模型,形成固定向用戶推送的週期?

郎鹹朋:端到端時代一個很大的挑戰是,它對於能力的評價和測試是不確定性的。除了系統1和系統2,我們用端到端和VLM來落地之外,還有一個試驗模型叫系統3。這個試驗模型實際上是一個考試系統,是用試驗模型的能力重建或者生成考題。

這個考題我們有自己的真題庫,人在路上駕駛的正確行爲。它的設計是根據用戶,產品和整車的主觀評價團隊,跟我們內部的一些老司機共同制定的老司機標準。我們的80萬車主裡面,每個人都打了分數,90分以上的我們稱之爲老司機,這個比例大概是佔我們所有司機的3%左右。

在正常的測試和開車過程中,用戶的接管和退出,這些是我們的錯題庫。我們還要生成一些模擬題。我們會對每一版模型根據它的考試分數去決定它是否可以迭代到車上去,進行下一步驗證。‘’

賈鵬:有特別長尾的問題,這樣的數據就沒辦法去真實獲取,有一部分生成的工作。我們的世界模型不是純生成,我們覺得純生成式模型幻覺很多很多,沒辦法真的拿去用,我們是重建加生成結合在一起,生成的是符合世界規律的,也是符合物理規律的。

比規模和質量更重要的,是數據配比

Q:在數據這一塊,打算怎麼採集或者說一些更高效的方式?

郎鹹朋:我們的車L789長得都挺像,但這裡有巨大的本質好處是我們的數據可以共用,所有車上攝像頭配置,包括安裝位置都大體一致。而且從2019年第一代理想one開始,就做數據閉環研發。到了L789階段,我們有80萬車主,積累了超過12億公里的有效訓練數據量,是國內最多的沒有之一。

小鵬最早是在2021年開始做這件事情,它的車型也有很多的變化,有轎車、SUV、MPV,它形態都不太一樣。蔚來是從ET7開始,之前都是供應商方案,它會更晚一點,大概在2022年左右。

Q:怎麼考慮做數據的篩選和清理,現在大部分的精力是投入到數據這一塊的工作,大概會佔什麼樣的精力?

郎鹹朋:我們現在發現,訓練端到端模型,跟古代煉丹沒什麼區別,怎麼配比讓自動駕駛的體驗會更好。今年比較早期做項目,我們發現模型訓練出來等紅燈的時候,車的行爲比較怪異,總是想變到旁邊的車道。後來明白我們在訓練時候,刪除了很多在紅燈之前等待的數據,我們覺得等了幾十秒或者一分鐘的數據沒有用。但後來發現這份數據非常重要,它教會了這個模型,有的時候是需要等待的,不是一旦你慢下來就要插空,就要變道。

Q:你們現在發現紅綠燈的問題,然後去定位紅綠燈的數據缺失,跟以前的方式,難度是差不多的嗎?

郎鹹朋:我們有一套工具鏈,發現一個badcase,這case回來之後,內部有一個“分診臺”系統。一個場景問題上來,會自動分析它應該屬於哪一類的場景問題,會給一個模型的分診建議,然後再拿着分診建議去找到相類似的場景。其實最終還是迴歸到需要補充或者替代什麼樣的數據到我們現在的訓練樣本里,然後再進行下一步的訓練。

賈鵬:模型主要兩個方面,一是數據的配方,類似的場景到底要加多少,能把問題解決掉,這是一個know-how,不同的場景對數據的要求不一樣。第二點是模型的超參,加入新的數據後,模型參數如何調整,一般情況下有5至6版模型會同時提交訓練,然後看哪一版解決了問題,同時得分也高。

Q:算力現在到了什麼規模?

賈鵬:雲端算力,我覺得各家口徑不太一樣。至少雲供應商的數據我們應該是最多的,這個跟每年的花費有關係,一年下來小10個億,你得有利潤。

郎鹹朋:我們明年就會有一個指數上升。到了世界模型,理論上來說想恢復物理世界上所有東西,它的量可能是沒法估計的。我們預計,如果做到 L3和L4自動駕駛,一年的訓練算力花銷得到10億美金,將來我們拼的就是算力和數據,背後拼的是錢,還是盈利能力。