理想甩出全程端到端,猛追華爲!3篇論文看懂李想的野心
車東西(公衆號:chedongxi)作者 | Janson編輯 | 志豪
理想和華爲的競爭,從銷量已經轉入到了智駕領域。
車東西7月9日消息,日前,理想汽車亮出了其在自動駕駛領域所有的王牌,拿出了端到端+VLM大模型無圖智駕技術,也引發了不少行業人員的關注。
目前來看,國內公認第一梯隊的華爲、小鵬已經實現其無圖NOA系統的功能,併成功量產。
▲理想4D One Model
而這次理想直接搞了一個“4D One Model”的一體化決策網絡,直接把感知決策合二爲一,實現從數據輸入到路徑輸出只經過一個模型,但目前距離全量推送還有距離,處於早鳥測試階段。
▲華爲ADS端到端路線圖
從技術路線來看,華爲的無圖NOA有預決策和規劃一張GOD(通用障礙物識別)大網+ PDP(預測決策規控)網絡兩部分組成,小鵬的XNGP則也是由神經網絡感知網絡XNet、規控大模型XPlanner和大語言模型XBrain三個部分分段完成智駕的感知到決策的過程。
▲小鵬端到端大模型示意圖
目前來看理想這套端到端+VLM(視覺語言模型)系統也並非可以直接“大殺四方”,無論是端到端的系統一還是VLM的系統二,也都是黑盒狀態,黑盒與黑盒之間的決策,對於後期的調優有着比較大壓力。
華爲ADS3.0作爲目前最接近One Model的智駕方案提供商,即將於8月6日隨着享界S9的發售量產上車。
而理想AD MAX這次搞了4D One Model這樣的激進產品,可能的確在技術上多走一步,但距離全量推送上車還有距離,只能說從目前開通的早鳥體驗來看,確實不再是PPT產品了,令人拭目以待。
綜合來看,理想對比華爲ADS3.0在技術上可以說“互有千秋”,一方面,華爲的白名單決策只佔其整體決策的一小部分,並沒有太大的權重,距離“One Model”也十分接近,另一方面,華爲的新技術將全量推送,佔到了時間優勢。
可以說,華爲ADS和理想AD MAX目前在技術上只是節奏不同,最終還是要朝着L3/L4的目標前進。從這個角度來看,兩家在技術上和量產速度上互有千秋,但整體上都是在不斷向上提升的。
在“蔚小理”三家造車“新勢力”中,理想之前對於智能駕駛的佈局不是很多,甚至可以說是新造車中最弱的一個,也是在這兩年有了資金之後,纔開始瘋狂補課。
同時,在“瘋狂補課”後,理想可能也是第一個把自己的具體技術專門辦一個發佈會來給大家講透徹的主機廠,可見其對自己的技術先進性是有一定自信的。
當然,在當下自動駕駛技術的研發過程中,包括特斯拉在內也沒有誰獲得了完全成功,都在摸索前進。
一、理想智駕推出雙系統 PK華爲智駕
這次發佈會介紹的技術中,理想最與衆不同的則是推出了面向Conner Case等複雜場景的“系統二”的概念,這一技術路線,此前似乎並沒有太多玩家佈局,絕大部分玩家還在使用白名單的方式人工排查。
理想這次在端到端的運用上可以說是相當的激進,4D One Model的做法在很大程度上已經不再依靠人來寫規則,而是把絕大部分的決策都交給了AI來做。
這樣的決定很可能也是從NPN路線切換到無圖路線後,綜合了理想目前在市場上的情況作出的決定。
▲理想智駕雙系統理論
具體來說,在這種架構中,理想汽車提到的“端到端模型”對應於系統一,它負責快速響應和直覺性決策。
系統一採用的端到端大模型,有三個迭代階段。
▲理想智駕系統端到端路線圖
第一代,稱爲NPN,採用了模塊化架構,依賴先驗信息。
這個架構包括了感知、定位、規劃、導航等多個模塊,並通過規則將它們連接起來。這個階段的架構支持了理想汽車在全國100個城市推出的城市NOA服務。
第二代,即無圖NOA,採用了分段式端到端架構。
這個系統簡化爲只有兩個模型:感知和規劃。同樣,這些模型通過規則相連,但與前一代不同的是,它去除了對先驗信息的依賴,這意味着它可以在全國任何地方使用,只要有導航數據即可。
第三代是真正的端到端架構,它僅包含一個模型。
這個模型接收來自傳感器的感知信息作爲輸入,並直接輸出車輛的行駛軌跡。這個階段代表了理想汽車在自動駕駛技術上的一個重要進步,即通過簡化模型結構,實現了從輸入到輸出的直接映射,從而提高了系統的效率和響應速度。
而“VLM視覺語言模型”則相當於“慢系統”,即系統二,它涉及更深層次的思維推理。
▲理想智駕VLM決策圖
理想汽車解釋說,系統一類似於人類根據經驗和習慣形成的直覺,能夠進行快速決策,例如在回答“1+1=?”這樣的簡單問題時,幾乎不需要思考就能立即給出答案。在駕駛過程中,大約95%的情況下是由系統一來處理的。
這樣的系統一和業內主流的端到端智駕技術一樣,注重低延遲、快速響應,面向絕大部分場景。
相比之下,系統二涉及到更爲複雜的思維推理能力,它用於解決需要深入思考或推理的複雜問題,以及在遇到未知場景時的應對策略。在駕駛中,大約只有5%的情況下需要調用系統二。
對比華爲ADS3.0來看,華爲ADS3.0採用了一種結合少量人工規則與端到端模型的技術,並正逐步減少對人工規則的依賴。
該系統主要包含兩個關鍵部分:GOD(通用障礙物檢測)和PDP(預測決策規控)。
▲華爲ADS3.0架構圖
華爲ADS系統起初從BEV(鳥瞰圖)感知網絡起步,專注於識別預定名單上的障礙物。到了2023年4月,華爲推出了ADS3.0的更新版本,新增了GOD網絡和PCR(道路拓撲推理)網絡,標誌着系統進入場景理解的新階段,從而構建了GOD大網。
GOD大網使得ADS3.0在障礙物識別方面實現了較大的飛躍,從基礎的障礙物識別躍升至全面的駕駛場景理解。這一進步顯著增強了智能駕駛的安全性,並且優化了駕駛體驗。
▲華爲PDP網絡示意圖
同時,ADS3.0還採用了全新的PDP網絡架構,將預測、決策和規劃整合爲一個統一的網絡。這一架構讓決策和規劃過程更貼近人類駕駛員的行爲,使行駛軌跡更加自然,提高了通行效率,特別是在複雜路口的通過率已超過96%。
可以說華爲和理想在選擇技術路線的時候也是異曲同工,都採用了通用+專用的做法。
不同的是,理想在解決Conner Case的時候也相當激進的採用了由AI進行推理和決策的黑盒,降低了人工算法的干預,華爲ADS則還偏向保守,依然保留了人工算法的介入。
從結果來看,有人工規則的介入,方便開發調優,儘管華爲保留了人工規則,但它們的“全國都可用”的確早了很多,在今年年初便已實現。
理想採用的雙黑盒,由系統一和系統二統一共同構成了人類認知、理解和決策的基礎則確實來的慢了一些,甚至很多優化連技術人員都不知道結果如何,調優成本較高,甚至存在負優化的可能,最終這樣的產品在今天7月纔開始早鳥體驗。
一個是技術上激進但還沒全量推送的理想,另一個則是一步一個腳印率先“開城”的華爲,但從技術角度上去分一個孰優孰略確實意義不大,更多的還是要看市場和消費者的真實體驗纔是硬道理。
二、專攻長尾場景 詳解理想DriveVLM
相比於目前各大智駕玩家都搞得比較成熟,能夠處理大約95%的駕駛場景的系統一,理想在剩餘5%的複雜場景選擇了DriveVLM支撐的系統二來完善智駕系統的深度理解和判斷能力。
以天津爲例,該城市有許多潮汐車道和單行道,這些道路通常通過LED燈或文字標識來指示。對於自動駕駛系統來說,不僅要清晰地識別這些標識,還要理解其含義並做出相應的駕駛決策。這時,系統二的能力就至關重要。
▲理想智駕“系統二”面臨的場景
例如,當地面道路凹凸不平時,系統二會向系統一發出降速提醒,並通知駕駛員前方路面狀況,以便自動駕駛系統可以更加平穩地通過。
在夜間或光線昏暗的場景中,系統二會指導系統一限制速度,以確保駕駛的安全性。
此外,系統二還能在主輔路走錯的情況下進行判斷,並能夠識別出當前行駛路線與導航指示不符,從而提供切換導航的建議。這意味着系統2能夠幫助系統1避免或糾正路線錯誤。
爲了順利實現這樣的功能,理想提出了VLM(視覺語言模型)的概念,並在AD MAX的雙Orin-X中的其中一顆上部署。
▲VLM推理效率提升示意圖
然而,Orin並非專門爲VLM這樣的Transformer模型設計,部署在這樣的平臺上面臨着效率和性能相關的問題。
根據DriveVLM研發團隊在《DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》一文中,具體闡述了DriveVLM模型的部署和性能問題。
文章中提到,DriveVLM在Orin平臺上的推理速度爲1.5秒,這比傳統的自動駕駛模型慢了5倍。顯然,這樣的速度無法滿足自動駕駛對實時性的要求。
爲了解決這一問題,DriveVLM團隊提出了DriveVLM-Dual的概念,旨在提高模型的實時響應能力。
▲DriveVLM-Dual推理速度
解決了DriveVLM的推理延遲問題,可以深入探究一下這個22億參數的VLM在解決問題上的具體流程。
DriveVLM模型在推理過程中主要採用了思維鏈(Chain of Thought, CoT)方法。
首先,DriveVLM對輸入的圖像序列進行整體描述,以捕捉環境的關鍵特徵。接着,模型逐步分析場景中的重要元素,包括識別關鍵對象(如車輛、行人、交通標誌等),分析這些對象的屬性和狀態,並評估它們對駕駛決策的潛在影響。
基於前面的分析,DriveVLM進行多步推理,考慮可能的行動選項,評估每個選項的潛在結果,並權衡不同因素(如安全性、效率、舒適性等)。
最後,模型生成具體的規劃輸出,包括高級動作描述(如”減速並讓行”)和詳細的決策解釋,以及軌跡路徑點。
這種推理過程使得DriveVLM能夠像人類駕駛員一樣進行深思熟慮的決策,從而提高自動駕駛的安全性和可靠性。
從“跑分”結果來看,DriveVLM模型在nuScenes數據集的規劃任務上實現了相當先進的性能表現。(nuScenes是一個公開的自動駕駛數據集,常用於測試和評估自動駕駛系統的性能)
▲DriveVLM-Dual性能測試結果(越小越好)
對比華爲ADS3.0來看,儘管它們沒有提供更細節的資料,但是從目前ADS3.0發佈會上的內容來看,華爲的PDP網絡也是在人工規則的基礎上向大模型的方向在靠攏。
顯然,華爲這套方案也走得更快,即將在8月6日發佈的享界S9即將首發量產這套方案,相比於理想的方案還是要快上不少的。
此外,華爲也沒有公佈過其在智駕領域的最新進展,也許今年年末還會給消費者和市場帶來新的驚喜。
三、數據訓練成重點 智駕轉向全程端到端
在算法趨同的背景下,提升訓練量成爲了新的“兵家必爭之地”,馬斯克也曾公開強調,特斯拉FSD測試里程需要達到60億英里(約合96.56億公里),才能滿足全球監管機構的要求。
而特斯拉4月6日公佈的數據顯示,FSD實際測試里程爲10億英里(約合16.1億公里)。
可見現在幾乎所有的智駕方案都在“卷”訓練量。
理想方面提到,目前的簡單3D生成場景“一眼假”,對於實際的智駕訓練幫助不大,需要儘快找到合適的場景生成方式。
對此,華爲MagicDrive3D和理想Diffusion Transformer兩家的路線都不約而同的看向了高斯濺射技術。
從香港中文大學、香港科技大學、華爲諾亞方舟實驗室聯合發佈的論文《MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes》來看,此前的MagicDrive可以通過路線圖、對象框和文本(例如天氣)中的控件生成連續的攝像機視圖。
然而,MagicDrive將所有內容投影到BEV地圖或BEV control並不能確保街景生成的精確指導。
▲MagicDrive3D生成示意圖
爲此,論文中提出了一種MagicDrive3D技術,用於可控3D街景生成的新型管道,支持多條件控制,包括BEV地圖、3D對象和文本描述。
同時爲了解決生成內容中的小錯誤,它們提出了帶有單目深度初始化和外觀建模的可變形高斯飛濺,以管理不同視點的曝光差異。
從文章的“跑分”結論來看,在隨機100個用於評估的nuScenes驗證集性能上來看,使用MagicDrive3D都有十分不錯的表現。(↓爲數據越低越好,↑反之)
▲MagicDrive3D性能結果(↓爲數據越低越好,↑反之)
相比於華爲的MagicDrive3D,理想Diffusion Transformer則對於數據訓練也採用了基本相似的生成方式,它們計劃在自動駕駛系統中採用創新的“重建+生成”的世界模型測試方案。
這一方案首先通過3DGS(3D高斯濺射)技術對真實數據進行場景重建,然後利用生成模型補充新的視角,從而創建出既符合真實世界場景又能解決新視角模糊問題的環境。
此外,該系統的生成部分可以獨立運行,通過結合Layout(佈局)先驗、Reference(參考幀)圖像和Prompt(提示詞),生成符合真實規律但未見過的全新場景。
▲理想Diffusion Transformer架構示意圖
在場景重建過程中,理想採取了動靜態分離的核心策略:對靜態環境進行重建,對動態物體則進行重建和新視角生成,從而創建出360°的全新資產。將這兩者結合,生成了一個可編輯和調整的3D物理世界,實現了場景的部分泛化。
生成模型相較於重建模型具有更好的泛化性。理想能夠自定義地改變天氣、時間、車流等條件,生成多樣化的場景來測試模型的泛化能力,並評估自動駕駛系統在各種條件下的適應能力。
通過這種無限環境,理想可以對自動駕駛系統進行充分的學習和測試,確保用戶獲得一個高效、安全和舒適的自動駕駛體驗。
相比於華爲最大的不同大概是理想汽車的數據閉環系統可以實現自動駕駛數據的自動收集、挖掘、標註、訓練和驗證,支撐自動駕駛系統的快速迭代。
這樣的資源投入需求更大,但也會帶來更多回報,可以說是理想選擇One Model的“代價”。
當下,在新造車增程SUV市場,理想和鴻蒙智行旗下的問界一直分列一二名,從背後的技術提供者來看,理想和華爲兩家已經從銷量之爭,拓展到了智駕方面。
在目前三電技術發展飛速,座艙功能趨同的背景下,誰能率先拿下智駕,誰就能在競爭中多佔一個優勢。
結語:全程端到端成車企必爭之地
隨着自動駕駛技術的不斷進步,全程端到端解決方案已經成爲汽車製造商爭奪技術領先地位的關鍵領域。
理想汽車通過推出快慢雙系統,以及DriveVLM大模型的創新應用,展示了其在自動駕駛領域的雄心和技術實力。
儘管面臨黑盒模型決策和調優的挑戰,理想汽車的技術路線表明了對於知識驅動和端到端集成的長遠佈局。
與此同時,華爲的ADS系統也在不斷進化,其部分端到端技術和MagicDrive 3D等創新同樣展現了其在自動駕駛領域的深厚積累。
此外,8月6日隨着享界S9上市的ADS3.0究竟能給國內智駕格局帶來怎樣的變化,同樣值得期待。
未來,隨着數據訓練量的增加和技術的不斷完善,我們不妨期待自動駕駛系統在安全性和可靠性方面取得更大的突破,最終實現全面自動駕駛的目標。