爭議端到端:是L4自動駕駛終局還是營銷盛宴?
以特斯拉發佈V12版FSD智能駕駛系統爲標誌,智能駕駛一夜之間進入了端到端時代。
“端到端的模型下限能力有望在明年快速提高,一旦提高後,不用 2 年時間,在全球範圍內就可以做到超越 L4 標準的能力。”在 2024 杭州雲棲大會上,小鵬汽車董事長何小鵬說道,採用端到端大模型之後,特斯拉的FSD和之前完全不一樣,明年就有可能比人類老司機強。
小鵬汽車是國內最先跟進特斯拉的車企之一,今年7月末,小鵬汽車就開始向用戶推送基於端到端大模型的XNGP智能駕駛系統。到今年9月,華爲、理想等車企也已經開始向用戶推送相應基於端到端大模型的智能駕駛系統;蔚來則將端到端大模型應用至AEB系統,併發布了自研的世界模型。
伴隨着端到端大模型的上車,車企們對智能駕駛的宣傳亦越發激進,曾經令人熱鬧喧囂的智駕開城、去高精地圖等不再是香餑餑,推出具備門到門、點到點的駕駛輔助系統被正式提升了日程表。小鵬汽車更是聲稱,可以用L2級別智能駕駛的硬件成本實現L3+級別的自動駕駛用戶體驗。
一時間,不具備端到端能力的智能駕駛系統,似乎已經和落後掛上了鉤。“沒有使用大模型的智駕都將被淘汰。”何小鵬還稱,所有的L4自動駕駛公司都應該儘快切換大模型。
辰韜資本聯合三方發佈了《端到端自動駕駛行業研究報告》(下稱“《報告》”),《報告》顯示,在其訪談的30餘位自動駕駛行業一線專家中,90%表示自己所供職的公司已投入研發端到端技術,大部分技術公司都認爲難以承受錯過這一次技術革命的後果。
但並非所有“玩家”都認可端到端大模型是當前的智能駕駛系統格局的顛覆者。
輕舟智航CTO侯聰向第一財經記者表示,他在美國體驗了特斯拉FSD V12.3系統,雖然和特斯拉之前的FSD進步很大,但是和以規控爲主的Waymo Robotaxi相比仍有明顯的差距。前圖森未來創始人侯曉迪則呼籲行業要理性看待,不要神話端到端。
在這次技術的爭議之中,馬斯克、何小鵬等車企掌門人力挺端到端;而侯聰、侯曉迪、樓天城(小馬智行CTO)等L4智能駕駛公司的高管則認爲端到端大模型無法直接使得L2智能駕駛輔助在技術上升級至L4自動駕駛。
《報告》中也顯示,因目前技術尚處於發展早期,端到端大模型上車仍有許多應用困境與痛點亟待解決,如技術路線分歧大、數據和算力需求大、測試驗證方法尚不成熟、資源投入巨大等。
在通往自動駕駛終局的道路上,端到端大模型也成爲純視覺感知、雷達融合感知等之後又一個技術路線的爭議。
特斯拉再次引領技術變革?
從一體化壓鑄、電池車身一體化等技術開始,特斯拉已成爲新能源汽車技術的行業風向標。不少中國車企被認爲是“摸着特斯拉過河”,端到端大模型上車,特斯拉又一次引領了新能源汽車的變革。
在端到端大模型上車之前,智能駕駛輔助系統多分爲感知、規劃、決策、控制等多個模塊,其中人工智能和機器學習多應用在感知、規劃等環節,但模塊主要由人工手寫規則來定義,被稱爲“rule-based”(基於規則)。
但在系統實際工作中,車輛往往會遇到無窮無盡的coner case(長尾問題),爲解決這類問題,就需要工程師根據特定場景寫下代碼,設立規則。在這一模式下,智能駕駛輔助或自動駕駛系統往往需要人工輸入大量的規則。
英偉達全球副總裁、汽車事業部負責人吳新宙則認爲,自動駕駛現有的算法大多是基於規則的,講起來很簡單,從看到什麼到怎麼做,但是要把它很好地設立規則是很難的事情,需要很多人類工程師儘可能想到所有可能性,而這種方法有上限。
和傳統的基於規則的智能駕駛輔助系統不同,端到端的自動駕駛解決方案意味着從感知到規控的全過程都通過先進的算法和深度學習技術進行處理。
端到端技術在自動駕駛上的應用,把原本感知、預測、規劃等多個模型組合的架構,變成了“感知決策一體化”的單模型架構。
信達證券發佈的一份研報顯示,“端到端”是指一端輸入圖像等環境數據信息,中間經歷類似“黑箱”的多層神經網絡模型,另一端直接輸出轉向、制動、加速等駕駛指令。
與傳統規則驅動的分模塊架構相比,端到端的實現將帶來一系列優勢:完全基於數據驅動進行全局任務優化,具備更好、更快的糾錯能力;能進一步減少模塊間信息的有損傳遞、延遲和冗餘,避免誤差累積,提升計算效率;泛化能力更強,由Rule-based(基於規則)轉向Learning-based(基於學習),具備零樣本學習能力,面對未知場景具備更強決策能力。
在端到端大模型的加持下,智能駕駛系統能夠實現更快的迭代和進步。以小鵬的XNGP爲例,在應用端到端大模型後,其三網合一神經網絡XNet+規控大模型XPlanner+AI大語言模型XBrain可實現每2天迭代一次,智駕能力18個月提升30倍;數據體系能力和神經網絡架構,可實現快速診斷,以小時爲單位解決長尾問題。
隨着特斯拉的端到端大模型上車,2024年,中國車企的智能駕駛技術路線也開始出現大幅的轉變。
過去數年當中,中國車企智能駕駛輔助系統的技術路線爭議,大多聚焦在視覺感知、融合感知,在終端比拼的更多是開城速度、開城數量等。2024年初,華爲、小鵬等企業仍在比拼無高精圖化和真正的“全國都能開”。
端到端大模型上車之後,智能駕駛輔助系統的泛化能力大幅提升,針對單一地區的驗證、開城,重要性下降。同時,端到端弱化了此前感知、規劃、決策、控制等模塊區分,多家車企也開始基於端到端大模型的需求,重新調整自動駕駛團隊的組織架構。
2023年年底,理想對智能駕駛團隊進行了一次組織架構調整,在這次調整中,理想將大模型重新組成一個團隊,放在前端算法研發團隊之下,整體負責端到端架構的研發、上車;2024年,蔚來成立大模型部、部署架構與方案部、時空信息部,撤銷原來的感知部、規劃與控制部、環境信息部及方案交付部。
儘管端到端上車如火如荼,但目前大部分中國車企並未實現理論上的“One-Mode”端到端智能駕駛。
某自動駕駛公司CTO告訴記者,可以將端到端模型的智駕應用分爲兩個階段:第一個階段是two-model的方案,由一個端到端的感知和一個端到端的規控組成,這是目前業界用得比較主流的一個方向;第二階段是one-model的方案,一個大模型解決信息輸入到決策輸出,更加接近AGI的方向,但這個方向難度比較高,預估要到3-5年之後纔會得到一些規模化的應用。
目前行業普遍認爲,國內車企與特斯拉的研發進度差大概在1.5~2年。奇瑞汽車股份有限公司副總經理谷俊麗認爲,要在商業模式上追趕特斯拉,必須形成產品的規模化。“當數據達到特斯拉級別的百萬量級以上,通過對模型的強化訓練,智駕可學習視頻流,就能直接告訴司機駕駛的方向,像當下流行的ChatGPT一樣。”谷俊麗表示。
整車廠和供應商產生路線分歧?
在衆多車企接連上線端到端大模型,並鼓吹自動駕駛時代有望來臨的時候,不少專注於自動駕駛的供應商們卻發出了不同的聲音。
“特斯拉推出端到端的FSD之後出現了一些問題,車總是容易上路肩,尤其是夜間,有的時候會出現剮蹭,有的時候就直接衝上路肩,把輪胎給撞癟。”侯聰告訴記者,同樣是在美國,Waymo並沒有採用端到端大模型,但已經能夠在多個城市實現無人化的Robotaxi運營,用戶反響也相當不錯。
端到端大模型本身並不是一個近幾年才實現突破的新技術。
“2010年前後深度學習出現之前,都叫模型分析算法。當時我們在清華大學做過行人檢測,要從圖像裡提取一些特徵信息,比如人肩膀的弧度、眼睛的顏色等等,這些特徵是我們人力歸納出來的,也就是rule based;而深度學習出來之後,我們輸入圖像,讓深度學習自主學習,最後每個人不同的特徵是深度學習學出來的,不是人力定義出來的。這和如今的端到端一樣,是基於Learning based。”侯聰告訴記者,而這一系統和當前的端到端智能駕駛輔助一樣,需要海量的數據支持。
這也被認爲是車企競相選擇端到端大模型的重要因素之一。
和僅運營百餘輛測試車隊的L4自動駕駛供應商相比,車企通常擁有數十萬甚至百萬輛以上的產品在道路上行駛,用戶駕駛過程中能夠產生海量的數據,這有助於車企來訓練自己的端到端智能駕駛系統,幫助系統實現快速的迭代。
此外,某L2+智能駕駛輔助系統供應商的工程師董軍告訴記者,對於供應商而言,端到端智駕很難成爲一個標準化的產品;車身形式的變化、傳感器安裝位置的變化等,整個系統需要重新訓練模型,需要較多的成本和時間,效率不佳。
端到端大模型對於L2駕駛輔助的意義在於能夠加快開城速度,加速實現車企口中的“全國都能開”。但對於L4級別自動駕駛公司而言,端到端大模型也能夠在運營的初始階段降低系統對於高精地圖的依賴,使得公司能用更快的時間擴大運營範圍;但到運營的中後期,高精地圖仍舊有着重要影響,能夠進一步提升自動駕駛系統的可靠性、安全性和流暢性。
另一方面,和特斯拉、理想這樣已經實現盈利的車企相比,目前,絕大部分自動駕駛公司主要靠融資輸血。而端到端大模型上車,不僅需要海量的數據,還需要大量的資金投入。
“未來智能駕駛進入到L4階段,每年數據和算力都是呈指數級的增長,這意味着每年至少需要10億美金,5年之後需要持續迭代。在這樣的量級下,一家企業的盈利和利潤不能支撐投入的話是很困難的。所以,現在不需要關注投入多少億做自動駕駛,而是從本質上出發,是否有充分的算力和數據支持,再看看需要投入多少錢。”理想汽車智能駕駛研發副總裁郎鹹朋對記者表示。
極越汽車CEO夏一平則認爲,200億元曾被公認是造車的資金門檻,現在企業沒有500億元也做不好智駕。
更重要的是,對於Waymo、小馬智行這樣志在實現L4 Robotaxi的自動駕駛公司而言,他們對於系統權重、成本等方面的考慮,與整車廠有着巨大的差異。
和L2駕駛輔助不同,L3級以上自動駕駛,事故的責任主體將轉移到車輛,這對自動駕駛系統的穩定性、安全性提出了極高的要求。端到端大模型黑盒的不可解釋性,給自動駕駛系統帶來了一定的風險。
“車企接二連三推出端到端大模型的智駕,並大肆宣傳,核心還是爲了打造差異化,目的是把車賣出去。”董軍表示。
侯曉迪在接受媒體採訪時說道,如果特斯拉的FSD發生事故,那麼責任還是駕駛員,特斯拉要求駕駛員全程將手放在方向盤上,事故和特斯拉無關;此外,特斯拉的業務是賣車,FSD是賣車的附加價值。如果要考慮如何賣更多車,就不能像L4一樣在限定區域深耕,把這個區域所有corner case(極端情況)解決。
侯聰等自動駕駛公司的採訪對象提出,L4自動駕駛要求100%的安全,無法接受端到端的“黑盒”帶來的不可解釋和不確定性。此外,L2和L4在商業邏輯上有着巨大的差異。
對於整車廠而言,賣車是主要業務,成本決定了利潤和市場競爭力,那在產品上勢必無法佈置太多的安全冗餘;而L4 Robotaxi更重運營,在相當長時間裡會是to b的業務爲主,並不會直接服務消費者,那麼相關公司不僅僅需要考慮車,還需要考慮車輛運營中的各種情況。
“比如車卡住了怎麼辦,硬件壞了怎麼辦,發生事故了怎麼辦,這就需要更多的冗餘,而特斯拉就不能和Waymo一樣,預留很多冗餘,因爲兩者的商業邏輯不一樣。”侯聰說道。
世界模型成就自動駕駛?
儘管存在分歧,但多位自動駕駛公司技術人員在接受採訪時,也認同端到端大模型上車,能夠提升當前汽車智能駕駛輔助系統的能力上限。多位從業者表示,端到端大模型呈現出了“蹺蹺板”的狀態,端到端大模型上車能夠提升智能駕駛輔助系統能力上限,但也會降低系統表現的下限。
“端到端大模型是基於一個概率模型訓練,它有一個問題是對於比較簡單、比較容易描述的場景,往往它的輸出沒有那麼精確,底線比較低;特斯拉在這塊已經做得相當不錯了,但是還沒有完全解決這個問題。我們認爲在目前缺乏足夠數據的條件下,還是需要逐步實現端到端,一個模塊、一個模塊去替代,完成端到端的同時做好安全兜底,以這種比較堅實的工程基建和快速迭代的方式,能夠一步步提升系統的性能上限,同時也能夠保證系統性能的下限。”地平線總裁陳黎明表示。
端到端大模型基於數據驅動,輸入端是傳感器數據,輸出端是駕駛決策,但中間具有較強的不可解釋性,人無法得知系統作出最終決斷的過程,也常被比喻爲一個黑盒。
侯聰認爲,當前的端到端大模型智駕和此前的基於規則控制的智駕,和汽車的生產流程有一些相似,“以前造車,車企買不同公司的零件去拼在一起,一方面是方便採購,把供應商分散開,也不容易被‘卡脖子’;第二點是好維修,什麼地方壞了就修哪裡。多模塊的自動駕駛也一樣,優點是可以更好地定義問題、解決問題。”
以傳統的多模塊自動駕駛爲例,如果系統在測試中出現問題,研發人員可根據情況在相應的板塊發現bug,並進行修復。但對於端到端大模型這樣的黑盒而言,研發人員只能訓練策略,重新訓練,或修改模型,但修改“黑盒”中參數。並且隨着系統的升級和迭代,系統解決的問題越難,就需要越多的成本投入,這個給端到端大模型設立了較高的門檻。
另一方面,端到端大模型基於數據驅動,但海量的數據並不一定能夠對系統產生正向的提升。
小馬智行AI團隊負責人肖波認爲,即便算法很好、系統訓練做得也很好,從海量人類駕駛數據裡學習到的能力,差不多就是一個平均人類駕駛的水平,那麼這足以應對L2級別的智能駕駛輔助;但L4或者以上的自動駕駛,能力需要達到人類駕駛員的10倍甚至更多,這一模式並不足以支撐。
就在端到端呈快速普及趨勢的時候,國內車企和供應商們再度提出了新的“世界模型”概念。樓天城認爲,世界模型是目前最佳最重要的東西,將其理解爲通往自動駕駛的唯一解。
世界模型可以理解爲對真實世界的仿真與建模,可以真實準確地還原比如十字路口等場景的變化。比如鬼探頭時被遮擋的行人軌跡;車輛碰撞瞬間的行人與他車反應;甚至反映出人在跑步時減速度可以達到重力加速度等細節。同時,世界模型還是一個評分體系,對自動駕駛系統的表現做出評價,能夠得知A系統和B系統相比誰更好。
此前,蔚來、理想等車企已經接連發布旗下的“世界模型”。
蔚來自動駕駛副總裁任少卿表示:“相比於常規的端到端的模型,新的世界模型有三個我們認爲主要的優勢。第一個是在空間理解上,通過生成式模型,從重構傳感器的方式,更加泛化地抽取了信息。通過自迴歸模型,自動建模長時序環境。第三個,萬千世界需要更多數據,通過自監督的方式,無須人工標註,它是一個多元自迴歸生成模型結構,讓我們學得更好。”
樓天城則認爲,世界模型可以理解成一個人類模擬出來的“教練”,對L2系統而言,它的駕駛能力等同老司機;對L4系統而言,它的駕駛水平遠高於人類司機,由他來訓練智駕系統,結果肯定也好於人類司機。
儘管仍存在爭議,大部分受訪者仍認爲,在L2智能駕駛輔助階段,端到端大模型的確可以提升相關係統的性能上限。大多數L4自動駕駛公司的從業人員所不認同的是,特斯拉、小鵬等車企大肆宣揚端到端技術加持下,產品以L2智能駕駛爲基礎,甚至在L2的硬件水平上實現L4自動駕駛能力。
“現階段的車企大肆宣傳端到端,把端到端塑造成一個通向自動駕駛的尖端技術,背後更多還是爲了多賣車。”董軍說道。