☰

忽如一夜春風來，家家都喊“端到端”

今年，除了固態電池，自動駕駛領域的“端到端”，也在被狂炒。

特斯拉的示範效應真的很厲害，隨着Tesla V12在北美大範圍推送以及表現，“端到端”也成爲了自動駕駛行業裡大家最爲關注的技術方向。

當然，國內最大的毛病衆所周知，就是營銷前置。就像固態電池，還沒整出什麼大規模量產，先在傳播上來吹一波。而且，到了似乎不提端到端都不好意思出門的程度。

那麼，什麼纔是端到端？這些真真假假的端到端，到底有多少乾貨呢？

端到端的“黑盒子”

先來理解一下，所謂“端到端”自動駕駛，打個不恰當的比方，就像做菜，你在“黑盒子”的這邊輸入食材，然後另一邊一步到位輸出做好的菜。

因爲，現在主流的自動駕駛方案，都是模塊化的。就是我們熟知的“感知、決策和執行”三大模塊。而“端到端”就是把三個直接變成一個，從傳感器數據輸入開始，中間只要一步，到控制信號輸出（馬斯克所說的Photon to Control），實現完整閉環。

這個操作也樹立了目前自動駕駛領域的最高水平和標杆，所謂“無招勝有招”、“一招制敵”。但是，這也反映了一個尷尬的行業事實，就是特斯拉在自動駕駛領域還是一騎絕塵的。

而這個來源於特斯拉CEO埃隆·馬斯克（Elon Musk）口中的端到端，也就是End-to-End Deep Learning（端到端深度學習），簡言之，就是要建立一個完整的學習系統，直接從原始數據中不斷學習，並生成所需的輸出，不需要人爲將任務分解成多箇中間步驟。

而當下普遍應用的三大模塊的優點是技術較爲成熟，開發起來的確定性更強。但是，這種技術架構下，自動駕駛車輛在極端案例（Corner Case）方面，仍然依賴工程師編寫大量代碼去制定行駛規則。

單靠數據訓練出來的各個模塊，很難處理沒碰到過的情況，也就是需要不斷用“規則”去填俗稱爲“坑”的各種Corner Case。同時，爲了迅速擴大量產車上自動駕駛系統覆蓋範圍，車企不得不招募更多的軟件工程師，比如，華爲自動駕駛的規控團隊就招募了上千名工程師。

而自動駕駛方案中的模塊化，也是不斷進化而來。從2017年前的9個模快（僅感知環節就有檢測、目標跟蹤和融合數據3個模塊），到多傳感器融合後，現在的感知、決策（或者叫預測）和執行（或者叫規劃控制）三大模塊。

從“融合”的角度來說，當三大模塊融合爲一個“黑盒子”來輸出執行結果的時候，實際上要求是更高的，不然特斯拉爲什麼這麼多年才能推出端到端？對吧。背後是基於強大的DOJO超算中心，以及更多的GPU。

而且，這種徹底的端到端“黑盒子”，技術上很難進行Debug（調試）和迭代優化，同時由於傳感器輸入信號如圖像、點雲等是高緯度（參數丨圖片）的，控制信號輸出如方向盤轉角和油門剎車踏板信號等是相對低維的，在端到端訓練中非常容易“過擬合”，導致實車測試完全無法使用。

“沒有金剛鑽，不攬瓷器活。”國內最近一些企業則聲稱自己是端到端感知，或者端到端決策，只是各種細枝末節的“端到端”，這隻能算作是純數據驅動的感知和純數據驅動的決策規劃階段。

換句話說，做得好點的還只是前兩個模塊的融合，根本做不到輸出控制（執行）的結果。現在大肆宣傳，不過是蹭熱點、炒個概念。

端到端爲什麼會熱起來？還有個因素，是去年商湯絕影的UniAD（Unified Autonomous Driving）獲得了CVPR 2023 Best Paper最佳論文獎。雖說不算是衆望所歸，但也給自動駕駛行業注入了一劑強心劑。

但國內對UniAD褒貶不一，這種褒貶不一不僅僅體現在感知、預測、規控各個團隊的獨立視角上，還體現在自動駕駛領域學術界和企業界的鴻溝（Gap）。畢竟，企業面對的Corner Case也遠多於學術界。

再說，故事講得再流暢，畢竟需要量產落地。因爲，預研的技術是要落到實車上才能最終體現價值。

但UniAD的論文裡面沒有提供實車數據（不包含Nuscenes）的數據和Demo，只有開環評測，沒有閉環評測。

雖然北京車展上商湯絕影面向量產的UniAD完成上車演示首秀，但實際效果肯定是需要驗證的。

端到端的難點

端到端自動駕駛的前景，肯定是光明的。但是，道路肯定是曲折的。

比如，端到端方案中的一體化訓練就需要海量數據，因此，難點之一就在於數據的收集和處理。獲得海量的行車數據，也是訓練端到端自動駕駛模型的入場券。

馬斯克去年在財報會上談到過數據對自動駕駛模型的重要性，“訓練了100萬個視頻Case，勉強夠用；200萬個，稍好一些；300萬個，就會感到Wow；到1000萬個，就變得難以置信了。”

而數據的收集需要大量的時間和渠道，數據類型除了駕駛數據外還包括各種不同的道路、天氣和交通情況等場景數據，特別是，實際駕駛中周圍方位的信息收集難以保證。

其次，數據處理時還需要設計數據提取維度、從海量的視頻片段中提取有效特徵、統計數據分佈等，以支持大規模的數據訓練。這點需要鉅額的投入和成本。

因爲，並不是所有的行車數據都可以用來訓練端到端模型。有自動駕駛工程師就發現，原本積累的路測數據只有2%可用。想讓端到端模型具備通用能力，必須用不同場景中的高質量數據訓練模型。

還有，《馬斯克傳》中馬斯克也親口解釋過，特斯拉全球200萬臺車每天約可收集1600億幀的駕駛視頻用於模型訓練。但是，管理如此龐大的數據並非易事，因爲絕大多數視頻都是無用的。

真正寶貴的是那些車流量異常大、或是有衆多行人做出各式各樣的行爲、路況極其複雜的畫面，但是這個佔比甚至連1% 都不到。而爲了提取這1%畫面，需要龐大人力、算力、儲存甚至是電力等鉅額成本。

就拿最重要的算力來說，門檻也極高。馬斯克曾在今年三月初在X.com上表示目前FSD的最大限制因素是算力，而在得到緩解後，4月初馬斯克又表示，今年Tesla在算力方面的總投入將超過100億美元。

此外，2024年Q1財報會議上，Tesla透露如今已經擁有35000塊H100的計算資源，而2024年底這一數字將達到85000塊。這意味着，要達到跟目前FSD V12同樣的水平，大概率35000塊H100和數十億美金的基礎設施資本開銷是必要前提。再往下，門檻還在進一步拔高。

數據獲取成本高昂，再加上數據隱私和安全問題，數據標註和清洗困難，以及法律和監管限制等等，都限制着數據的獲取。那麼，國內的車企，又有哪個能承擔如此高昂的這些成本呢？

除了數據收集的挑戰外，“數據對齊”也是自動駕駛技術中面臨的一大難題。

自動駕駛領域，面臨着海量未標註的異構行爲大數據。這些數據來自於不同的傳感器、設備和環境，具有不同的格式和特徵。要能用於自動駕駛的訓練和應用，就需要進行準確的數據對齊。

而數據對齊的難點在於如何確保不同來源的數據在語義上保持一致。因此，往往涉及到複雜的語義理解和轉換過程。這不僅需要先進的算法和技術支持，還需要對這個領域有深入理解。

所以，撥開營銷的迷霧，我們就知道，端到端的真相是什麼。

“簡約不簡單”，端到端不是說哪個單項做好就行，而是需要系統所有模塊都達到一個較高的性能水平，才能在端到端的決策規劃控制輸出中達成較好的效果，這種端到端系統數據門檻，是遠高於感知、決策、執行單個模塊的數據需求的。

國內的企業，還是需要踏踏實實把腳下的路走好纔是。

忽如一夜春風來，家家都喊“端到端”

相關資訊