小鵬稱端到端智駕真正競賽在雲端
算力上的提前佈局,讓小鵬汽車在國內率先實現端到端智能駕駛大模型量產上車。小鵬汽車認爲,端到端只是開始,不是終局,真正的競賽正在雲端展開,雲端大模型纔是制勝關鍵。擁有強大算力的阿里雲,支撐小鵬汽車端到端大模型的快速迭代。
智能駕駛近兩年的提速,端到端技術無疑是關鍵動因。
2024年10月24日,小鵬汽車宣佈AI天璣5.4.0正式開啓公測,並首發搭載在小鵬P7+上。新版本爲小鵬汽車帶來了最強AI智能駕駛功能,根據數據統計,已經享受到公測版的P7+用戶,在用戶滲透率和里程滲透率上均取得了顯著提升。早些時候,小鵬汽車已經完成了國內首個端到端智能駕駛大模型量產上車。
▲小鵬汽車發佈AI天璣5.4.0系統,大幅提升智能駕駛能力
這一系列的成績,源於小鵬汽車多年來全力投入AI的決心。早在2022年,小鵬汽車就率先完成城市導航輔助駕駛(NGP)的落地。當時,小鵬汽車自動駕駛團隊就在思考,是否需要更進一步提升AI泛化能力。同年4月,小鵬汽車開始嘗試對傳統智能駕駛中的感知、融合、預測、規劃、控制、定位等技術模塊進行融合。這也成爲小鵬汽車探索端到端大模型的雛形。
小鵬汽車董事長何小鵬在談及端到端智能駕駛大模型時強調,“往後10年、20年,我不知道今天的大模型邏輯是否會適用,但它一定會比之前的算法或規則模型都要強。”
智能駕駛新一輪競爭正圍繞算法、算力、數據三要素展開,出現任何一塊短板,都將引發木桶效應。這場競賽中,小鵬汽車和阿里雲一直在並肩前行。
0 1
AI席捲智能駕駛
小鵬汽車篤定端到端技術路線
端到端(End-to-End),起初並非源於智能駕駛,而是多用於深度學習領域的一套方法,並且在語音識別、自然語言處理等領域已有比較多的學術研究。其設計原理是神經網絡在學習中不進行分模塊或分階段訓練,直接從輸入數據到輸出結果,減少人爲干預和預處理的需求,類似於encoder-decoder架構。
端到端技術能夠避免傳統人工特徵提取中的信息損失,提高模型的效率和準確性,簡化訓練流水線。
在智能駕駛領域,端到端智能駕駛方案利用統一的深度學習神經網絡,將感知、規劃與控制等多個功能模塊整合爲一體。將攝像頭、傳感器實時採集的原始數據作爲輸入,直接輸出爲轉向、加速、制動等駕駛指令,這種一體化架構實現了信息無縫傳輸並降低延遲,讓汽車反應更加順滑。特斯拉在北美率先推出的FSD V12版本,就採用了端到端技術。同樣,小鵬汽車在國內快速推進了端到端智能駕駛。
小鵬汽車選擇的是“雲端大模型”路線,通過構建雲端大模型,然後將雲端大模型蒸餾到車端,在車端進行模型部署。小鵬雲端大模型的參數量是車端的80倍,雲端強化訓練後,車端大模型的上限大幅提高。
▲小鵬雲端大模型的參數量是車端的80倍
據小鵬汽車自動駕駛產品高級總監袁婷婷介紹,端到端往往包含非常複雜的深度學習網絡。但大模型的黑盒問題導致難以解釋其決策過程和推理邏輯,尤其是表現出不良效果後,不可解釋性還增加了解決和驗證的難度,更無法保證其安全可靠性。
基於此,根據端到端的思路,小鵬汽車隨即推出了“三網合一”架構,其中XNet類似於人的眼睛,對現實世界中的可通行空間進行3D還原;XPlanner類似於人的肌肉和小腦直覺,通過海量數據的不間斷訓練,優化駕駛策略;XBrain類似於人的大腦,會進行更深入的理解和意圖推理,包括時序、環境、路牌文字等。三網以全局性視角聯合執行駕駛任務,可以對模型進行聯合預訓練和標註,同時三網又各有側重,出現問題可快速診斷定位,瞭解模型和系統的缺陷問題。更重要的是,在駕駛安全性上,三網使得系統應對一些特殊、緊急場景的上限變得更高的同時,也需要一定的安全措施保證下限。
在端到端技術的加持下,小鵬汽車整體邁向了以輕地圖、輕雷達、重算力爲核心的智能駕駛方案。針對複雜路況,能夠做到點到點的輔助駕駛能力,包括自動通過高速ETC閘機、紅綠燈識別、擁堵路段跟車以及主動變道超車等等。尤其在體驗和流暢性上,用戶基本感覺不到任何斷點。
小鵬汽車自動駕駛產品高級總監袁婷婷指出,行業內一般用記憶泊車VPA(Valet Parking Assist)+NOA(Navigate on Autopilot)城市輔助駕駛的方式來實現車位到車位,這也是小鵬在2021年採用的方案。但使用拼接方案,就會存在卡頓,比如汽車行駛到停車場與公開道路的交匯點時,會因切換軟件導致卡殼現象。
▲目前行業內主要有三種端到端技術路線
目前小鵬汽車已經通過端到端智能駕駛大模型對其能力進行了全面升級,在行業內首個用一套智能駕駛軟件以及基於“端到端大模型”實現“車位到車位”。在最新的測試場景中,車位到車位的整條鏈路——從園區內、地庫內,到過閘機,再到公開道路的銜接,都能以更加流暢的體驗方式實現。此外,路線規劃也能夠無感生成,讓駕駛變得更加便捷高效。
“絲滑、篤定、直覺性”這些用於形容老司機開車一樣的駕駛體驗,正在小鵬汽車端到端智能駕駛系統上呈現。
可以看到,端到端的出現,突破了原先依靠規則驅動的智能駕駛研發體系,至少在當前階段,端到端已是自動駕駛競爭的關鍵技術路徑之一。
02
真正適配智能駕駛的算力底座
多年來在端到端智能駕駛大模型上的投入,模型參數量的急劇擴張,使得小鵬汽車智能駕駛系統和功能迭代速度持續加快。
由於當前車端芯片算力的限制,即便採用兩片Orin芯片,能支持的車端模型參數量依然有限。而云端大模型可以全面吸納智能駕駛數據,不遺漏重點信息細節。通過大量數據訓練,儘可能窮盡智能駕駛中的長尾問題,以覆蓋更多駕駛場景,使XNGP實現L3級的智能駕駛體驗。
訓練一個雲端大模型,對大規模高性能算力以及數據存儲和處理提出了非常高的要求。其一,提高並行訓練性能和利用率的要求,這對雲基礎設施包括網絡互聯、帶寬,以及系統軟件優化等帶來了挑戰;其二,對模型訓練持久穩定性的要求,比如模型訓練中斷,訓練出現問題後能否快速拉起任務,縮短故障時間;其三,大規模多模態數據的存儲與處理能力,實現並行訓練的高性能、高吞吐,滿足模型訓練不斷提升的數據量增長需求;其四,海量數據的存儲成本要求,在滿足數據處理性能要求的前提下,通過支持數據分層存儲,實現最優的成本。
實現這些要求並非易事。大模型的預訓練需要集羣化,構建萬卡甚至更大規模的集羣,且整個集羣需要組成一個龐大的“整體”。形象來說,就像每一排都有兩個人且兩人之間把腿綁在一起,共同前進。只有每張GPU卡、每臺機器都以相同的“步伐”前進,才能提升整體的模型訓練效率。
早在2022年,小鵬汽車就與阿里雲在烏蘭察布建成了當時中國最大的自動駕駛智算中心“扶搖”,用於自動駕駛模型訓練。“扶搖”依託於阿里雲靈駿智算集羣構建,該集羣是阿里雲面向AI時代打造的智能算力基礎設施,支撐了小鵬汽車端到端智能駕駛大模型的快速迭代。
▲2022年小鵬汽車與阿里雲合作建立自動駕駛智算中心
隨着模型規模擴大到百億甚至千億量級,一次訓練任務需要更多GPU協同,規模會放大很多問題。
首先碰到的問題就是擴展集羣規模是否能帶來訓練任務相同倍數的線性加速。爲了將“相同步伐”效率提升到極致,阿里雲升級到HPN 7.0網絡架構,把網絡能力推向一個全新的高度。通過3.2Tbps高性能RDMA網絡連接,讓服務器之間的通訊更順暢;自研的擁塞控制算法解決了路由的複雜度和數據交換的衝突;同時,訓練過程實現自動網絡拓撲感知調度,爲大模型訓練自動調度最佳網絡拓撲的計算節點,從而減少通信開銷,進一步提升訓練效率。
此外,計算和存儲流量分離大大減少存儲IO和計算通信的互相干擾,進而提升了整體GPU集羣的計算效率。小鵬汽車在阿里雲上的千卡級訓練任務線性加速比可以達到90%以上。
由於訓練任務的特殊性,部件故障會導致整體訓練停滯,如何儘可能早的預測故障,以及發生故障後系統能快速拉起恢復,是令小鵬汽車自動駕駛技術團隊頭疼的第二個問題。
小鵬汽車自動駕駛中心大數據管理部負責人Jay提到,“訓練是一個持續幾十天的過程,當我們的訓練規模越大,就有可能遇到越多的意外情況,訓練過程中,穩定性非常重要。”
針對這些問題,阿里雲技術團隊採取了一系列措施以提高系統的穩定性和訓練效率。阿里雲提供千卡集羣健康檢測能力,可實現對計算集羣包括單節點算力檢查,單節點內GPU互聯檢查,多節點互聯檢查等,實現在訓練前、訓練中和故障後及時發現問題節點,並通過AI助手設置運維策略,保障集羣整體資源穩定可用。同時,配置節點分鐘級自動自愈能力以及秒級的訓練進度保存機制,實現故障後任務仍可以自動恢復,並以無損的訓練進度實現續訓,從而節約訓練時間、降低訓練成本。
今年,小鵬汽車也開始使用阿里雲容器計算服務ACS,該服務爲小鵬提供基礎設施全託管算力服務,無需管理和維護底層服務器,即使遇到服務器發生故障,應用也能迅速切換到其他服務器,確保模型訓練的連續運行。
▲小鵬汽車在雲端加速智能創新
智能駕駛模型的演進迭代需要海量數據,過程中的數據採集、挖掘、處理,又同樣對存儲、數據處理能力提出了更高要求。
截至今年9月小鵬汽車公開數據顯示,小鵬汽車使用了折算里程超10億+公里的視頻訓練,累計646萬公里、1972個城市和區縣的實車測試,以及累計2.16億公里、2.2萬核心模擬場景、5.8萬專業模擬場景的仿真測試。
阿里雲把內存、本地磁盤、CPFS高性能並行文件存儲以及OSS對象存儲等形成一個完整的階梯型存儲架構,進行統一的管理,把熱數據放在延遲最低的存儲上面,並實現冷熱數據的自動流轉,不斷提升存儲的使用效率,降低存儲成本。
數據的積累屬於基礎,更重要的是讓數據有效轉起來。小鵬汽車通過自研工具鏈結合阿里雲大數據平臺、數據庫服務等實現全棧數據閉環,對數據的清洗處理以及高效的挖掘。數據的高效流轉,端到端大模型的大規模分佈式訓練,實現測試階段實車測試與仿真測試並重,加快迭代節奏,推動智能駕駛技術的快速發展。
小鵬汽車自動駕駛中心大數據管理部負責人Jay表示:“明年小鵬整體的數據量將迎來大幅度提高,更需要雲基礎設施做很好的承載。”
03
當智能駕駛的熱情被點燃
何小鵬曾說過:“小鵬從創始之初就一直致力於做中國的自動駕駛第一。”
通過“All in AI”,小鵬汽車不僅率先實現端到端智能駕駛大模型量產上車,根據“端到端四部曲”規劃,在未來兩年,小鵬還將基於L2的硬件和成本實現L3+的用戶體驗,並最終通往L4無人駕駛。
小鵬汽車自動駕駛負責人李力耘曾在接受採訪時表示,端到端時代,好似從冷兵器時代來到熱兵器時代。過去的輔助駕駛時代是“冷兵器時代”,只要湊齊了武林高手就可以打。但熱兵器時代需要更大的算力、更多的數據、讓算力和數據流轉起來的機制和工程能力。擁有強大算力的阿里雲,也將持續支撐小鵬汽車端到端大模型的快速迭代。
來源:雲棲戰略參考、車東西