“AI春晚”背後的故事

算力消耗高、幻覺問題棘手、多模態原生統一難……大模型轟轟烈烈發展至今,仍然面臨技術上的諸多挑戰。瞄準這些“痛點”,智源研究院放了個大招。在北京智源大會上,涵蓋大語言模型、多模態大模型、具身智能大模型以及生物計算大模型的“智源大模型全家桶”面世。智源研究院院長王仲遠曾給智源的研究作出過一個高度概括——各家企業都在嘗試的、已經相對成熟的技術路線,智源不做。智源要做的是攻克大模型的核心關鍵痛點,是解決行業前沿的技術難題。

“靶向”創新

“AI的盡頭是算力,算力的盡頭是電力。”而這一切也建立在一個不可避免的場景上,大模型約等於大算力,過往席捲全球的“算力荒”情況足以說明一二。

爲解決這一問題,6月14日,智源研究院和中國電信人工智能研究院(TeleAI)基於模型生長和損失預測等關鍵技術,聯合研發並推出全球首個低碳單體稠密萬億語言模型Tele-FLM-1T。該模型與百億級的52B版本、千億級的102B版本共同構成Tele-FLM系列模型。

據瞭解,Tele-FLM系列模型實現了低碳生長,僅以業界普通訓練方案9%的算力資源,基於112臺A800服務器,用4個月完成3個模型總計2.3Ttokens的訓練,成功訓練出萬億稠密模型Tele-FLM-1T。模型訓練全程做到了零調整零重試,算力能效高且模型收斂性和穩定性好。

目前,TeleFLM系列模型已經全面開源了52B版本,Tele-FLM-1T版本即將開源。

在接受北京商報等媒體採訪時,王仲遠說:“Tele-FLM-1T雖然還在訓練當中,但它證明了我們的生長技術能夠使用很少的算力就達到一個相對不錯的結果。另一方面,我們也希望這樣一個萬億稠密模型能夠促進整個開源社區的發展,讓大家不需要從頭開始訓練萬億參數模型,也就不需要從頭解決收斂的問題。”

具身智能

得益於大模型的通用能力,機器人有了注入“靈魂”的可能。王仲遠提到,智能體很可能會成爲大模型出現爆款應用的一個方向。因爲大模型的通用能力意味着可能出現真正意義上的智能助理,如果未來每個人都能擁有這樣一個助理,並且足夠智能且好用的話,就會催生巨大的產業變革。

但具身智能也面臨着實時性、敏捷性等方面的具體挑戰。在北京智源大會上,智源研究院具身智能創新中心也分享了在機器人泛化動作執行和智能大小腦決策控制等方面取得的多項世界級突破性成果。

而在分級具身大模型系統方面,智源研究院則研發了能夠從失敗中重思考、再嘗試的鉸接物體操作大模型系統SAGE。該系統有效結合了三維視覺小模型對空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識,使大模型驅動的機器人能夠在任務執行失敗時重新思考並再次嘗試新的交互方式,實現了傳統機器人技術無法企及的智能性和魯棒性。

具身智能泛指人工智能技術尤其是大模型技術與物理世界不同硬件的結合,人形機器人只是具身智能的一種表現形態,即承載具身智能的本體是人形機器人。近來備受資本市場關注的也是這一內涵的人形機器人。

爆發節點

接受採訪時,王仲遠常強調的一件事就是,智源研究院要做企業沒做過的事,要做“不可能”,要做真正的技術突破和原始創新,王仲遠說,這是智源的一個重要使命。

對原始創新的追求貫穿於研究始終。比如智源研究院推出的Emu3原生多模態世界模型,就沒有采用業界常用的DiT架構,而是採用智源自研的多模態自迴歸技術路徑。

原始創新意味着孤注一擲的押注,也意味着極大的挑戰和可能存在的失敗風險。王仲遠說,原始創新同樣遵循科學規律,這就說明存在着失敗的可能,“呼籲社會能夠給原始創新一個更寬容、更寬鬆的環境,創新不一定會成功,但即使失敗也是非常有意義的失敗”。

但大模型自身的發展和外界尤其是普通用戶的感知又常常存在着一定的“溫差”。對此,王仲遠對北京商報記者說:“我們不能高估一次技術革命的速度,也不能低估一次技術革命的深度和廣度。幾年前我覺得AGI離我們還有四五十年的距離,但現在我覺得這個距離只有四五年,很多時候突破就是一瞬間的事情。而且最後不管是B端的爆發還是C端的殺手級應用,都是一定會到來的,而當絕大部分用戶感知到的時候,已經是爆發之後的事情了。”

至於這個爆發的節點,王仲遠預測,可能要到GPT-4下一代技術成熟的時候。

北京商報記者 楊月涵