AI大模型前瞻:多模態融合、上下文、雲端協同成趨勢|直擊2024GDC

《科創板日報》3月24日訊(記者 黃心怡)在今日舉行的“2024全球開發者先鋒大會”大模型前沿論壇上,上海人工智能實驗室領軍科學家林達華總結了過去一年大模型的發展,並對未來趨勢進行了前瞻分析。

他表示,GPT-4已經發布一週年,過去一年的成果超越了過去十年的積累。目前,上下文、推理能力、更高效的模型架構是技術探索的重點方向,輕量級模型嶄露頭角,開源模型快速發展。

林達華介紹,大模型時代,技術演進有兩股主要的驅動力量:一是對AGI(通用人工智能)的追求,對尺度定律(Scaling Law)的信仰;二是對大模型帶來新一次產業變革的憧憬。

在模型架構方面,業界從追求參數到追求更高效的規模。林達華以人腦爲例,人腦的效率遠高於主流大模型的架構,人腦包含60-100萬億個神經元突觸連接,其運行功率僅20瓦,而千億參數模型的推理功率是它的百倍以上,處理的信息更單一。

其中,MoE(Mixture of Experts)值得關注,經過良好訓練的MoE可取得比同等激活參數量的稠密模型更好的性能。業界也在探索Mamba模型等,以低複雜度的注意力架構更高效地處理上下文。

在訓練數據方面,從追求數量到尋求規模化構建高質量數據的路徑。他表示,訓練數據包括三要素:規模、質量、多樣性。在規模方面,早在ChatGPT之前,DeepMind等研究報告已指出訓練數據要和模型參數同步增長。

數據質量在大模型訓練中扮演越來越重要的角色,訓練數據的質量對模型水平影響很大,低質量數據對模型可能產生破壞性影響。增強數據的知識密度,能帶來更高的訓練效率。此外,好的數據集是非常多樣化的,均衡分佈在充分大的語義空間中。而互聯網語料數據的分佈極不均勻,存在大量低水平重複的語言模式,可能帶來模型能力的塌縮,合理的resampling(重採樣)策略能大幅度降低其負面影響。

多模態融合將成爲重要趨勢,相關技術探索仍在路上。另一趨勢則是自2023年下半年開始,上下文長度快速增長,呈現數量級增長。

在Kimi宣佈升級至 200萬上下文無損輸入後,阿里通義千問宣佈向所有人免費開放1000萬字的長文檔處理功能,而360智腦正式內測500萬字長文本處理功能,即將入駐360AI瀏覽器。

林達華認爲,上下文支持能力的提升,意味着更廣闊的應用可能性。比如2K長度的上下文主要用於日常聊天、知識問答、短文理解。32K可以支持擬人對話、長文分析、代碼解釋和縮寫。100K可支持長報告/短篇小說、智能體長時間交互,以及簡單的軟件和網站構建。如果達到百萬量級,則能支持長篇小說、直接注入小型知識庫等。

智能體也成爲業界關注的方向,林達華認爲這是大模型應用的重要形態,但需要核心基礎能力的支撐。

林達華還預計,雲端在指數級成長的同時,端側即將迎來黃金增長期。當下,國內頭部安卓手機廠商均已入局AI手機,聯想、榮耀等終端廠商還發布了首款AI PC。

林達華相信,雲端協同將成爲未來的重要趨勢,由雲側計算建立天花板,端側計算將支撐用戶使用大規模放量。

從國內大模型的發展來看,GPT-4依然保持領先。國內前列的模型在主客觀變現上都超過了GPT-3.5,商用閉源的大模型表現比開源模型更好,但是開源模型進步非常快。

不過,他也強調,要審慎地看待大模型榜單。因爲任何榜單都有特定的偏重,而且任何排名都是短暫的,根據評測找到解決問題的路徑,對於AI發展有更長的生命力。

國內大模型與GPT-4的真正差距在於推理能力。林達華稱,特別是隨着推理難度的提升,GPT-4和其他模型,重量級模型和輕量級模型逐漸拉開差距。相比常識推理、演繹推理,歸納推理是差距最大的類型。

林達華最後表示,大模型時代,AI產業分工將會被重塑,最強的大模型公司也不會壟斷一切,在特定領域的數據優勢,可以讓一個模型在局部形成對GPT-4的超越。