對話智源研究院副院長林詠華:當下已進入語言模型深水區 預計2025年會出現更多新的多模態模型
《科創板日報》20日訊(記者 李明明)近日,智源研究院發佈並解讀國內外100餘個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果。
智源評測發現,2024年下半年大模型發展更聚焦綜合能力提升與實際應用。多模態模型發展迅速,涌現了不少新的廠商與新模型,語言模型發展相對放緩。模型開源生態中,除了持續堅定開源的海內外機構,還出現了新的開源貢獻者。
就評測結果顯示當前語言模型發展放緩的具體原因,智源研究院副院長兼總工程師林詠華在接受《科創板日報》記者採訪時表示,首先,現在最優秀的語言模型已經發展了一定的基礎能力,再明顯的增長不是特別容易,不能只是拼更大的參數或更多的數據這條路,而是需要更多的深入創新才能提升,因此,會看到更新更大的語言模型出現的頻率有所減緩,因此現在進入了語言模型的深水區。
從全球模型的發展情況來看,模型尺寸出現兩極分化。11月Hugging Face下載量最高的模型顯示,高下載量出現在兩極分化的模型上,一類是更大更強的稠密模型,像Llama3.1的405B全球一個月的下載量是七八百萬,也是下載量最高之一。但是剩下的高下載量則很多是7B或以下的小模型。
“其次,可以看到多模態模型的潛力。目前多模態模型的需求蓬勃發展,但是,相較語言模型來說,其在基礎能力上有明顯的提升空間。2025年,預計多模態模型會層出不窮,包括開源模型,會有更多新的多模態模型。” 林詠華說。
“百模”評測結果:文生視頻模型畫質進一步提升 但普遍存在大幅度動作變形等問題
智源研究院評測結果顯示,語言模型,針對一般中文場景的開放式問答或者生成任務,模型能力已趨於飽和穩定,但是複雜場景任務的表現,國內頭部語言模型仍然與國際一流水平存在顯著差距。
在語言模型主觀評測重點考察模型中文能力方面,結果顯示字節跳動Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在語言模型客觀評測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節跳動Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。
在視覺語言多模態模型方面,雖然開源模型架構趨同(語言塔+視覺塔),但表現不一,其中較好的開源模型在圖文理解任務上正在縮小與頭部閉源模型的能力差距,而長尾視覺知識與文字識別以及複雜圖文數據分析能力仍有提升空間。評測結果顯示,OpenAI GPT-4o-2024-11-20與字節跳動Doubao-Pro-Vision-32k-241028先後領先於Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro緊隨其後。
在文生圖多模態模型方面,今年上半年參評的模型普遍無法生成正確的中文文字,但此次參評的頭部模型已經具備中文文字生成能力,但整體普遍存在複雜場景人物變形的情況,針對常識或知識性推理任務,小於3的數量關係任務表現有所提升,大於3的數量關係依然無法處理,涉及中國文化和古詩詞理解的場景對於模型而言是不小的挑戰。評測結果顯示,騰訊Hunyuan Image位列第一,字節跳動Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可圖次之。
在文生視頻多模態模型方面,畫質進一步提升,動態性更強,鏡頭語言更豐富,專場更流暢,但普遍存在大幅度動作變形,無法理解物理規律,物體消失、閃現、穿模的情況。評測結果顯示,快手可靈1.5(高品質)、字節跳動即夢 P2.0 pro、愛詩科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。
2025年基於語言模型會產生更多Agent
隨着技術的不斷成熟和應用場景的不斷拓展,多模態大模型也在各個領域發揮越來越重要的作用。相應的各家大模型廠商去年目標多是追逐AGI,今年則開始發力應用。
對於AGI和應用這兩者的優先級,林詠華告訴《科創板日報》記者,通過整理今年5月和12月的兩組對比數據,可以看到,以語言模型爲例,追逐更大更強的語言模型,尤其是開源模型的這些廠商數量在減少;同時,本次評測的開源模型中,國內新出現的廠商較少。
因此,對於國內大模型廠商來說,很多廠商經過一年多的訓練,其模型能力已經到達了一定應用的可能性,需要儘快做應用落地。
林詠華進一步表示,如今依然還有少部分的廠商和機構會在AGI的路上不斷往前走,例如META今年推出了405B的超大模型,其全球下載量也很大,智源發佈的Emu3也是完全原生的多模態世界模型等。因此目前的趨勢是,全球開始有分層有分工地追求AGI,一部分不斷地追求更強更大的AGI模型,另一部分則希望有好的模型做應用嘗試。
但是,今年沒有特別明顯的killer APP出來,智源從評測的衆多模型來看,明年AI應用的趨勢會體現在哪些方面?
對此,林詠華告訴《科創板日報》記者,AI應用的具體情況和模型發展到什麼階段相關。例如,今年很多AI應用是以語言模型爲基礎,經過2023年語言模型的蓬勃發展,2024年語言模型基礎能力水平較高,並開始發展複雜的應用能力,所以出現以各種的語言模型爲支撐的AI應用。
2025年,語言模型會繼續往前發展,基於語言模型會產生更多的Agent,然後圍繞Agent來做更復雜的AI應用和系統,這也是明年的熱點之一。
同時,經過今年的發展,無論是開源模型,還是閉源模型,2025年都會出現基於文生圖、尤其是文生視頻的應用。
另外,如果從模型的能力上看,以VLM多模態爲代表的跨模態視覺語言模型,在企業的落地場景會有很多,現在有一些已經落地,有一些還在探索當中。明年把基礎能力做得更好,也會形成新的AI應用。
如今,互聯網科技巨頭大力推多模態大模型,而且算力和算法等也是這些巨頭的優勢。那麼,相對於巨頭以及先崛起的AI六小龍,目前正待崛起的小的模型企業,他們的機會在哪?
林詠華認爲,多模態模型有不同的訓練方法,如果用VLM的做法,通過語言塔加視覺塔爲基礎進行訓練,不需要完全從頭開始。 此外,多模態模型上可以有不同的創新,比如,不同模態的連接方式、預處理、後處理、微調學習、強化學習等,是那些資金不強但是創新能力足夠強的團隊可以做的事情。
此外,林詠華還表示,互聯網大廠在模型的技術能力上有兩方面的優勢。
“首先,語言模型需要更多的用戶使用,才能起到數據飛輪的作用,互聯網大廠有很強的流量優勢,對比流量小的模型廠商有天然的優勢;其次,在文生圖、文生視頻方面,像字節、快手的優勢在於數據,其本身有短視頻平臺,積累了相關的高質量數據,會比其他的非互聯網廠商有明顯的優勢。”