國產大模型往哪兒去?
產業化落地是關鍵。
文丨海克財經 範東成
AI領域又添波瀾。
12月7日,醞釀已久的谷歌正式發佈了Gemini多模態大模型。
官宣Gemini 1.0版本中包含Gemini Ultra、Gemini Pro、Gemini Nano這3個不同尺寸,Gemini Nano主要應用於設備端,Gemini Pro適用於在各種任務中擴展,功能最爲強悍的Gemini Ultra仍在進行信任和安全檢查,並進行微調和基於人類反饋的強化學習,預計2024年初向開發人員和企業客戶推出。
在此之前,IBM宣佈聯合Meta與AMD、英特爾、甲骨文、康奈爾大學、耶魯大學、加州大學伯克利分校等合作推出“AI聯盟”,共同支持AI的開放創新。IBM董事長阿爾溫德·克里希納表示,IBM希望通過合作,讓AI聯盟能夠在安全性、責任性和科學嚴謹的基礎上推進創新型AI的議程。
頗爲顯眼的是,AI聯盟的合作機構名單中並無谷歌以及ChatGPT背後公司OpenAI的身影。不少業內人士認爲,這是在“抱團”抗衡巨頭。
由ChatGPT掀起的大模型浪潮早已席捲而至。ChatGPT問世已有1年,國內外均是“百模大戰”。據《北京市人工智能行業大模型創新應用白皮書》,截至2023年10月,國內10億參數規模以上的大模型廠商及高校院所共計254家。
其中開源大模型的發展尤爲令人矚目。
國內槍聲先響的是原搜狗CEO王小川創立的百川智能。2023年6月,百川智能發佈可免費商用的70億參數開源語言模型Baichuan-7B,1個月後又發佈了130億參數語言模型Baichuan-13B及對話模型Baichuan-13B-Chat。9月,百川智能宣佈將調整後的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat與其4bit量化版本開源。
另一位重磅開源玩家是阿里雲。
自2023年8月起,阿里雲陸續開源了70億參數通用模型Qwen-7B、對話模型Qwen-7B-Chat、視覺語言模型Qwen-VL、140億參數模型Qwen-14B及其對話模型Qwen-14B-Chat。12月1日,阿里雲又宣佈開源720億參數模型Qwen-72B,一同開源的還有18億參數模型Qwen-1.8B和音頻模型Qwen-Audio。
至此,通義千問開源參數規模遍及18億、70億、140億和720億,加之視覺理解、音頻理解兩款多模態模型,可謂實現了“全尺寸、全模態”的開源。
阿里雲官宣要做“AI時代最開放的雲”,自然要以開源大模型押注生態建設,而通義千問正以自身迭代和演進繪製出新的落地圖景。
業內早有共識,大模型的開源與閉源各有長板。
開源能帶來豐富的資源和反饋,使大模型加速迭代並快速形成生態,Meta推出的LLaMA、LLaMA 2,通義千問開源“全家桶”,智普AI與清華KEG實驗室推出的ChatGLM2-6B,百川部分大模型均在此列。
閉源則可以更好地保護企業的核心技術,由此提供更爲獨特的商業化解決方案和服務,如ChatGPT、文心一言、百川智能發佈的Baichuan 53B等。
以LLaMA爲例,其於2023年2月推出後便帶動了一大批AI企業和機構:Stability AI推出了類似ChatGPT的Stable Chat,Stable Chat基於開源語言模型Stable Beluga,正是由LLaMA精調而來;斯坦福大學推出的Alpaca,加州大學伯克利分校主導推出的Vicuna,均是基於LLaMA的開源模型。
開放包容,發展生態,正是開源的意義。
與LLaMA 2同樣開源至700億參數級別的通義千問在影響力方面亦與之看齊。Qwen-7B開源後迅速衝上模型庫HuggingFace、開發者社區Github的trending即趨勢榜單。
據2023年11月1日雲棲大會公佈的數據,阿里雲的AI大模型開源社區魔搭已聚集了2300多個模型,吸引了超過280萬開發者,模型下載量突破1億。用戶可以在魔搭社區直接體驗Qwen系列模型效果,也能通過阿里雲靈積平臺調用模型API(應用程序編程接口),或基於阿里雲百鍊平臺定製大模型應用。
更重要的是,Qwen-72B基於3T tokens高質量數據訓練,於10個權威基準測評中奪得開源模型最優成績,各項成績均優於LLaMA2-70B,部分測評則超越了ChatGPT-3.5和ChatGPT-4。
在英語任務上,Qwen-72B在MMLU基準測試取得開源模型最高分;而中文任務方面,Qwen-72B在C-Eval、CMMLU、GaokaoBench等基準得分超越GPT-4;在數學推理上,Qwen-72B在GSM8K、MATH測評中斷層式領先其他開源模型;再看代碼理解,Qwen-72B在HumanEval、MBPP等測評中的表現大幅提升,代碼能力有了質的飛躍。
中文的複雜語意理解是個典型案例。將涉及“意思意思”“不夠意思”“真有意思”“不好意思”等圍繞“意思”不同含義的短語組成對話並提問,通義千問能夠準確地剖析出每個短語在該語句或段落內的意義,譬如“不夠意思”可能指對方禮物不夠豐厚,“小意思”指謙虛,“不好意思”是道歉。
針對邏輯推理問題,通義千問能夠展開假設來講解答案。例如經典的“兩個門衛”邏輯問題,即如何只通過一次提問,向一個說真話的門衛和一個說假話的門衛獲取哪扇門才正確的答案。在回答出向任一門衛提問“如果我詢問另一個門衛,對方會說哪扇門正確”這個要點後,大模型分別假設了提問真話門衛和假話門衛的情況,完整地表述了答題的邏輯。
Qwen-72B可以處理最多32k的長文本輸入,在長文本理解測試集LEval上取得了超越ChatGPT-3.5-16k的效果。Qwen-72B的指令遵循、工具使用等技能均已優化,這使其能夠更好地被下游應用集成。而且,Qwen-72B搭載了強大的系統指令能力,用戶只需要使用一句提示詞就能夠定製AI助手。
據海克財經觀察,輸入“冷豔御姐”,大模型便會給出“有事快說,別浪費我時間”“給我放尊重一點”之類的語氣;要求“二次元萌妹”,大模型則會在回答時加入各種符號表情,表述非常柔軟;甚至點名影視角色,如《亮劍》中的李雲龍,大模型還能將其說話方式和經典臺詞應用到回覆中。
開源與閉源的路線之別,就像手機操作系統的iOS和Android之爭,Android憑藉開源打法形成了獨特的生態,達到高市佔率。由通義千問的表現來看,開源大模型已經邁出了重要的一步。
開源大模型可以幫助用戶簡化模型訓練和部署的過程。
用戶不必從頭開始訓練,只需要下載預訓練好的模型並進行微調,就能快速構建高質量的模型。這一面降低了各行各業進入大模型領域的門檻,一面也能反過來使具體行業促進大模型技術的進步。
國內應用於心理學場景的MindChat即是如此。
MindChat是一款心理諮詢工具,可以說是AI心理諮詢師,能夠便捷且及時地爲用戶提供心理評估等服務。用戶有任何煩惱或困惑都可以對MindChat傾訴,甚至可以語音輸入。MindChat會共情用戶,通過文字內容和語音語調分析用戶的情感和心理狀態,再給出相應的建議。這些建議也包括是否需要現實中的專家或心理醫生介入。
用MindChat開發者顏鑫的話來說,他希望用簡單易用的界面提供服務,讓孤獨的人找到情緒出口,保持與社會的連接。
2023年本科畢業的顏鑫是華東理工大學心動實驗室成員,團隊專注於社會計算和心理情感領域的AI應用開發。他發現心理服務是非常適合大模型的場景——社會對這類服務有巨大需求,但整體供給匱乏且往往價格不菲,大模型技術可以把服務變得普惠。如今MindChat已爲20多萬人累計提供了超過100萬次的問答服務。
顏鑫和團隊一直在追蹤開源領域大模型的發展,此前也試用過ChatGLM、Baichuan、InternLM等大模型。Qwen-7B、Qwen-14B推出後,他們用內部數據和benchmark做了測評,認定通義千問是這一場景下開源模型裡的最優解,才選擇以之爲基座。除了MindChat,他們團隊還開發了基於通義千問的醫療健康大模型Sunsimiao(孫思邈)、教育/考試大模型 GradChat(錦鯉)。
顏鑫表示,他本人和團隊都是堅定的開源支持者,所以心動實驗室一部分模型對外開源,反哺開源社區,另一部分適用於真實場景的模型以閉源API的方式對外提供服務。
個人開發者陶佳同樣認可大模型與具體場景的適配性。
陶佳就職於中國能源建設集團浙江省電力設計院有限公司,主要負責新型電力系統、綜合能源的宏觀分析、規劃研究和前期優化工作。他說,從行業角度看,大模型在電力領域的應用前景從從初階的領域知識問答系統到高階的電力調度數學優化等,都很值得探索。因此,他嘗試利用通義千問開源模型搭建文檔問答相關應用。
電力領域的場景有相當的特殊性,常常需要從幾十萬甚至上百萬字的文檔中查找內容。陶佳使用通義千問做了基於私有知識庫的檢索問答類應用,即給定一個英文文檔,告訴大模型需要查找的內容,讓大模型根據文檔目錄回答哪個目錄項下有答案。
專業領域的文檔檢索和解讀對內容準確性和邏輯嚴謹性要求極高。陶佳表示,在他嘗試過的開源模型中通義千問效果最好,回答準確且沒有那些稀奇古怪的bug。
於陶佳而言,閉源模型如OpenAI儘管能力強,但API調用不便,更不適合像他這樣的B端用戶自行定製;開源模型如LLaMA可以使用,其中文能力卻一般。因此,在Qwen-14B已經能做到70%以上精準度的情況下,陶佳對Qwen-72B充滿了期待。
這種期待正在變成現實。12月8日,HuggingFace公佈了最新的開源大模型排行榜。榜單收錄了全球上百個開源大模型,測試維度涵蓋閱讀理解、邏輯推理、數學計算等,通義千問超越LLaMA2等國內外開源大模型登上榜首。
無論是從個人、組織還是從行業角度而言,開源都有利於形成更開放的生態。這既能令更多研究者或開發者來豐富應用和服務,也能推動大模型持續優化,不斷向前。
大模型的浪潮之下亦有難題。
調研機構IDC發佈的《2023-2024中國人工智能計算力發展評估報告》提及,中國企業認可AIGC(生成式人工智能)在加速決策、提高效率、優化用戶和員工體驗等維度帶來的價值,67%的中國企業已經開始探索生成式人工智能在企業內的應用機會或已經進行相關投入;與此同時,企業也需要直面計算、存儲等資源短缺、行業大模型可用性待提升以及投入成本高等問題帶來的壓力。
顏鑫就坦誠,他們沒有資源從頭訓練基座模型,因此在滿足場景需求的情況下希望選擇主流、穩定的模型架構以匹配上下游的環境,更在意開源模型背後的廠商能否持續投入基座模型和生態建設。
未來速度聯合創始人兼CEO秦續業對此也有類似看法。秦續業表示,開源大模型安全、可控、可定製,還更具性價比,推理成本可能只有閉源收費大模型的五十分之一。未來速度推出的Xinference平臺即基於通義千問開源模型,內置分佈式推理框架,幫助企業用戶在計算集羣上輕鬆部署並管理模型。
經過簡單微調,開源大模型便能滿足很多B端場景需求。秦續業的公司接觸的用戶大部分使用的是較小尺寸模型,如Qwen-7B,使用場景如外接知識庫做問答應用,通過大模型召回數據,放到上下文中進行總結並給出答案。
也就是說,通義千問提供的“全尺寸”開源模型能夠讓大模型觸及更多用戶。儘管大模型本身是開源的,企業仍可以在這個基礎上提供多種形式的服務,包括定製開發、技術支持等。這不僅爲自身,也爲上下游企業帶來了更多商業化可能性,是從生態到商業,再由商業回饋生態的正向循環。
在2023年11月的雲棲大會上,阿里董事會主席蔡崇信表示,不開放就沒有生態,沒有生態就沒有未來,而只有站在更先進、更穩定的技術能力之上,纔有更大的開放底氣。
一直以來,阿里都有技術開放的傳統,在操作系統、雲原生、數據庫、大數據等領域均有自主開源項目。至此,通義千問開源的邏輯就更加清晰——既是傳承,也是在通過開源方式提供更多技術產品,以此帶動阿里雲更長遠的發展。
要知道,雲和AI都離不開算力,大模型則對算力有更高要求。已經具備全棧化AI能力的阿里雲在更充分地利用自己數據、算力、存儲等資源長項,以開源大模型吸引更多用戶進入阿里雲體系。就像微軟也在擴大開源模型的MaaS(模型即服務),依靠連接產業鏈各端來形成規模化和平臺化的生態。
據海克財經瞭解,在官宣Qwen-72B開源的同時,阿里雲還舉辦了首屆“通義千問AI挑戰賽”,參賽者可免費暢玩包括Qwen-72B在內的通義千問開源“全家桶”。
賽事分爲算法和Agent兩塊:算法聚焦通義千問大模型的微調訓練,希望通過高質量數據,探索開源模型的代碼能力上限;Agent則鼓勵開發者基於通義千問大模型和魔搭社區的Agent-Builder框架,開發新一代AI應用,促進大模型在各行各業的落地應用。主辦方提供了價值50萬元的免費雲上算力和豐厚獎金。
比賽同樣彰顯了阿里雲立足開源的決心。這意味着通義千問乃至阿里雲正在以多元化、全方位的技術服務推進AI的生態繁榮,在拓寬自身邊界的同時也在推進整個行業的發展。