☰

騰訊大模型開源的“冷思考”

本報記者李靜北京報道

繼騰訊混元文生圖模型開源之後，近日，騰訊混元最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”也正式開源，支持企業及開發者精調、部署等不同場景的使用需求，可在HuggingFace、Github等技術社區直接下載，免費且可以商用。

據介紹，騰訊混元Large是目前開源領域參數規模和效果表現都較好的MoE模型（Mixture of Experts，即混合專家模型，是目前國內外主流的大模型結構），而騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型。兩個模型均屬騰訊自研，在架構、算法、數據等方面有獨特創新，填補了行業空白。目前，兩個模型均已經在騰訊業務場景中落地應用，經過實踐的檢驗，是面向實用場景的應用級大模型

AI大模型浪潮席捲而來之時，騰訊不是衝在最前面的那一波；當市場上關於開源與閉源爭論不斷時，騰訊也沒有着急站隊。如今在開源文生圖視頻模型之後，騰訊又陸續開源了一些模型，在大模型的開閉源上，騰訊混元大模型究竟是怎麼考慮的？

“騰訊做大模型一年多時間並沒有着急去開源，我們認爲很重要的一個原因是開源的結果，其實是自然而然的發展，而且騰訊是在閉源做得比較好之後才做的開源。”騰訊機器學習平臺總監、騰訊混元大語言模型算法負責人康戰輝在接受《中國經營報》等媒體記者採訪時說道。

2023年9月，在2023騰訊全球數字生態大會上，騰訊混元大模型正式亮相，並宣佈通過騰訊雲對外開放。2024年5月，騰訊混元文生圖大模型全面升級並對外開源。

大模型市場上關於開源還是閉源一直都有爭論。百川智能在2023年6月15日發佈了國內首款開源可商用的70億參數量大語言模型Baichuan-7B，上海人工智能實驗室在2023年7月開源了書生·浦語大模型70億參數的輕量級版本InternLM-7B，Meta在2023年7月發佈了LLaMa 2模型，並在2024年4月發佈了Llama-3。

還有一些廠商則是閉源大模型的擁護者。OpenAI的GPT系列、谷歌的Bard、百度的文心大模型都是市場上著名的閉源大模型。

該如何定位大模型是開源還是閉源？康戰輝指出，對於頭部大型企業來說，業務多且複雜，超級複雜的業務可能就是需要閉源大模型才能解決，雖然成本攤下來更大，但提升的能力更強。開源大模型面對的則是不同的開發者，尤其有大量的中小企業，以及個人開發者，他們對成本的考量更重一些。

騰訊大模型則是在閉源做好之後再逐步對外進行開源。在開源選擇上，騰訊混元大模型選擇了先開大的後開小的。康戰輝解釋這一選擇背後的原因：“首先，開源理念上先開大的模型，是因爲我們開始做的東西都是大的，這是歷史原因。另外，我們優先考慮把騰訊內部業務上使用的模型對外開源，後續還會開源一些小的模型，也是延續這個模式。”

以此次開源的騰訊混元Large爲例，該模型已經在騰訊內部的AI搜索、AI閱讀等業務做過試用，騰訊金融領域、協同辦公三件套等業務裡面都涉及到騰訊混元Large，有些已經上線使用。

對於騰訊混元大模型開源時間晚於市場上很多的開源大模型廠商，騰訊方面則認爲“好飯不怕晚”。

“去年大模型如火如荼，開源大模型也是百花齊放。今天大家來看，大家還是各歸各位。”康戰輝說道，“底層大模型就是AI時代的一個操作系統、是一個底層基礎設施、是一個長期的事情，另外，底層模型不是C端產品，不存在入口、流量問題的困擾，是可以沉下心來長期深耕的事情，所以我們認爲多模態大模型真的一點不晚。”

據介紹，現在騰訊混元大模型開源的參數權重，並不涉及到數據和代碼，但是接下來會把訓練的代碼開源出來，同時會把評估期開源。

康戰輝表示：“大模型開源數據本身意義不大。”因爲大模型不是軟件，而是靠大量數據驅動。舉一個例子，學界有很多開源的模型、開源的數據，但是開源數據很難被大家共建，因爲數據規模太大了，不是寫一行代碼就能共建的事情。現在的大模型普遍訓練的數據都是幾萬億tokens，對於業界來講是很難把數據維護起來去做進一步的挖掘。

（編輯：張靖超校對：顏京寧）

騰訊大模型開源的“冷思考”

相關資訊