對話丨面壁智能劉知遠談被斯坦福學生AI團隊抄襲:善用開源成果,將快速提升AI能力的“下限”

21世紀經濟報道記者馮戀閣 實習生孔雅萱 廣州報道

近日,一起大模型抄襲爭議衝上熱搜。2名斯坦福學生和1名南加州大學學生組成的AI團隊發佈了一篇文章,稱訓練出了一個開源多模態模型Llama 3-V。

不久,有網友發現,Llama 3-V與清華系大模型創業公司面壁智能的MiniCPM-Llama3-V 2.5在模型結構、代碼、配置文件等方面幾乎一模一樣,只是將變量名稱做了更改,質疑該團隊研究成果“套殼”了面壁智能的相關模型。這一結論在之後得到了面壁智能的進一步確認。這起套殼糾紛最後以學生AI團隊刪去相關成果告終。

雖然事件的兩方都各有迴應,但仍有許多環繞開源大模型“套殼”現象的問題待解。“套殼”是好是壞?走開源,還是走閉源?生成式人工智能技術的應用探索現狀如何?

在面壁智能聯合創始人、首席科學家,清華大學計算機系長聘副教授劉知遠看來,“套殼”的說法,更多是指對已有開源模型利用自有數據進一步訓練和微調,從而形成定製模型,很多開源模型的協議允許定製和修改,只要遵守開源協議就應當支持和保護。“套殼”這種說法聽起來可能有些貶義的意味。

“開源社區支持和鼓勵複用前人成果,這也是開源社區吸引全球開發者蓬勃發展的主要原因。 Llama3-V團隊的核心問題在於,將他人成果聲稱爲自己的成果。”劉知遠向21世紀經濟報道記者表示。

模型“套殼”需理智看待

21世紀:近日,斯坦福大學Llama3-V團隊“抄襲/套殼”面壁智能大模型的消息在海內外引發熱議。媒體報道使用的描述有“抄襲”和“套殼”兩種,請問你覺得哪種描述更爲合適?套殼和抄襲是否存在區別?

劉知遠:“抄襲”或“套殼”的說法都只能反映一部分事實,事實是Llama3-V直接使用了MiniCPM-Llama3-V 2.5的模型和代碼,並作爲自己的成果進行宣傳。

開源社區支持和鼓勵複用前人成果,這也是開源社區吸引全球開發者蓬勃發展的主要原因。不同的開源協議對使用成果有不同的約定。Llama3-V團隊的問題不在於違反了哪項開源協議,而是將他人成果聲稱爲自己的成果。

21世紀:在你看來,大模型的“殼”和“核”各是什麼?有相關標準能幫助判斷嗎?

劉知遠:“套殼”的說法,更多是指對已有開源模型利用自有數據進一步訓練和微調,從而形成定製模型,目前尚無明確的判斷標準。不過,很多開源模型的協議允許定製和修改,只要遵守開源協議就應當支持和保護。“套殼”這種說法聽起來可能有些貶義的意味。善用前人成果,努力站在巨人肩膀上實現高質量發展,是開源社區的重要價值。

21世紀:這次風波中“套殼”嫌疑最終被確認,直接證據是能夠識別“清華簡”上的戰國古文字。爲什麼選擇內置識別清華簡這個彩蛋,是本來就希望做一個“防僞標識”,還是有其他原因?

劉知遠:內置“清華簡”識別能力的初衷還真不是作爲“防僞標識”。我們團隊一直以來致力於自然語言處理研究,因此近年來與清華大學出土文獻中心有很多AI+古文字學方面的合作和交流,一直積極探索麪向楚簡和甲骨文的智能化處理技術。中國古文字都是在甲骨或楚簡等載體上,兼顧象形的視覺屬性和序列化的語言屬性,所以特別適合發揮多模態大模型的威力。因此,我們想到在最新的多模態模型MiniCPM-Llama3-V 2.5中內置對中國古文字的識別能力,這也算我們中國學者特有的“小浪漫”。

21世紀:事實上,此前國內外已經發生過多次套殼“糾紛”,在你看來,除了採用類似“清華簡”彩蛋這類的方法,還有哪些方式能夠發現、確認套殼大模型?

劉知遠:除了類似“清華簡”識別能力這樣的“水印”,“套殼”一般通過大模型的分詞詞表、架構設置(如層數、向量維數等)和能力表現等判斷。這次之所以能夠比較確認Llama3-V套殼MiniCPM-Llama3-V 2.5,主要是因爲這層“殼”太薄了,能夠找到多方面的直接證據。

21世紀:與此前的中國產品被質疑套殼海外模型不同,這次爭議中“被抄襲”的對象是我國的模型。谷歌DeepMind一位研究員在點評此事時說,有同樣表現的MiniCPM-Llama3-V 2.5得到了太少的關注,而這似乎僅僅因爲這個模型不是來自一所“美國常青藤名校”,怎麼看待這一點?如何評價我國大模型在研發和應用上的成果?

劉知遠:去年Meta Llama開源模型出現以來,的確出現很多類似“國外一開源,國內就自研” 的說法。實際上,國內很多大模型團隊一直堅持在國際開源社區貢獻優秀的算法、模型和數據。相信隨着時間演進,這些努力會被更多國際同行“看到”。

當然,在更加自信努力的同時,我們也需要保持謙虛謹慎,我國還缺少像Transformer、ChatGPT、AlphaFold這樣的引領領域發展的原始創新成果,仍需與國際同行互相學習,努力做出更具基礎影響力的成果。

開源、閉源共築AI生態

21世紀:你的團隊還發起建設了開源社區OpenBMB,創建這個社區的初衷是什麼?在社區逐漸發展的過程中有沒有什麼激動人心的節點?

劉知遠:早在2021年9月創立OpenBMB時,我們就確立了“讓大模型飛入千家萬戶”的目標並一直向着這個方向努力。我認爲,要幫助人類走向通用人工智能(AGI)時代,不僅要建設更強的大模型,更要高質量、低成本地建設大模型,讓每個人都能用得上、用得起通用智能。在今年5月20日OpenBMB成立三週年之際,我們推出了具有強大的多模態綜合能力的MiniCPM-Llama3-V 2.5作爲用戶的“節日禮物”。

21世紀:大模型的開閉源之爭從未停止,怎麼看待這兩條路線的技術和應用前景?

劉知遠:未來的AGI產業生態將由開源和閉源共同組成。一方面,開源大模型將快速提升大模型能力的“下限”,讓全球在更強大模型的基礎上快速探索AGI創新應用。根據Yann LeCun的統計,開源大模型與閉源大模型能力的差距正在快速收窄。另一方面,正如歷史上的商業搜索引擎、個性推薦應用都是包羅萬象的複雜系統,未來一旦找到AGI應用模式,一定會形成圍繞相關大模型的複雜系統和數據閉環,這將成爲各AGI企業的壁壘。正如Google、微軟、Meta等國際科技巨頭,既是開源社區的重要貢獻者,也擁有核心壁壘的閉源系統,這兩者互相支撐,並行不悖。

21世紀:在你的“大模型十問”中,安全倫理問題作爲一個重要方向出現。據你瞭解,目前這一領域的重難點是什麼,是否已經有了解決方向和方法?比如,飽受非議的AI“幻覺”現象如何防範?

劉知遠:安全倫理是一個複雜命題,既有模型一本正經胡說八道的“幻覺”問題,也有通過提示引導模型“越獄”可能導致的違法問題,還有模型可能被濫用於社交機器人水軍等社會問題。防範人工智能應用的安全倫理風險,需要從技術創新、社會治理和政府監管等多個角度出發,形成政府、企業、公衆等多主體協同共治網絡。

21世紀:就目前的情況來看,很多時候如果想要保證AI的“絕對安全”,就會一定程度上影響技術和應用的發展。怎麼看待這二者之間的關係?

劉知遠:正如歷史上的歷次科技革命產生的深遠影響,我們要意識到,科技發展大勢不可阻擋,前進車輪不會以誰的意志爲轉移。我們更應該做的,是要及時準確預判科技發展趨勢,儘量提前做好制度準備,形成治理機制,疏解技術應用可能引發的社會矛盾。

21世紀:在清華任教的同時,你還擔任面壁智能的首席科學家。面壁智能一直致力於開發更強的開源大模型,就在這兩天,面壁的MiniCPM還宣佈將免費商用。公司的商業模式是怎樣的,爲什麼會作出這樣的決定?

劉知遠:一直以來,面壁團隊都懷着“讓大模型飛入千家萬戶”的目標,持續推動OpenBMB開源社區的發展。任何技術的大面積普及,都需要有一個強健的生態,開源就是生態最好的構建方式之一。讓MiniCPM開源免費商用,既是我們對認同這份事業的朋友們的回饋,也是我們對於端側模型生態構建的貢獻。

我們公司的商業模式是基於全棧的端側模型大模型技術能力在C端場景提供完整的解決方案。所以我們的商業產品服務中,包含了持續不斷迭代的端側大模型,還有與之配套的智能體、Infra技術服務和其他的產品服務,我們很多客戶也是因爲在開源社區瞭解和體驗過MiniCPM之後,主動找到我們的。因此,開源和商業並不矛盾,反之,開源更好地加速了技術的迭代,商業場景落地和品牌的認知。

未來智能將無所不在,MiniCPM的免費商用正在加速這一未來的到來。我們希望讓智能飛入千家萬戶,探索AI在不同場景需求中的無盡潛力。

B端、C端都通向AI普惠

21世紀:此前,你提到你的團隊已經在化學、法律領域展開了AI應用的探索。除此之外還有哪些方向的應用或者怎樣的產品形態是目前技術上比較可及的?

劉知遠:大模型可以被視作一種將數據轉化爲知識的通用技術。哪裡需要知識,哪裡就是人工智能和大模型的用武之地。化學和法律等都是人類重要的專業知識,通過構建這些專業領域大模型,可以有效提升相關專業人士的工作效率。例如,在法律領域,可以支持法官、律師和其他法律從業者,更快處理相關專業資料,撰寫專業文書和報告,完成專業諮詢服務等工作。

可以設想,以往很多知識只能存在於人類頭腦中,人類專家會退休,大量知識難以傳承,而且人類專家需要休息,無法持續工作。而專業大模型則可以持續學習知識,並且永不停歇地提供服務。專業的AI助手,將成爲未來人類工作的重要工具。

人類知識總量正在加速增長。限於壽命和腦容量,人類的對細分領域探索的深度和廣度往往難以兼顧;每個人所具備的知識與人類知識總量相比,相對比例急劇下降。缺少對知識的全局認識將極大限制我們的科學創新。所以,我們亟需人工智能幫助將人類知識有效管理起來,在信息爆炸的當下支持人類繼續創新迎來下一次科學革命,這也是AI for Science存在的重要意義。

21世紀:toB還是toC也是當前AI走向應用必須要面對的十字路口。看目前的情況,面壁智能在兩端都有佈局。這兩條路線在技術上、商業上有何優劣?面壁智能未來會有主攻的方向嗎?

劉知遠:無論toB還是toC都是在努力“智周萬物”,即讓通用智能更好服務人類,不存在優劣先後之分。現在,邁向通用智能的大致發展方向已經確定,但是大模型技術方案還在高速迭代尚未收斂,商業模式也需要隨之持續構建和。一項技術得以成熟商用的前提是將使用成本降低至某個臨界點,整個行業都還在加速衝向這個臨界點。

根據中國電信最近報告估算,全國2023年僅存量手機的總算力是全國數據中心算力總量的12倍,而且端側算力也在遵循摩爾定律不斷增強。我們認爲需要也必須“將大模型放在離用戶最近的地方”。 面壁團隊現在聚焦端側大模型解決方案,希望用最前沿大模型技術提升終端用戶的智能使用體驗,讓用戶在端側擁有隱私更有保障、響應更及時、服務更個性化的端側智能;同時端側模型也將充分開發端側算力。 我們的最終願景,是讓每個人都能用得上、用得起大模型的通用智能。