☰

斯坦福抄襲國產大模型始末

“我們希望團隊的好工作被更多人關注與認可，但不是以這種方式。”6月3日，對於連日來備受關注的斯坦福大學AI團隊疑似抄襲面壁智能一事，面壁智能CEO李大海作出迴應。同一天，面壁智能聯合創始人劉知遠也發文迴應提到，開源共享的基石是對開源協議的遵守，對其他貢獻者的信任，對前人成果的尊重和致敬，Llama3-V團隊無疑嚴重破壞了這一點。

風波中心的Llama3-V多模態大模型出自於斯坦福大學的一個本科生團隊。幾天前，該團隊發佈這一模型，並宣稱只需500美元訓練，其性能就比GPT-4V、Gemini Ultra、Claude Opus更強，一度成爲“HuggingFace Trending”Top5。但隨後，該模型被指抄襲面壁智能發佈的MiniCPMLlama3-V 2.5，且聲浪越來越大。

面壁智能是一家“清華系”人工智能大模型創業公司，成立於2022年8月，今年4月剛剛宣佈完成新一輪數億元融資。面壁智能自研了百億參數預訓練語言大模型CPM，MiniCPM是其端側模型，也被稱爲“小鋼炮”。

今年5月20日，面壁智能推出並開源MiniCPM系列最新的端側多模態模型MiniCPM-Llama3-V 2.5，支持30+種語言，可實現最強端側多模態綜合性能。

對於Llama3-V套殼、抄襲MiniCPM-Llama3-V 2.5的指責，主要聚焦在Llama3-V的模型結構和配置文件與MiniCPM-Llama3-V 2.5完全相同，只是進行了一些重新格式化並將部分變量重新命名，Llama3-V具有與MiniCPM-Llama3—V 2.5相同的分詞器，包括MiniCPM-Llama3-V 2.5新定義的特殊符號等方面。

Llama-3V團隊曾迴應，他們只是使用MiniCPM-Llama3-V 2.5的分詞器，並在MiniCPM-Llama3-V2.5發佈前就開始了這項工作，但並未解釋如何做到在MiniCPMLlama3-V 2.5發佈之前就獲取詳細分詞器的具體方式。

隨着事件引發的關注度越來越高，李大海與劉知遠先後作出迴應，其中最爲關鍵且特別的證據，在於“清華簡”。李大海稱，經過團隊覈實，除了社區網友列出的證據外，面壁智能還發現，Llama-3V展現出和小鋼炮一樣的清華簡識別能力，連做錯的樣例都一模一樣，而這一訓練數據尚未對外公開。此外，兩個模型在高斯擾動驗證後，在正確和錯誤表現方面都高度相似。

劉知遠提到，比較確信Llama-3V是對MiniCPM-Llama3-V 2.5的套殼，“證據是MiniCPM-Llama3-V 2.5研發時內置了一個彩蛋，就是對清華簡的識別能力，這是我們從清華簡逐字掃描並標註的數據集，並未公開。而Llama-3V展現出了一模一樣的清華簡識別能力，連做錯的樣例都一樣”。

目前，Llama3-V團隊的兩位作者已在社交平臺上就這一學術不端行爲向面壁智能MiniCPM團隊正式道歉，並將問題歸咎於另一名“無法聯繫”上的成員，同時表示會將Llama3-V模型悉數撤下。斯坦福人工智能實驗室主任ChristopherDavid Manning也發文譴責這一抄襲行爲，並對MiniCPM這一中國開源模型表示讚揚。

值得一提的是，Llama3-V抄襲風波引發廣泛關注的另一面，也在於大模型領域開源、套殼、抄襲由來已久的爭議。在接受北京商報記者採訪時，香頌資本董事沈萌稱，開源就是把源代碼公開，公開時都會選擇一個遵循的協議，不同協議需遵循不同的規範。套殼還是抄襲的界定，都取決於開源的協議以及對方採取了怎樣的動作。

對於後續安排等問題，北京商報記者聯繫了面壁智能，但截至發稿未收到回覆。

北京商報記者楊月涵

斯坦福抄襲國產大模型始末

相關資訊