☰

斯坦福Llama3-V抄襲事件始末：套殼面壁智能“小鋼炮”，作者團隊公開致歉

一場斯坦福AI團隊抄襲清華系開源大模型的鬧劇在海外社交平臺上吵得沸沸揚揚，6月3日，此事最終以作者團隊向後者公開道歉收場。

5月末，一款名爲“Llama3-V”的斯坦福團隊多模態大模型在開源社區上火了起來，因爲創始團隊聲稱其僅用500美元成本，就能基於Llama3訓練出一個SOTA開源多模態模型，不僅尺寸小（比GPT-4v小100倍），還在性能上比肩GPT-4v、Gemini Ultra、Claude Opus。

在這一宣傳基調下，頂級名校背景外加模型本身的效果，很快就將Llama3-V推至聚光燈下，並使其拿下“HuggingFace Trending”（一個開源模型社區的榜單）Top 5的成績。

就在社區還沉浸於這場小小狂歡時，陸續有網友提出質疑，指出Llama3-V的架構和代碼，與一款來自中國團隊的大模型幾乎一模一樣，即清華系和麪壁智能團隊聯合開發的MiniCPM-Llama3-V 2.5。

一開始，Llama-3V團隊表示他們只是使用了MiniCPM-Llama3-V 2.5的tokenizer（分詞器），並且宣稱在後者發佈前就開始了這項工作，但這個解釋在時間線上難以成立。同時，作者聲稱“引用了LLaVA-UHD作爲架構”，但相較於此，該項目的具體實現與MiniCPM-Llama3-V 2.5更爲相似。

隨後，大量網友發佈詳細對比，發現兩款模型幾乎“共享”同一套模型結構和代碼，Llama-3V只是對MiniCPM-Llama3-V 2.5進行了一些重新格式化並把一些變量重新做了命名，比如圖像切片、分詞器、重採樣器、數據加載等變量。此外，前者還使用了與後者完全相同的分詞器，包括MiniCPM-Llama3-V 2.5新定義的特殊符號。

還有網友指出，當運行Llama3-V時，作者提供的代碼無法HuggingFace上的checkpoint（包含模型參數的快照或保存點）配合使用，但如果把Llama3-V模型權重中的變量名更改爲MiniCPM-Llama3-V 2.5的名稱後，模型就可以成功運行MiniCPM-V的代碼。

並且，如果在MiniCPM-Llama3-V 2.5的checkpoint上添加一個簡單的高斯噪聲，就會得到一個與Llama3-V極爲相似的模型。

更關鍵的是，MiniCPM-Llama3-V 2.5具備一個實驗性功能是識別清華簡，這是一種特殊且罕見的戰國時期古文字。據悉，相關訓練數據的採集和標註均由清華NLP實驗室和麪壁智能團隊完成，相關數據尚未對外公開，然而Llama3-V卻具有相同能力。

結合種種網友爆料，以及作者團隊聲稱“僅用500美元成本”等信息，Llama-3V抄襲MiniCPM-Llama3-V 2.5一事幾乎成爲一個定論。

對此，面壁智能首席科學家劉知遠在知乎上發聲，表示“已經比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼”。同時，他指出，開源的MiniCPM-Llama3-V 2.5是以最新的Llama3作爲語言模型基座，而開源共享的基石是對開源協議的遵守，對其他貢獻者的信任，對前人成果的尊重和致敬，Llama3-V團隊無疑嚴重破壞了這一點。

面壁智能CEO李大海也在微信朋友圈發文稱，“我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式，另一方面也呼籲大家共建開放、合作、有信任的社區環境。”

事實上，在種種證據陸續析出後，Llama3-V作者團隊首先是刪評論和刪庫，予以非正面迴應。但在輿情發酵嚴重之後，終於在昨日，其中的兩名作者Aksh Garg和Siddharth Sharma在X平臺聯合署名發表正式迴應，向MiniCPM原作者道歉，並表示會將Llama3-V模型悉數撤下。

隨後，斯坦福人工智能實驗室主任Christopher David Manning發文批判了這一抄襲行爲，谷歌DeepMind研究員Lucas Beyer則表示，有趣的是，有同樣表現的MiniCPM-Llama3-V 2.5得到了太少的關注，而這似乎僅僅因爲這個模型不是來自一所藤校，“我們都顯得太難堪了。”他寫道。

斯坦福Llama3-V抄襲事件始末：套殼面壁智能“小鋼炮”，作者團隊公開致歉

相關資訊