斯坦福Llama3-V抄襲事件始末:套殼面壁智能“小鋼炮”,作者團隊公開致歉

一場斯坦福AI團隊抄襲清華系開源大模型的鬧劇在海外社交平臺上吵得沸沸揚揚,6月3日,此事最終以作者團隊向後者公開道歉收場。

5月末,一款名爲“Llama3-V”的斯坦福團隊多模態大模型在開源社區上火了起來,因爲創始團隊聲稱其僅用500美元成本,就能基於Llama3訓練出一個SOTA開源多模態模型,不僅尺寸小(比GPT-4v小100倍),還在性能上比肩GPT-4v、Gemini Ultra、Claude Opus。

在這一宣傳基調下,頂級名校背景外加模型本身的效果,很快就將Llama3-V推至聚光燈下,並使其拿下“HuggingFace Trending”(一個開源模型社區的榜單)Top 5的成績。

就在社區還沉浸於這場小小狂歡時,陸續有網友提出質疑,指出Llama3-V的架構和代碼,與一款來自中國團隊的大模型幾乎一模一樣,即清華系和麪壁智能團隊聯合開發的MiniCPM-Llama3-V 2.5。

一開始,Llama-3V團隊表示他們只是使用了MiniCPM-Llama3-V 2.5的tokenizer(分詞器),並且宣稱在後者發佈前就開始了這項工作,但這個解釋在時間線上難以成立。同時,作者聲稱“引用了LLaVA-UHD作爲架構”,但相較於此,該項目的具體實現與MiniCPM-Llama3-V 2.5更爲相似。

隨後,大量網友發佈詳細對比,發現兩款模型幾乎“共享”同一套模型結構和代碼,Llama-3V只是對MiniCPM-Llama3-V 2.5進行了一些重新格式化並把一些變量重新做了命名,比如圖像切片、分詞器、重採樣器、數據加載等變量。此外,前者還使用了與後者完全相同的分詞器,包括MiniCPM-Llama3-V 2.5新定義的特殊符號。

還有網友指出,當運行Llama3-V時,作者提供的代碼無法HuggingFace上的checkpoint(包含模型參數的快照或保存點)配合使用,但如果把Llama3-V模型權重中的變量名更改爲MiniCPM-Llama3-V 2.5的名稱後,模型就可以成功運行MiniCPM-V的代碼。

並且,如果在MiniCPM-Llama3-V 2.5的checkpoint上添加一個簡單的高斯噪聲,就會得到一個與Llama3-V極爲相似的模型。

更關鍵的是,MiniCPM-Llama3-V 2.5具備一個實驗性功能是識別清華簡,這是一種特殊且罕見的戰國時期古文字。據悉,相關訓練數據的採集和標註均由清華NLP實驗室和麪壁智能團隊完成,相關數據尚未對外公開,然而Llama3-V卻具有相同能力。

結合種種網友爆料,以及作者團隊聲稱“僅用500美元成本”等信息,Llama-3V抄襲MiniCPM-Llama3-V 2.5一事幾乎成爲一個定論。

對此,面壁智能首席科學家劉知遠在知乎上發聲,表示“已經比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼”。同時,他指出,開源的MiniCPM-Llama3-V 2.5是以最新的Llama3作爲語言模型基座,而開源共享的基石是對開源協議的遵守,對其他貢獻者的信任,對前人成果的尊重和致敬,Llama3-V團隊無疑嚴重破壞了這一點。

面壁智能CEO李大海也在微信朋友圈發文稱,“我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式,另一方面也呼籲大家共建開放、合作、有信任的社區環境。”

事實上,在種種證據陸續析出後,Llama3-V作者團隊首先是刪評論和刪庫,予以非正面迴應。但在輿情發酵嚴重之後,終於在昨日,其中的兩名作者Aksh Garg和Siddharth Sharma在X平臺聯合署名發表正式迴應,向MiniCPM原作者道歉,並表示會將Llama3-V模型悉數撤下。

隨後,斯坦福人工智能實驗室主任Christopher David Manning發文批判了這一抄襲行爲,谷歌DeepMind研究員Lucas Beyer則表示,有趣的是,有同樣表現的MiniCPM-Llama3-V 2.5得到了太少的關注,而這似乎僅僅因爲這個模型不是來自一所藤校,“我們都顯得太難堪了。”他寫道。