☰

發佈幾小時，微軟秒刪媲美GPT-4開源大模型！竟因忘記投毒測試

新智元報道

編輯：編輯部

【新智元導讀】前段時間，微軟公佈並開源了最新一代大模型WizardLM-2，號稱性能堪比GPT-4。不過，還未上線一天，模型權重和公告全被刪除了，原因竟是......

上週，微軟空降了一個堪稱GPT-4級別的開源模型WizardLM-2。

卻沒想到發佈幾小時之後，立馬被刪除了。

有網友突然發現，WizardLM的模型權重、公告帖子全部被刪除，並且不再微軟集合中，除了提到站點之外，卻找不到任何證據證明這個微軟的官方項目。

GitHub項目主頁已成404。

項目地址：https://wizardlm.github.io/

包括模型在HF上的權重，也全部消失了.....

全網滿臉疑惑，WizardLM怎麼沒了？

然鵝，微軟之所以這麼做，是因爲團隊內部忘記對模型做「測試」。

隨後，微軟團隊現身道歉並解釋道，自幾個月前WizardLM發佈以來有一段時間，所以我們對現在新的發佈流程不太熟悉。

微軟WizardLM升級二代

去年6月，基於LlaMA微調而來的初代WizardLM一經發布，吸引了開源社區一大波關注。

論文地址：https://arxiv.org/pdf/2304.12244.pdf

隨後，代碼版的WizardCoder誕生——一個基於Code Llama，利用Evol-Instruct微調的模型。

測試結果顯示，WizardCoder在HumanEval上的pass@1達到了驚人的 73.2%，超越了原始GPT-4。

時間推進到4月15日，微軟開發者官宣了新一代WizardLM，這一次是從Mixtral 8x22B微調而來。

它包含了三個參數版本，分別是8x22B、70B和7B。

最值得一提的是，在MT-Bench基準測試中，新模型取得了領先的優勢。

具體來說，最大參數版本的WizardLM 8x22B模型性能，幾乎接近GPT-4和Claude 3。

在相同參數規模下，70B版本位列第一。

而7B版本是最快的，甚至可以達到與，參數規模10倍大的領先模型相當的性能。

WizardLM 2出色表現的背後的秘訣在於，微軟開發的革命性訓練方法論Evol-Instruct。

Evol-Instruct利用大型語言模型，迭代地將初始指令集改寫成越來越複雜的變體。然後，利用這些演化指令數據對基礎模型進行微調，從而顯著提高其處理複雜任務的能力。

另一個是強化學習框架RLEIF，也在WizardLM 2開發過程中起到了重要作用。

在WizardLM 2訓練中，還採用了AI Align AI（AAA）方法，可以讓多個領先的大模型相互指導和改進。

AAA框架由兩個主要的組件組成，分別是「共同教學」和「自學」。

共同教學這一階段，WizardLM和各種獲得許可的開源和專有先進模型進行模擬聊天、質量評判、改進建議和縮小技能差距。

通過相互交流和提供反饋，模型可向同行學習並完善自身能力。

對於自學，WizardLM可通過主動自學，爲監督學習生成新的進化訓練數據，爲強化學習生成偏好數據。

這種自學機制允許模型通過學習自身生成的數據和反饋信息來不斷提高性能。

另外，WizardLM 2模型的訓練使用了生成的合成數據。

在研究人員看來，大模型的訓練數據日益枯竭，相信AI精心創建的數據和AI逐步監督的模型將是通往更強大人工智能的唯一途徑。

因此，他們創建了一個完全由AI驅動的合成訓練系統來改進WizardLM-2。

手快的網友，已經下載了權重

然而，在資料庫被刪除之前，許多人已經下載了模型權重。

在該模型被刪除之前，幾個用戶還在一些額外的基準上進行了測試。

好在測試的網友對7B模型感到印象深刻，並稱這將是自己執行本地助理任務的首選模型。

還有人對其進行了投毒測試，發現WizardLM-8x22B的得分爲98.33，而基礎Mixtral-8x22B的得分爲89.46，Mixtral 8x7B-Indict的得分爲92.93。

得分越高越好，也就是說WizardLM-8x22B還是很強的。

如果沒有投毒測試，將模型發出來是萬萬不可的。

大模型容易產生幻覺，人盡皆知。

如果WizardLM 2在回答中輸出「有毒、有偏見、不正確」的內容，對大模型來說並不友好。

尤其是，這些錯誤引來全網關注，對與微軟自身來說也會陷入非議之中，甚至會被當局調查。

有網友疑惑道，你可以通過「投毒測試」更新指標。爲什麼要刪除整個版本庫和權重？

微軟作者表示，根據內部最新的規定，只能這樣操作。

還有人表示，我們就想要未經「腦葉切除」的模型。

不過，開發者們還需要耐心等待，微軟團隊承諾，會在測試完成後重新上線。

參考資料：

https://favtutor.com/articles/wizardlm-2-benchmarks/

https://anakin.ai/blog/wizardlm-2-microsoft/

發佈幾小時，微軟秒刪媲美GPT-4開源大模型！竟因忘記投毒測試

相關資訊