微軟發佈Phi-3,性能超Llama-3,可手機端運行

機器之心報道

編輯:小舟、澤南

Llama-3 剛發佈沒多久,競爭對手就來了,而且是可以在手機上運行的小體量模型。

本週二,微軟發佈了自研小尺寸模型 Phi-3。

新模型有三個版本,其中 Phi-3 mini 是一個擁有 38 億參數的語言模型,經過 3.3 萬億 token 的訓練,其整體性能在學術基準和內部測試上成績優異。

儘管 Phi-3 mini 被優化至可部署在手機上,但它的性能可以與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。微軟表示,創新主要在於用於訓練的數據集。

與此同時,Phi-3 與 Llama-2 使用相同的架構,方便開源社區在其基礎上開發。

此前,微軟的 Phi 系列模型曾經引發了人們的熱議,去年 6 月,微軟發佈了《Textbooks Are All You Need》論文,用規模僅爲 7B token 的「教科書質量」數據訓練 1.3B 參數的模型 phi-1,實現了良好的性能。

去年 9 月,微軟進一步探索這條道路,讓 1.3B 參數的 Transformer 架構語言模型 Phi-1.5 顯示出強大的編碼能力。

去年底,微軟提出的 Phi-2 具備了一定的常識能力,在 2.7B 的量級上多個基準測試成績超過 Llama2 7B、Llama2 13B、Mistral 7B 等一衆先進模型。

Phi-3 技術報告:https://arxiv.org/abs/2404.14219

剛剛提出的 phi-3-mini 是一個在 3.3 萬億個 token 上訓練的 38 億參數語言模型。實驗測試表明,phi-3-mini 的整體性能可與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美,例如 phi -3-mini 在 MMLU 上達到了 69%,在 MT-bench 上達到了 8.38。

微軟之前對 phi 系列模型的研究表明,高質量的「小數據」能夠讓較小的模型具備良好的性能。phi-3-mini 在經過嚴格過濾的網絡數據和合成數據(類似於 phi-2)上進行訓練,並進一步調整了穩健性、安全性和聊天格式。

此外,研究團隊還提供了針對 4.8T token 訓練的 7B 和 14B 模型的初始參數擴展結果,稱爲 phi-3-small 和 phi-3-medium,兩者都比 phi-3-mini 能力更強。

學術基準

在標準開源基準測試中,phi-3-mini 與 phi-2 、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B 、Llama-3-instruct8B 和 GPT-3.5 的比較結果如下表所示,爲了確保具有可比性,所有結果都是通過完全相同的 pipeline 得到的。

安全性

Phi-3-mini 是根據微軟負責任人工智能原則開發的。保證大模型安全的總體方法包括訓練後的安全調整、紅隊(red-teaming)測試、自動化測試和數十個 RAI 危害類別的評估。微軟利用受 [BSA+ 24] 啓發修改的有用和無害偏好數據集 [BJN+ 22、JLD+ 23] 和多個內部生成的數據集來解決安全性後訓練(post-training)的 RAI 危害類別。微軟一個獨立的 red team 反覆檢查了 phi-3-mini,以進一步確定後訓練過程中需要改進的領域。

根據 red team 的反饋,研究團隊整理了額外的數據集從而完善後訓練數據集。這一過程導致有害響應率顯著降低,如圖 3 所示。

下表顯示了 phi-3-mini-4k 和 phi-3-mini-128k 與 phi-2、Mistral-7B-v0.1、Gemma 7B 的內部多輪對話 RAI 基準測試結果。該基準測試利用 GPT-4 模擬五個不同類別的多輪對話並評估模型響應。

缺陷

微軟表示,就 LLM 能力而言,雖然 phi-3-mini 模型達到了與大型模型相似的語言理解和推理能力水平,但它在某些任務上仍然受到其規模的根本限制。例如,該模型根本沒有能力存儲太多「事實知識」,這可以從 TriviaQA 上的低評分中看出。不過,研究人員相信這些問題可以通過搜索引擎增強的方式來解決。

參考內容:https://news.ycombinator.com/item?id=40127806