一文看懂MoE的前世今生,大模型的未來它說了算?

出品|本站科技《態度》欄目

作者|薛世軒

編輯|丁廣勝

所有的創新都有其現實驅動力。

在互聯網巨頭的世界,這一驅動力就是成本。

“降本增效”的邏輯貫穿着技術演進的始終,大模型架構也不例外。

目前,大模型的發展已經到了一個瓶頸期,包括被業內詬病的邏輯理解問題、數學推理能力等,想要解決這些問題就不得不繼續增加模型的複雜度。

如何平衡大模型的訓練難度和推理成本成爲擺在各位玩家面前的難題。

而MoE模型的日漸成熟爲開發者們重新指引了前進的方向——通過改變模型底層架構,換一種耗能低且訓練和推理效果好的模型架構進行大模型開發。

一、MoE的前世今生:老樹又冒新芽

MoE(Mixture-of-Experts,專家混合),首次出現於1991年的論文Adaptive Mixture of Local Experts中,其前身是“集成學習”(Ensemble Learning),作爲一種由專家模型和門控模型組成稀疏門控制的深度學習技術,MoE由多個子模型(即專家)組成,每個子模型都是一個局部模型,專門處理輸入空間的一個子集。

在“分而治之”的核心思想指導下,MoE 使用門控網絡來決定每個數據應該被哪個模型去訓練,從而減輕不同類型樣本之間的干擾。

通俗來講,MoE就像復仇者聯盟,每個子模型(專家)都是一個超級英雄,門控網絡則是尼克·弗瑞,負責協調各個超級英雄,決定在什麼情況下召喚哪位英雄。門控網絡會根據任務的特點,選擇最合適的專家進行處理,然後將各位專家的輸出彙總起來,給出最終的答案。

門控功能“稀疏性”的引入讓MoE在處理輸入數據時只激活使用少數專家模型,大部分專家模型處於未激活狀態。換言之,只有擅長某一特定領域的超級英雄會被派遣,爲用戶提供最專業的服務,而其他超級英雄則原地待命,靜待自己擅長的領域到來。這種“稀疏狀態”作爲混合專家模型的重要優勢,進一步提升了模型訓練和推理過程的效率。

前者讓MoEs成爲更深層次網絡的組成部分,讓MoEs可以靈活的作爲多層網絡中的某個層級存在,實現模型的大規模化與高效率並存;後者通過動態激活或關閉輸入每一層級的數據從而實現數據的高效處理。

MoE的加入讓整個神經網絡系統就像一個大型圖書館,每層都有不同類型的書籍和專業的圖書管理員,門控系統(圖書館的智能導引系統)會根據讀者的不同需求,將他們引導至最合適的樓層(多層網絡中的某一層級),而這一過程也不斷根據數據特點進行實時動態處理。

稀疏專家模型領域的權威研究人員Barret Zoph、Irwan Bello等人指出,每個encoder(光柵)的專家雖然學習到了一部分token或簡單的理論,但decoder(譯碼器)專家並沒有展現出專業化的特徵;專家雖訓練了一個多語言模型,但是並沒有發現某一個專家精通某種單一語言。

簡言之,這也道出了目前MoE在微調過程中面臨的泛化的困難以及可能出現的過擬合困境。

不過綜合來看,大模型結合混合專家模型的方法屬於老樹發新芽,隨着應用場景的複雜化和細分化,大模型越來越大,垂直領域應用更加碎片化,想要一個模型既能回答通識問題,又能解決專業領域問題,MoE無疑是一種性價比更高的選擇。

二、拓展?顛覆?MoE與Transformer的“奪嫡之爭”

Google於2017年在其論文Attention Is All You Need中首次提出了當下大火的大語言模型——Transformer:主要用於處理序列到序列(Seq2Seq)的任務。雖然它在長距離依賴捕捉與並行化處理等方面具有顯著優勢,但由於缺乏循環結構,使得要想通過Transformer訓練AI大模型需要花費大量算力資源且耗時更長。

以GPT爲例,其所使用的Transformer的解碼器部分在訓練過程中每天約消耗超50萬度電力,訓練成本更是以萬億美元爲單位計數。如此鉅額的開銷自然不是追求“降本增效”的互聯網公司所希冀的。

大模型底層架構的更新已勢在必行。

搭載MoE架構的可持續新模型逐漸成爲大模型開發者的新寵。

2023年12月,Mistral AI 開源了基於 MoE架構的模型Mixtral 8x7B,其性超越包括 GPT-3.5在內的衆多參數更多的模型,顯示了MoE架構在大模型研究中的潛力。

不止於此,谷歌基於MoE架構成功開發了GLaM的語言模型;Snowflake採用MoE架構發佈了大型語言模型Snowflake Arctic;崑崙萬維發佈的基於MoE架構的大語言模型“天工2.0/3.0”等等。

實踐證明,MoE已經成爲高性能AI大模型的必選項。

三、大模型的技術性創新:巨頭髮難下的無奈之舉

AI大模型的迭代離不開高效的算力芯片,而英偉達的市場行爲通常能夠左右AI領域大模型開發者的策略。

奔走在大模型研發前線的開發者們深諳這一法則。所有雞蛋不能放在同一個籃子裡,既要提防英偉達“坐地起價”,又要着手開發能夠進一步“降本增效”的大模型,將主動權重新掌握在自己手中。

這種策略是正確的。

2022年底,受禁售傳聞等多因素疊加影響,英偉達中國特供版A100一週內漲價超30%,間接導致定製版A800價格飆升至10000美元以上。而隨後發佈的H100芯片更是在eBay上被炒到超4萬美元一枚,且價格仍一路攀升。

高昂的芯片價格壓的大模型公司喘不過來氣,是繼續承擔激增的成本還是從大模型底層架構入手另尋他法成爲他們必須進行的抉擇。

毋庸置疑的是,他們善用技術,當資本與之抗衡時,技術就成爲他們最有力的武器。

要想擺脫大模型訓練與研發過程中可能存在的斷檔問題,開發者能做的只有通過大模型技術層面的持續破壁以對衝成本激增所帶來的不穩定因素。

四、MoE:前路坦蕩但也風雨交加

2017年,谷歌首次將MoE引入自然語言處理領域,通過在LSTM層之間增加MoE實現了機器翻譯方面的性能提升。

2020年,Gshard首次將MoE技術引入Transformer架構中,並提供了高效的分佈式並行計算架構。

2021年1月,谷歌的Swtich Transformer和GLaM則進一步挖掘MoE技術在自然語言處理領域中的應用潛力,實現了優秀的性能表現。

2021年6月,V-MoE將MoE架構應用在計算機視覺領域的Transformer架構模型中,同時通過路由算法的改進在相關任務中實現了更高的訓練效率和更優秀的性能表現;

2022年,LIMoE作爲首個應用了稀疏混合專家模型技術的多模態模型,模型性能相較於CLIP也有所提升。

2023年,Mistral AI發佈的Mistral 8x7B模型由70億參數的小模型組合起來的MoE模型,直接在多個跑分上超過了多達700億參數的Llama 2。

2024年2月,崑崙萬維正式發佈了搭載新版MoE架構的大語言模型“天工2.0”,並面向全體C端用戶免費開放。同年4月,“天工3.0”正式開啓公測。

2024年4月,MiniMax 發佈的基於萬億 MoE 模型的abab 6.5可以1秒內處理近3萬字的文本,並在各類核心能力測試中接近GPT-4、Claude-3、 Gemini-1.5等世界上領先的大語言模型

……

MoE的征途仍在繼續。

它自誕生以來便一路高歌,爲大模型開發公司進一步“降本增效”的同時實現了大模型訓練成本與訓練效率之間的動態平衡。

但任何技術的普及與在地化應用從來並非坦途。

根植於MoE架構底層框架之上的訓練複雜性、專家模型設計合理性、稀疏性失真、對數據噪聲相對敏感等技術難關也都在制約着MoE架構在大數據模型中的發揮。

儘管AI領域的大模型開發者已經利用MoE架構成功研發了多款高效的大模型工具。但,任何技術都不可避免地掣肘於時代背景與現有知識框架,當新技術的發展觸碰到了其自身所能達到的邊界,這將會倒逼大模型開發者着眼於更開闊的路徑,在創新與突破中實現大模型的技術革新與產品升級。

利用MoE,但不止於MoE。

本文系本站科技報道,更多新聞資訊和深度解析,關注我們。