只用0.5天,訓練一個15億參數小模型;谷歌推出新型Transformer架構|大模型週報

本週值得關注的大模型 / AIGC 前沿研究:

只需半天,訓練一個 15 億參數小模型

Megalodon:具有無限文本長度的高效 LLM 預訓練和推理

Melodist:實現包含人聲和伴奏的可控文生歌曲模型

替代 Transformer?一文讀懂狀態空間模型(SSM)

谷歌推出新型 Transformer 架構:反饋注意力就是工作記憶

COMBO:幫助多智能體合作的組合世界模型

MoA:新型“文生圖”擴散模型個性化架構

Google DeepMind 新研究:多樣本上下文學習

MIT、谷歌新研究:基於零樣本跨語言對齊的獎勵模型轉移

TriForce:利用分層投機解碼無損加速長序列生成

1.只需半天,訓練一個 15 億參數小模型

德州大學奧斯汀分校團隊研究了一種基於現有大型基礎語言模型開發小型基礎語言模型的簡單方法的有效性:首先從大型語言模型中繼承幾個 transformer 塊,然後在大型模型的原始預訓練數據的極小子集(0.1%)上訓練這個較小的模型。

他們將這一簡單方法稱爲 Inheritune,並首次演示瞭如何使用 1B token(以及具有 3B 參數的大型語言模型的起始幾層)構建具有 1.5B 參數的小型基礎語言模型;他們使用單張 A6000 GPU 完成了這一工作,耗時不到半天。

在 9 個不同的評估數據集以及 MMLU 基準測試中,所得到的模型與公開的 1B-2B 大小的基礎模型相比性能相當,其中一些模型使用了 50-1000 倍的 token 進行訓練。

他們在一個略有不同的環境中研究了 Inheritune,即利用較大的語言模型及其完整的預訓練數據集來訓練較小的語言模型。他們展示了利用 GPT2-medium(3.55 億)和 GPT2-large(7.7 億)的部分層訓練的較小語言模型,在具有 9B token 的 OpenWebText 數據集上從頭開始訓練時,在相同的訓練步驟數下,可以有效地與較大語言模型的估值損失相媲美。

論文鏈接:

https://arxiv.org/abs/2404.08634

GitHub 地址:

https://github.com/sanyalsunny111/LLM-Inheritune

2.Megalodon:

具有無限文本長度的高效 LLM 預訓練和推理

Transformers 的二次方複雜性和較弱的長度外推能力限制了其擴展至長序列的能力,雖然存在線性注意和狀態空間模型等二次方以下的解決方案,但根據經驗,它們在預訓練效率和下游任務準確性方面都不如 Transformers。

來自 Meta、南加州大學、卡內基梅隆大學和加州大學聖地亞哥分校的研究團隊提出了一種用於高效序列建模、上下文長度不受限制的神經架構 Megalodon。

Megalodon 繼承了 Mega 架構,並進一步引入了多種技術組件來提高其能力和穩定性,包括複雜指數移動平均線(CEMA)、時間步歸一化層、歸一化注意力機制和帶雙跳殘差配置的 pre-norm。

在與 Llama2 的可控正面對照比較中,Megalodon 在 70 億參數和 2 萬億訓練 Tokens 的規模上取得了比 transformer 更好的效率。Megalodon 的訓練損失爲 1.70,在 Llama2-7B (1.75) 和 13B (1.67) 之間。

論文鏈接:

https://arxiv.org/abs/2404.08801

GitHub 地址:

https://github.com/XuezheMax/megalodon

3.Melodist:

實現包含人聲和伴奏的可控文生歌曲模型

歌曲是歌聲和伴奏的結合,然而,現有的工作主要集中在歌唱聲音合成和音樂生成上,很少有人關注歌曲合成。

浙江大學研究團隊提出了一項名爲“文本到歌曲合成”(text-to-song synthesis)的新任務,其中包含人聲和伴奏的生成,他們開發的 Melodist 是一種兩階段文本到歌曲方法,包括歌唱語音合成 (SVS)和人聲到伴奏合成 (V2A)。Melodist 利用三塔對比預訓練來學習更有效的文本表示,用於可控的 V2A 合成。

爲了緩解數據的稀缺性問題,他們構建了一個從音樂網站中挖掘出的中文歌曲數據集。在他們的數據集上的評估結果表明,Melodist 可以合成具有相當質量和風格一致性的歌曲。

論文鏈接:

https://arxiv.org/abs/2404.09313

項目地址:

https://text2songmelodist.github.io/Sample/

4.替代 Transformer?一文讀懂狀態空間模型(SSM)

近來,狀態空間模型(State Space Model,SSM)作爲一種可能替代基於自注意力的 Transformer 的方法,受到了越來越多的關注。在這項工作中,來自安徽大學、哈爾濱工業大學和北京大學的研究團隊,首先對這些工作進行了全面的綜述,並進行了實驗比較和分析,從而更好地展示 SSM 的特點和優勢。

具體而言,他們首先對 SSM 的原理進行了詳細描述,從而幫助讀者快速捕捉 SSM 的主要思想;然後,對現有的 SSM 及其各種應用進行綜述,包括自然語言處理、計算機視覺、圖、多模態多媒體、點雲/事件流、時間序列數據等領域。

此外,他們還對這些模型進行了統計上的比較和分析,希望能幫助讀者瞭解不同結構在各種任務上的有效性。

最後,他們提出了該方向可能的研究方向,從而更好地推動 SSM 理論模型和應用的發展。

論文鏈接:

https://arxiv.org/abs/2404.09516

GitHub 地址:

https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

5.谷歌推出新型 Transformer 架構:

反饋注意力就是工作記憶

雖然 Transformer 給深度學習帶來了革命性的變化,但二次注意力複雜性阻礙了其處理無限長輸入的能力。

谷歌研究團隊提出了一種新型 Transformer 架構“反饋注意力記憶”(Feedback Attention Memory,FAM),其利用反饋環路使網絡能夠關注自身的潛在表徵。這種設計促進了 Transformer 工作記憶的出現,使其能夠處理無限長的序列。TransformerFAM 不需要額外的權重,因此可以與預訓練模型無縫集成。

實驗表明,TransformerFAM 顯著提高了 Transformer 在各種模型大小(1B、8B 和 24B)的長上下文任務中的性能。

論文鏈接:

https://arxiv.org/abs/2404.09173

6.COMBO:幫助多智能體合作的組合世界模型

來自馬薩諸塞大學阿默斯特分校、清華大學和北京大學的研究團隊及其合作者,探討了具身多智能體合作問題,在這種情況下,去中心化智能體必須在只有部分自我中心世界觀的情況下進行合作。

爲了在這種情況下有效地制定計劃,與在單個智能體場景中學習世界動態不同,他們必須在僅對世界進行部分自我中心視覺觀察的情況下,模擬以任意數量智能體的行動爲條件的世界動態。

爲了解決部分可觀測性這一問題,他們首先訓練生成模型,以便在部分自我中心觀測條件下估計整體世界狀態。爲了能夠在此世界狀態下精確模擬多組行動,他們建議通過對多個智能體的自然可組合聯合行動進行因式分解並組合生成視頻,從而學習多智能體合作的組合世界模型。利用這種組合世界模型,結合視覺語言模型來推斷其他智能體的行動,就可以使用樹狀搜索程序來整合這些模塊,促進在線合作規劃。

爲了評估這一方法的有效性,他們使用 ThreeDWorld 模擬器創建了兩個具有挑戰性的多智能體長視野合作任務,並用 2-4 個智能體進行了實驗。結果表明,他們的合成世界模型是有效的,而且該框架能使智能體在各種任務和任意數量的智能體中與不同智能體進行高效合作。

論文鏈接:

https://arxiv.org/abs/2404.10775

GitHub 地址:

https://vis-www.cs.umass.edu/combo/

7. MoA:新型“文生圖”擴散模型個性化架構

Snap 研究團隊提出了一種新的架構——注意力混合(MoA),用於文本到圖像擴散模型個性化。受大型語言模型(LLMs)中使用的專家混合機制(Mixture-of-Experts mechanism)的啓發,MoA 在兩個注意力路徑之間分配生成工作量:個性化分支和非個性化先驗分支。

MoA 的設計目的是通過將注意力層固定在先驗分支中來保留原始模型的先驗性,同時通過個性化分支儘量減少對生成過程的干預,該分支學會將主題嵌入到先驗分支生成的佈局和上下文中。一種新穎的路由機制可以管理各層像素在這些分支中的分佈,從而優化個性化和通用內容創建的融合。

經過訓練後,MoA 就能幫助創建高質量的個性化圖像,這些圖像包含多個主體,其構圖和交互方式與原始模型生成的圖像一樣多樣化。重要的是,MoA 增強了模型原有能力與新增強的個性化干預之間的區別,從而提供了一種以前無法實現的更加獨立的主體—語境控制。

論文鏈接:

https://arxiv.org/abs/2404.11565

項目地址:

https://snap-research.github.io/mixture-of-attention/

8.Google DeepMind 新研究:多樣本上下文學習

目前,大型語言模型(LLMs)最擅長的是 “少樣本上下文學習”(ICL)—— 即在推理時從上下文中提供的少數幾個示例中學習,而不進行任何權重更新。新擴展的上下文窗口允許用數百或數千個案例來研究 ICL——多樣本模式,從少樣本到多樣本,在各種生成性和判別性任務中觀察到顯著的性能提升。

然而,雖然多樣本 ICL 前景廣闊,但可能會受到人類生成示例可用數量的瓶頸制約。

爲此,來自 Google DeepMind 的研究團隊探索了兩種新的設置:強化 ICL 和無監督 ICL。強化 ICL 使用模型生成的思維鏈理由來代替人類示例;無監督 ICL 則完全取消了提示中的理由,只用特定領域的問題來提示模型。他們發現,強化型和無監督型 ICL 在多輪推理,尤其是在複雜推理任務中都非常有效。

實驗證明,與少樣本學習不同,多樣本學習在覆蓋預訓練偏差方面是有效的,並可以學習具有數值輸入的高維函數。他們的分析還揭示了下一個 token 預測損失作爲下游 ICL 性能指標的侷限性。

論文鏈接:

https://arxiv.org/abs/2404.11018

9.MIT、谷歌新研究:

基於零樣本跨語言對齊的獎勵模型轉移

根據人類標註的偏好數據對語言模型(LMs)進行對齊,是獲得基於 LM 的系統實用且性能良好的的關鍵一步。

然而,多語言人類偏好數據很難大規模獲取,因此將這一框架擴展到多種語言具有挑戰性。

來自麻省理工大學和谷歌的研究團隊評估了一種簡單的零樣本跨語言對齊方法,即在一種源語言的偏好數據上訓練獎勵模型,然後直接應用於其他目標語言。在總結和開放式對話生成方面,他們表明這種方法在包括人工評估在內的綜合評估設置下始終是成功的,在多達 > 70% 的評估實例中,跨語言對齊模型比非對齊模型更受人類青睞。

此外,不同語言獎勵模型有時會比同種語言獎勵模型產生更好的對齊模型。他們還確定了在沒有特定語言數據甚至監督微調時的最佳實踐。

論文鏈接:

https://arxiv.org/abs/2404.12318

10.TriForce:利用分層投機解碼無損加速長序列生成

最近,隨着大型語言模型(LLMs)被廣泛應用於長內容生成,對高效長序列推理支持的需求日益增長。

然而,爲避免重複計算而存儲的鍵值(KV)緩存已成爲一個關鍵瓶頸,其大小隨序列長度呈線性增長。由於 LLM 的自動遞歸特性,每生成一個 token 就會加載整個 KV 緩存,從而導致計算核心利用率低而延遲高。雖然已經提出了各種 KV 緩存壓縮方法來緩解這一問題,但這些方法都會導致生成質量下降。

來自卡內基梅隆大學和 Meta 的研究團隊提出了一種可擴展至長序列生成的分層推測解碼系統 TriForce。這種方法通過檢索利用原始模型權重和動態稀疏 KV 緩存作爲草稿模型,作爲層次結構中的中間層,並由更小的模型進一步推測,從而減少其草稿延遲。

TriForce 不僅爲 Llama2-7B-128K 帶來了令人印象深刻的速度提升,在 A100 GPU 上實現了高達 2.31 倍的速度,而且還展示了在處理更長上下文時的可擴展性。在兩個 RTX 4090 GPU 上的卸載設置中,TriForce 實現了 0.108s/token 的速度,僅爲 A100 上自動迴歸基線速度的一半,而在優化的卸載系統上則達到了 7.78 倍。

此外,TriForce 在單個 RTX 4090 GPU 上的性能是 DeepSpeed-Zero-Inference 的 4.86 倍。TriForce 的魯棒性凸顯了其在各種溫度下始終保持出色的性能。

論文鏈接:

https://arxiv.org/abs/2404.11912

GitHub 地址:

https://github.com/Infini-AI-Lab/TriForce

加入「大模型技術分享羣」

第一時間獲取每日最新大模型熱門論文

|點擊關注我 記得標星|