微軟最新發布:從專家到通用AI代理,一文讀懂「多模態基礎模型」

視覺是人類和其他生物感知世界的主要渠道之一。

人工智能(AI)的一個核心願景是開發 AI 代理,模仿感知、生成視覺信號,與視覺世界進行互動。

近日,微軟研究團隊發佈了一份多模態基礎模型分類和演化的綜述,展示了視覺和視覺語言能力。值得注意的是,該研究還重點探討了多模態基礎模型從專業化到通用視覺助手轉變的方法。

相關研究論文以“Multimodal Foundation Models:From Specialists to General-Purpose Assistants”爲題,已發佈在預印本網站arXiv上。

從視覺理解到視覺生成

隨着廣泛數據訓練模型(如 BERT、GPT 家族、CLIP 和 DALL-E)的出現,AI 領域經歷了一次範式轉變。這些模型能夠適應各種不同的下游任務,因此被稱爲基礎模型。這一模型的興起主要集中在自然語言處理領域,從 BERT 到 ChatGPT 等都是明顯的例證。

根據多模態基礎模型的功能和通用,先前的研究將其分爲視覺理解模型、視覺生成模型、通用界面模型。基於此,該研究將多模態基礎模型分爲兩類:特定目的的預訓練視覺模型(Specific-Purpose Pre-trained Vision Models)和通用型助手(General-Purpose Assistants)。

在視覺理解模型章節中,該研究首先討論了監督學習和 CLIP,隨後轉向僅圖像的自監督學習,其中包括對比學習、非對比學習以及掩膜圖像建模。接着,研究又探討了增強多模態融合、區域級和像素級圖像理解的預訓練方法。

另外,研究詳細介紹了圖像表示的學習方法,可以通過在圖像中挖掘的監督信號進行學習,也可以通過利用從網絡中挖掘的圖像文本數據集進行語言監督學習。

在視覺生成模型章節中,該研究詳細介紹了與調整 T2I 模型以更準確地與人類意圖保持一致相關的文獻。其中包括增強空間可控性、編輯現有圖像以改善對齊、更有效地遵循文本提示,以及爲新的視覺概念個性化 T2I 模型。

基於以往研究,研究人員設想了未來的 T2I 模型將擁有一個統一的對齊調整階段,可以將一個預訓練的 T2I 模型轉化爲更貼近人類意圖的模型。這樣的模型能夠無縫處理文本和圖像輸入,生成所期望的視覺內容,人類無需再爲不同的對齊挑戰定製多個模型。

開發通用統一的視覺系統

值得注意的是,計算機視覺任務的差異導致構建統一的視覺模型面臨巨大挑戰。

不同的視覺任務涉及各種不同類型的輸入,包括圖像、視頻以及視覺與語言等多模態輸入。不同任務還需要不同的粒度,如圖像級別、區域級別和像素級別的任務。這導致視覺系統的輸出具有不同的格式,包括空間信息和語義信息。

此外,數據方面也存在挑戰,因爲不同類型的標籤註釋成本差異巨大,而且收集圖像數據通常比文本數據更昂貴,因此視覺數據的規模通常較小。

目前,計算機視覺領域對於開發通用統一的視覺系統,特別是用於視覺理解任務,越來越感興趣,但一些開放性問題亟待解決。

計算機視覺在應用方面面臨一些挑戰。由於視覺數據的異質性,目前用於訓練模型的數據幾乎無法涵蓋物理世界的全部情況。而且,目前擴展視覺模型的正確路徑尚不明晰。另外,由於視覺和語言之間固有的差異,目前仍然不清楚應該進一步擴展視覺模型並集成語言模型,還是中等規模的視覺模型和大型語言模型(LLMs)的組合已足以解決大多數的問題。

除此之外,該綜述全面研究了大型多模態模型,包括它們的背景、重要性以及最新發展。研究重點關注了圖像到文本生成模型的基礎知識和各種案例研究中的代表性模型實例。同時,探討了 OpenAI 多模態 GPT-4 以及領域內的研究差距。此外,研究還觸及了多模態模型領域的高級主題。最後,通過評估距離實現多模態 GPT-4 的進展總結了該領域的現狀。

值得一提的是,目前開源社區已經開發了各種模型和原型,用於不同的新功能。例如,LLaVA/Mini-GPT4 爲構建多模態聊天機器人鋪平了道路,其中一些示例可以複製 GPT-4 技術報告中的結果。從啓用新功能的角度來看,開源社區似乎已經接近了 OpenAI 多模態 GPT-4,通過探索朝着構建通用多模態助手邁出了初步的探索。

然而,就擴展給定的功能而言,仍然存在明顯的巨大差距,例如研究在 LLaVA 中觀察到的視覺推理能力。模型需要理解多個高分辨率圖像和圖像中所示的長序列文本,並以領域知識進行迴應,這需要更多的計算資源和更強大的語言模型。

另外,研究還回顧了有關將不同的多模態專家與 LLMs 相結合以解決複雜多模態理解問題的文獻,其中涵蓋建模範式的演變,多模態代理的概述以及如何構建多模態代理的詳細內容。

以多模態代理 MM-REACT 爲例,介紹了它的能力和如何擴展到整合最新的 LLMs 和其他工具中。最後,研究還討論瞭如何改進或評估多模態代理以及多模態代理的多樣化應用。

研究在構建基於 LLMs 的高級多模態系統方面涵蓋了兩個方向:訓練多模態模型的方法僅利用 LLMs 來生成基於多模態輸入的文本,以及多模態代理利用 LLMs 的高級規劃能力來分配各種多模態工具。

兩種方法各有利弊,但研究設想了一種中間領域,可以融合這兩種範例的優勢,並提出以下問題:既然已經有了像 LLaVA 這樣的開源 LLMs,那麼我們是否可以用 LLaVA 替代 LLMs 作爲工具分配器?如果可以,需要哪些功能才能啓用一個工具?以及指導調整可以解決哪些問題?

構建通用 AI 代理

儘管像 Flamingo 和多模態 GPT-4 等現有視覺助手已經非常強大,但與構建通用多模態 AI 代理的宏偉願景相比,它們仍處於初步形態。爲此,論文重點介紹了朝着這個目標邁進的若干研究趨勢。

通用代理與多模態一體化。這與構建一個像人類一樣通過多個渠道(如語言、視覺、語音和行爲)與世界互動的單一通用代理的宏偉目標是一致的。從這個角度來看,多模態基礎模型的概念變得有些模糊。相反,它作爲代理的關鍵組成部分,用於感知和綜合視覺信號。

與人類意圖保持一致。AI 對齊研究側重於引導 AI 系統朝向人類預期目標、價值觀或倫理準則發展。儘管語言在表達人類意圖方面表現出其普遍性,但並不總是最佳選擇。構建包含多模態人機交互界面的基礎模型是解鎖新使用場景的關鍵步驟,其中人類意圖最好以視覺方式表示。例如,場景內元素的空間排列,以及視覺藝術作品的藝術風格和視覺吸引力。

另外,根據以往研究框架,該研究預見了多模態基礎模型在 AI 代理系統中的作用。其中包括計劃、記憶和工具使用。

計劃:爲了在現實世界情境中完成複雜任務,代理應該能夠將大型任務分解爲較小、可管理的子目標,從而實現對複雜任務的高效處理。在理想情況下,AI 代理應該具備自我改進的能力,進行對以前行動的自我評估和反思,使其能夠從錯誤中學習,並改進其方法以進行後續嘗試,最終實現更好的結果。

記憶:對於短期記憶,採用上下文學習(或提示)作爲模型的短期記憶,以便學習。交織的多模態提示可以使新情景更清晰地表達人類意圖。對於長期記憶,它爲代理提供了在長時間會話中召回外部知識的能力,可以通過從多模態向量空間快速檢索來實現。在建模方面,基礎模型需要學習新的技能,以有效地利用這兩種類型的記憶。

工具使用:代理學會利用外部 API 獲取基礎模型權重中缺失的知識。在幾種情境下,需要新的能力來處理視覺模態。例如,基於輸入的視覺信號和指令,模型決定並計劃是否需要某些外部API 來完成目標,例如執行檢測/分割/OCR/生成專家的代碼執行。

多模態基礎模型領域正在以快速的速度發展,新的方向和方法經常涌現。由於每日不斷更新的研究創新,該論文還有許多未討論的研究主題。但是,總體而言,該論文提供了一份全面而及時的綜合調查,涵蓋了現代多模態基礎模型的各個方面,爲讀者提供深入瞭解多模態基礎模型開發領域的視角。

作者在文中表示:“我們對多模態基礎模型的未來充滿信心,這不僅因爲我們確信,通過追隨 LLMs 的道路,可以在不久的將來實現個別領域中可預見的研究創新和思想,還因爲將計算機視覺與更廣泛的 AI 社區聯繫起來,構建通用 AI 代理將顯著提升人類的日常生活水平。”