格靈深瞳開源RWKV-CLIP模型,強大的視覺語言表徵學習器

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區將打造成huggingface之外最活躍的中立開放的AI開源社區。歡迎《》以及《》。wisemodel社區上升級了體驗空間,,並。

1

摘要

圖文預訓練 (CLIP) 任務通過使用從網站獲取的圖像-文本對擴展數據集,從而顯著提高了各種視覺,語言任務的性能。本文從數據和模型架構的角度進一步探討了 CLIP,爲了解決噪聲數據的普遍存在並提高從互聯網上爬取的大規模圖像文本數據的質量,研究團隊引入了一個多樣化的描述生成框架,該框架可以利用大型語言模型 (LLM) 從基於網絡的文本、合成字幕和檢測標籤中合成和細化內容。

研究團隊提出了RWKV-CLIP,這是第一個由 RWKV 驅動的視覺語言表示學習模型,它將 Transformer 的有效並行訓練與 RNN 的有效推理相結合。跨各種模型規模和預訓練數據集的綜合實驗表明,RWKV-CLIP 是一個強大而高效的視覺語言表示學習器,它在多個下游任務中取得了最先進的性能,包括線性探測、零樣本分類和零樣本圖像文本檢索。RWKV-CLIP已經發布到了始智AI wisemodel.cn開源社區,歡迎前往瞭解和使用。

https://wisemodel.cn/models/deepglint/RWKV-CLIP(模型地址)

2

介紹

使用CLIP模型篩選基於網絡的圖像-文本對時,仍然存在大量噪聲數據。爲了提高數據質量,研究團隊提出了一種多樣化描述生成框架,利用大型語言模型(LLMs)的能力,從基於網絡的文本、合成字幕和檢測標籤中綜合和提煉信息,以生成更準確、語義豐富的描述。除此之外,研究團隊還提出了RWKV驅動的視覺-語言表示學習模型,它結合了transformer的有效並行訓練和RNNs的高效推理。通過在不同模型規模和預訓練數據集上的廣泛實驗且證明它是一個穩健且高效的視覺語言表徵學習器。

3

方法

圖1 多樣性文本生成框架結構圖

3.1 多樣性文本生成框架

爲了減少圖像-文本對不匹配的影響,利用大型語言模型(LLMs)整合基於網絡的文本、合成字幕和檢測標籤的信息,以生成更準確和語義豐富的描述。研究團隊使用OFA模型爲每個圖像生成與圖像相匹配的文本描述。由於OFA生成的合成文本質量不是很高,研究團隊隨之引入了開放世界標記模型RAM++,從圖像中提取對象檢測標籤,以獲取更細緻的語義信息。最後利用ChatGPT結合原始文本、合成字幕和檢測標籤的信息,但因其計算量大,改用基於ChatGPT交互構建的指令數據集 (70K),微調開源的LLaMA3模型,用於大規模推理。多樣性文本生成框架結構如圖1所示。

圖2 RWKV-CLIP模型結構圖

3.2 RWKV-CLIP模型

受到RWKV和Vision-RWKV的啓發,RWKV-CLIP採用了雙塔架構,它融合了Transformer 的有效並行訓練和RNN的高效推理的有點。如圖2所示,該模型由多個空間混合(Spatial Mixing)和通道混合(Channel Mixing)模塊堆疊而成,通過這些模塊實現對輸入圖像和文本的深入處理。在空間混合階段,模型利用注意力機制進行全局的線性複雜度計算,強化特徵在通道層級的交互。隨後的通道混合階段進一步細化特徵表示。RWKV-CLIP模型在輸入增強方面,通過隨機選擇原始文本、合成字幕或生成描述作爲文本輸入,增強了模型的魯棒性。此外,模型使用了一種新穎的線性插值方法B-Lerp和Q-Lerp,分別是在channel維度左右雙向和上下左右四向掃描文本和圖像特徵,和雙向加權鍵值(Bi-WKV)來優化特徵融合過程。

4

實驗

4.1實驗細節

預訓練數據集:模型在YFCC15M數據集上進行預訓練,該數據集是YFCC100M的一個子集,由DeCLIP過濾得到。爲了驗證模型的通用性,還從LAION400M中隨機選擇了10M和30M的子集進行實驗。

實現細節:使用OFA base生成合成字幕,利用ChatGPT-35-turbo構建指令數據集,並微調LLaMA3-8B模型以增強描述的多樣性。優化器採用AdamW,設置了學習率、權重衰減等超參數。

模型架構細節:

表1 RWKV-CLIP的具體模型架構參數

如表1所示,研究團隊搭建的RWKV-CLIP的具體參數設置,模型的計算flops對標的是CLIP。

4.2 實驗結果

表2 RWKV-CLIP的線性評估任務的結果

研究團隊使用 RWKV-CLIP 作爲特徵提取器並僅訓練邏輯迴歸分類器。表 2 詳細介紹了 ALIP 中引用的 10 個下游數據集的線性探測性能。與基線模型相比,RWKV-CLIP 實現了 1.9% 至 11.1% 的顯著性能提升,在 10 個數據集中的 8 箇中表現優於 ALIP。觀察到的性能改進主要歸因於兩個主要因素:(1)研究團隊提出的描述生成框架有效地綜合和細化了來自基於網絡的文本、合成字幕和檢測標籤的信息,從而生成更準確、語義更豐富的描述。(2)與基於 Transformer 的模型相比,RWKV-CLIP 表現出卓越的表徵學習能力。

表3 RWKV-CLIP的零樣本圖文檢索任務的結果

在表 3 中,將本文的方法與Flickr30k 和 MSCOCO上的零樣本圖像文本檢索中的最先進方法進行了比較。RWKV-CLIP 在所有評估指標上都取得了新的最先進結果。具體來說,RWKV-CLIP在 Flickr30K 上實現了 76.0% / 57.6% 的 I2T/T2I 檢索 Recall@1,超過 ALIP 5.5% / 8.7%。同樣,在 MSCOCO 上,RWKV-CLIP 的 I2T/T2I 檢索 Recall@1 也顯著提高了 3.5% / 4.7%。這種出色的圖像文本檢索能力表明 RWKV-CLIP 學習到的表示是穩健的,並且表現出增強的跨模態對齊。

表4 RWKV-CLIP的零樣本分類任務的結果

研究團隊展示了 11 個數據集的零樣本分類性能。爲了確保公平比較,研究團隊使用與 ALIP 和 SLIP 中建立的相同的提示模板和類名。如表 4 所示,RWKV-CLIP 比基線模型的平均性能提高了 2.6% 到14.4%。值得注意的是,RWKV-CLIP模型在 11 個數據集中的 10 箇中都優於 ALIP,並且在 Food101 和 ImageNet 等實例判別數據集上具有顯着增強。這種改進主要歸功於框架生成的多樣化描述,從而提供了更細粒度的語義信息。

4.3 不同模態分析

圖3 跨模態分析可視化圖

爲了瞭解 RWKV-CLIP 的有效性,同時對RWKV-CLIP進行了跨模態分析。首先從 YFCC15M 中隨機選擇了 250 個圖像-文本對,並可視化了 ALIP 和 RWKV-CLIP 的模態差距。具體來說,每張圖像及其對應的文本都被編碼到嵌入空間中,並使用 UMAP 將其縮減爲二維。如圖所示,可以發現 RWKV-CLIP 學習到的表示在同一模態中表現出更清晰的可辨別性。此外,與 ALIP 相比,RWKV-CLIP 在圖像-文本模態空間中表現出更近的距離,表明跨模態對齊性能更出色。

除此之外,爲了評估 RWKV-CLIP 跨模態對齊的性能,從 YFCC15M 中隨機選擇了 50 個樣本,並在圖中可視化了跨模態餘弦相似度矩陣。可以觀察到 RWKV-CLIP 矩陣的對角線與 ALIP 相比明顯更清晰,這表明 RWKV-CLIP 學習到的表示表現出更高的獨特性和更好的跨模態對齊能力。

5

結論

本文從數據和模型架構的角度進一步探討了 CLIP。爲了解決噪聲數據普遍存在的問題並提高從互聯網上抓取的大規模圖像文本數據的質量,引入了一個多樣化的描述生成框架,該框架可以利用大型語言模型 (LLM) 來合成和細化來自網絡文本、合成字幕和檢測標籤的內容。此外,研究團隊提出了 RWKV-CLIP,這是第一個由 RWKV 驅動的視覺語言表示學習模型,它將 Transformer 的有效並行訓練與 RNN 的有效推理相結合。在各種模型規模和預訓練數據集上進行的綜合實驗表明,RWKV-CLIP 是一個強大而高效的視覺語言表示學習器;它在幾個下游任務中實現了最先進的性能,包括線性探測、零樣本分類和零樣本圖像文本檢索。爲了提高結果的可重複性,將發佈預處理數據、訓練代碼和預訓練模型權重。

圖文:格靈深瞳

編輯:成蘊年

----- END -----

wisemodel相關

系統升級

系列模型:

復旦大學團隊發佈Hallo多模態模型,首個音頻驅動的人臉視頻生成模型

關於wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志願者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發佈到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社羣,持續關注wisemodel.cn開源社區動態,

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成爲影響力日益擴大的中立開放的AI開源社區,爲了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、後端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關於AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關於wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看