☰

通用文檔理解新SOTA，多模態大模型TextMonkey來了

機器之心專欄

機器之心編輯部

最近，華中科技大學和金山的研究人員在多模態大模型 Monkey [1]（Li et al., CVPR2024）工作的基礎上提出 TextMonkey。在多個場景文本和文檔的測試基準中，TextMonkey 處於國際領先地位，有潛力帶來辦公自動化、智慧教育、智慧金融等行業應用領域的技術變革。

TextMonkey 是一個專注於文本相關任務（包括文檔問答和場景文本問答）的多模態大模型（LMM）。相比於 Monkey，TextMonkey 在多個方面進行改進：通過採用零初始化的 Shifted Window Attention，TextMonkey 實現了更高輸入分辨率下的窗口間信息交互；通過使用相似性來過濾出重要的圖像特徵，TextMonkey 不僅能夠簡化輸入，還可以提高模型的性能。

此外，通過擴展多個文本相關任務並將位置信息納入回答，TextMonkey 增強了可解釋性並減少了幻覺。與此同時，TextMonkey 在微調之後還可以具備 APP Agent 中理解用戶指令並點擊相應位置的能力，展現了其下游應用的巨大潛力。

例如，TextMonkey 展現出強大的視覺定位與理解能力，不僅能夠定位圖像中的所有文本，還能在視覺問答時給出答案及其所在位置，增加了可解釋性並減少了幻覺。

即使在文字相當密集的情況下，TextMonkey 也可以讀取輸入圖片中的所有文字並且給出圖片中文本的座標。

TextMonkey 還能幫助我們結構化圖表，表格以及文檔數據，通過將圖像內容轉化爲 Json 格式的信息，方便記錄和提取。

實驗結果表明，TextMonkey 在各種基準數據集上的性能得到了顯著提升，在以場景文本爲中心的視覺問答、文檔 VQA 和關鍵信息抽取任務中分別取得了 5.2%、6.9% 和 2.8% 的準確率增長，特別是在 OCRBench [2] 上獲得了 561 的得分，超越此前所有已開源的多模態大模型。

方法介紹

TextMonkey 的成功核心在於它模擬人類視覺認知的方法，這使它能自然而然地識別高清文檔圖像中各部分的相互關聯，並靈敏地鑑別出圖像內的關鍵要素。更進一步，基於對用戶多樣化需求的深入理解，TextMonkey 通過文本定位技術強化了答案的準確性，提升了模型的解釋性，減少了幻覺，有效提高了在處理各類文檔任務上的表現。

圖 1 TextMonkey 整體架構

1.Shifted Window Attention

現有的多模態大模型，如 Monkey 和 LLaVA1.6，通過將圖像切分爲小塊來提高輸入分辨率。然而這種裁剪策略可能會無意中分割相關單詞，導致語義不連貫。此外，這種分裂造成的空間分離也使得處理與文本位置相關的任務（如文本檢測）變得具有挑戰性。TextMonkey 在繼承 Monkey 高效的圖像分辨率縮放功能的同時，採用滑動窗口注意力機制建立了塊與塊之間的上下文聯繫。

2.Token Resampler

目前的多模態大模型面臨着圖像 token 數目隨着輸入分辨率的增加而增加的挑戰。由於語言模型的輸入長度和訓練時間的限制，減少 token 的數量是很有必要的。

在自然語言中，語言元素會存在一些冗餘信息。那麼可以自然的猜測在擴大圖像分辨率之後，視覺部分的 token 也會存在冗餘。本文根據以往確定語言元素相似性的方法，對已經映射到語言空間的圖像 token 的相似性進行了度量：在圖像 Resampler 之後隨機選取 20 個有序特徵，利用餘弦相似性成對比較這些特徵的相似性，得到的結果如圖 2 所示。顏色越深代表相似性越高，實驗發現每個圖片的 token 都有一個到幾個類似的 token，圖片特徵中存在冗餘。

同時，本文還觀察到某些 token 是高度獨特的，並且缺乏其他相似的 token，如圖中的第四個 token，這表明這個 token 是更爲重要的。因此本文選用相似度來度量並識別獨特的視覺 token。並提出 Token Resampler 來壓縮冗餘視覺 token。通過計算每個 token 與其他 token 的相似度，過濾得到最重要（相似度最低）的 K 個 token。同時，爲了避免直接丟棄其他 token 造成的信息丟失，這裡還會利用過濾得到的 K 個 token 作爲查詢，並採用交叉注意力機制進一步融合所有特徵。

圖 2 圖像 token 相似性比較

3. 多任務訓練

TextMonkey 支持讀出所有文本，文本檢測識別，輸出給定文本座標，文本問答，具有位置感知的文本問答，圖像結構化等多個任務。TextMonkey 在進行問答時不僅看可以給出答案，還能給出答案所在位置，進一步增強了模型的可解釋性。與此同時，在經過微調之後，TextMonkey 還可以具備 APP Agent 中理解用戶指令並點擊相應位置的能力。

實驗分析

1.TextMonkey 與現有的多模態大模型相比，表現出了優越的性能。

2. 爲了進一步驗證 TextMonkey 的有效性，本文還在更多數據集上進行了測試。（其中 Deepform 和 KLC 使用 F1-score 作爲評估指標，WTQ 使用 accuracy, ChartQA 使用 relaxed accuracy, DocVQA 使用 ANLS。）

3.TextMonkey 在 Text Spotting 數據集上相比於傳統 OCR 模型也取得了極具競爭力的效果。

4. 表 7 的消融實驗表明 Shifted Window Attention 和 Token Resampler 兩個模塊的有效性。

5. 表 9 的消融實驗證明：由於分辨率的提高導致冗餘 token 的顯著增加，使得找到關鍵信息變得更加困難，在不壓縮 Token 的情況下直接增加分辨率實際上會導致一致的性能損失，如在表中第一行和第四行，在不壓縮 Token 時，分辨率由 896 增加到 1344 會導致模型在四個數據集上的指標均有所下降，這說明了沒有策略地一味增加模型的分辨率反而會帶來負面影響，如何合理地增加分辨率，將會是一個需要集中解決的問題。不僅如此，表 9 中還說明，當選取不同的壓縮 Token 數量時，對模型性能的影響也是顯著的，選取一個合適的值來作爲壓縮 Token 的數量，可以使得模型的性能進一步提升。

可視化結果展示

TextMonkey 在場景圖像和文檔圖像中都能準確定位和識別文本。此外，(a) 中的自然圖像、(b) 中的文檔、(c) 中的圖表和 (d) 中的表格都展示了 TextMonkey 在多種場景下識別、理解和定位文本信息的能力。

本文還探索了 TextMonkey 作爲智能手機應用程序的 Agent 代理方面的可行性。使用來自 Rico 數據集的 15k 用戶點擊數據上進行微調之後，TextMonkey 能夠理解用戶意圖並點擊相應的圖標，這表明了 TextMonkey 在微調之後作爲 App Agent 的巨大潛力。

總結

TextMonkey 在 Monkey 的基礎上增強了其圖像間的跨窗口交互，在擴大分辨率的基礎上增強了視覺信息的語義連續性，有效緩解了視覺信息碎片化的問題；並通過提出過濾融合策略減少圖像特徵長度，從而減少輸入到大語言模型中冗餘的視覺 token 數量。論文的實驗說明，分辨率不是越大越好，不合理的提高模型分辨率策略有時會給模型帶來負面影響，如何合理地擴大分辨率纔是一個更值得去思考的問題。

此外，通過在問答中引入位置信息，TextMonkey 增強了可解釋性並減少了幻覺。TextMonkey 在多個文本相關的測試基準中處於國際領先，在 OCRBench 中超越其他開源多模態大模型。TextMonkey 的到來爲通用文檔理解帶來曙光，這有潛力促進辦公自動化、智慧教育、智慧金融等行業的技術變革。

參考文獻

[1] Li Z, Yang B, Liu Q, et al. Monkey: Image resolution and text label are important things for large multi-modal models [J]. arXiv preprint arXiv:2311.06607, 2023.

[2] Liu Y, Li Z, Li H, et al. On the hidden mystery of ocr in large multimodal models [J]. arXiv preprint arXiv:2305.07895, 2023.

通用文檔理解新SOTA，多模態大模型TextMonkey來了

相關資訊