北京火山引擎申請一種文檔識別方法專利,極大提升文檔識別的準確性

金融界2024年10月24日消息,國家知識產權局信息顯示,北京火山引擎科技有限公司申請一項名爲“一種文檔識別方法、裝置、設備及介質”的專利,公開號 CN 118799910 A,申請日期爲2024年6月。

專利摘要顯示,本公開實施例涉及一種文檔識別方法、裝置、設備及介質,其中該方法包括:獲取目標文檔圖像;提取目標文檔圖像中文檔元素的位置和文字內容;對目標文檔圖像、文檔元素的位置和文字內容進行特徵處理,得到多模態特徵;基於多模態特徵進行處理得到目標文檔圖像對應的目標文檔內容,其中,目標文檔內容包括按照閱讀順序排序的文檔元素對應的文字內容。本公開結合目標文檔圖像、文檔元素的位置和文字內容進行特徵處理得到的多模態特徵通過閱讀順序模型可以還原文檔內容該文檔內容包括按照閱讀順序排序的文檔元素的文字內容,實現了利用多模態特徵按照閱讀順序還原圖像對應的文檔,尤其涉及到複雜場景,極大提升文檔識別的準確性。

本文源自:金融界

作者:情報員