百度申請圖像處理專利,對圖像和文本進行高效匹配

金融界2024年10月31日消息,國家知識產權局信息顯示,北京百度網訊科技有限公司申請一項名爲“圖像處理方法、裝置、電子設備和存儲介質”的專利,公開號 CN 118840452 A,申請日期爲2024年7月。

專利摘要顯示,本公開提供了一種圖像處理方法、裝置、電子設備和存儲介質,涉及人工智能技術領域,尤其涉及圖像處理領域和大模型領域。具體實現方案爲:對第一圖像中各個文本區域進行文本識別,得到多個目標對象名稱文本段和各個目標對象名稱文本段在第一圖像中的位置信息;基於多個目標對象名稱文本段,確定名稱類別;基於名稱類別,對第一圖像中各個目標對象圖像區域進行分割,得到多個目標對象圖像以及各個目標對象圖像中目標對象在第一圖像中的位置信息;基於各個目標對象名稱文本段在第一圖像中的位置信息,以及各個目標對象圖像中目標對象在第一圖像中的位置信息,對多個目標對象名稱文本段與多個目標對象圖像進行一一匹配,得到多個文本段與圖像組合。

本文源自:金融界

作者:情報員