格力聯雲申請多模態語音識別專利,解決複雜環境下語音識別準確率下降的問題

金融界2024年10月9日消息,國家知識產權局信息顯示,珠海格力電器股份有限公司、珠海聯雲科技有限公司申請一項名爲“多模態語音識別方法、裝置、設備及計算機可讀介質”的專利,公開號CN 118748008 A,申請日期爲2024年7月。

專利摘要顯示,本申請涉及一種多模態語音識別方法、裝置、設備及計算機可讀介質。該方法包括:獲取麥克風陣列對目標空間中的至少一個說話人採集的語音數據和視覺傳感器陣列對所述目標空間採集的視覺數據;確定所述語音數據的聲學特徵,並基於所述視覺數據確定至少一個說話人的視覺位置特徵和視覺脣形特徵;基於對所述聲學特徵和所述視覺位置特徵的融合確定所述說話人的目標位置;將所述語音數據、所述聲學特徵、所述目標位置以及所述視覺脣形特徵輸入目標語音識別模型,得到對所述目標空間中的至少一個說話人的語音識別結果。本申請基於視覺輔助進行聲源定位,並進一步將定位結果以及視覺數據輔助語音識別,解決了複雜環境下語音識別準確率下降的技術問題。

本文源自:金融界

作者:情報員