新型人工智能學習模型讓立場檢測大升級
像 OpenAI 的 GPT 這類通用人工智能系統,依靠大量訓練數據來提升模型的準確性和性能。
研究或醫療領域的人工智能應用程序通常既缺少訓練數據,又缺少計算能力,能夠藉助一種新模型,其目的在於提升人工智能在更專業場景中的輸出效率、相關性和準確性。
大型預訓練語言模型(PLM)會運用規模越來越大的數據集,像維基百科,來訓練並優化機器學習(ML)模型,以執行特定任務。
雖然像 ChatGPT 這類大型 PLM 的準確性和性能會隨着時間的推移而提高,但是在大型數據集無法獲取或者由於計算限制而不能使用的狀況下,大型 PLM 的效果就不太好。
簡而言之,在研究、醫療或者其他難以獲取大量信息來充分訓練現有人工智能模型的應用裡,需要一種新的人工智能解決方案,以有效地利用機器學習。
爲了解決這個問題,新加坡科學技術研究局(A*STAR)的一組計算機科學家近期設計出了一種協作知識注入方法,能夠憑藉較少量的訓練數據有效地訓練機器學習模型。
在這種情形下,研究人員創建了一個模型,能夠依據推文、商業評論或者其他語言數據的上下文,更精準地判定針對特定目標(比如產品或政治候選人)的立場,是支持還是反對的意見。
該團隊於 8 月 28 日在《大數據挖掘與分析》雜誌上發表了他們的研究。
“立場檢測本質上屬於一項低資源任務,原因在於目標的多樣性以及帶註釋數據的有限性。”A*STAR 前沿人工智能研究中心(CFAR)的高級科學家、此論文的第一作者嚴明說道。“儘管面臨這些挑戰,立場檢測對於監測社交媒體、開展民意調查以及爲治理策略提供參考信息而言,是至關重要的。“增強基於人工智能的低資源立場檢測方法對於確保這些工具在實際應用中有效和可靠至關重要。”
較小規模的訓練數據集或許會對人工智能預測模型的準確性產生深遠的影響。例如,維基百科中的目標“違法”鏈接到猶大聖徒樂隊的一首重金屬歌曲,而不是該術語的真正定義:以非法方式行事。這種類型的錯誤訓練數據會嚴重影響機器學習模型的性能。
爲了提高依賴較小訓練數據集的人工智能立場檢測的準確性,研究團隊專注於協作模型機制,從而驗證來自不同來源的知識,並更有效地學習選擇性特徵。
“大多數人工智能系統依賴使用大量預定義數據集開發的預訓練模型,這些數據集可能會過時,進而導致性能下降。我們提出的方法通過整合來自多個來源的經過驗證的知識來應對這一挑戰,確保模型保持相關性和有效性,”明說。
“預訓練的大型語言模型由於其大規模參數,還需要大量帶註釋的數據進行訓練。我們的方法引入了一個協作適配器,其包含數量最少的可訓練參數,……提高了訓練效率並改善了特徵學習能力,”明說。
該團隊還通過採用分階段的優化算法來提高大型 PLM 的優化效率。
爲了測試他們的模型,研究人員在三個公開可用的立場檢測數據集上進行了實驗:VAST,P-Stance 和 COVID-19-Stance。然後將該團隊模型的性能與 TAN、BERT、WS-BERT-Dual 和其他 AI 模型所取得的性能進行了比較。
通過 F1 分數(一種用於衡量 ML 模型準確性的指標)來衡量,在針對低資源訓練數據的情況下,研究團隊的新立場檢測模型在使用這三個數據集時始終得分高於其他 AI 模型,F1 分數在 79.6%至 86.91%之間。目前,F1 分數達到 70%或更高被認爲是良好的。
新的站立姿勢檢測模型極大地提高了人工智能在更專業的研究環境中的實用性,併爲未來的進一步優化提供了模板。
“我們的主要重點是在低資源的現實世界應用中實現高效學習。與主要的人工智能公司專注於開發通用人工智能(AGI)模型不同,我們的目標是創建更高效的人工智能方法,造福公衆和研究界,”CFAR 的首席科學家、該論文的合著者周喬伊·田一說道。
來自新加坡科學技術研究局(A*STAR)前沿人工智能研究中心(CFAR)和高性能計算研究所(IHPC)的艾弗·W·曾也作出了貢獻。