MIT科技評出中國“最聰明”的大模型

中國青年報客戶端合肥8月17日電(中青報·中青網記者 王海涵)國內“千模大戰”下,誰是“最聰明”的大模型?《麻省理工科技評論》發佈中國最新發布的大模型評測報告顯示,在8個一級大類的600道題目的測試和盲評中,訊飛星火認知大模型V2.0在6個大類中得分率排名第一,在此次評測中表現突出,以 81.5 分(百分制計)的成績在本次評測中登頂,榮獲“最聰明”的國產大模型稱號。

大模型評測綜合得分率。受訪單位供圖

《麻省理工科技評論》中國從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力,力圖評出“最聰明”的國產大模型。選取了國內四個大模型作爲中文大模型平臺的代表,展開系統科學評測。

本次評測使用的測試集包含600道題目,覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共 8 個一級大類,126 個二級分類,290 個三級標籤,並針對問題的豐富性和多樣性做了優化。

作爲比較難的評測維度,綜合知識對大模型的“聰明”程度要求也很高,包含百科問答、常識、科學知識、事實問答、工作技巧、謎語等 13 個二級分類,題型以多選爲主。最終,訊飛星火 80.61% 的得分率排名第一,初步顯示出在百科問答和歷史人文上的“過人之處”。

8月12日,新華社研究院中國企業發展研究中心發佈的《人工智能大模型體驗報告2.0》中,訊飛星火V1.5以總分1013分位列本次國產主流大模型測評榜首位。

來源:中國青年報客戶端