智源公佈FlagEval“百模”評測結果
北京商報訊(記者 魏蔚)12月19日,智源研究院發佈並解讀國內外100餘個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果。本次評測依託智源研究院自2023年6月上線的大模型評測平臺FlagEval,經過數次迭代,目前已覆蓋全球800多個開閉源模型,包含20多種任務,90多個評測數據集,超200萬條評測題目。
在評測方法與工具上,智源研究院聯合全國10餘家高校和機構合作共建,探索基於AI的輔助評測模型 FlagJudge和靈活全面的多模態評測框架FlagEvalMM,並構建面向大模型新能力的有挑戰的評測集,包括與北京大學共建的HalluDial幻覺評測集、與北師大共建的CMMU多模態評測集、多語言跨模態評測集MG18、複雜代碼評測集TACO以及長視頻理解評測MLVU等,其中與北京大學共建的HalluDial是目前全球規模最大的對話場景下的幻覺評測集,有18000多個輪次對話,和14萬多個回答。
以語言模型爲例,評測重點考察模型中文能力,結果顯示字節跳動Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在語言模型客觀評測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節跳動Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。