☰

智源公佈FlagEval“百模”評測結果

北京商報訊（記者魏蔚）12月19日，智源研究院發佈並解讀國內外100餘個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果。本次評測依託智源研究院自2023年6月上線的大模型評測平臺FlagEval，經過數次迭代，目前已覆蓋全球800多個開閉源模型，包含20多種任務，90多個評測數據集，超200萬條評測題目。

在評測方法與工具上，智源研究院聯合全國10餘家高校和機構合作共建，探索基於AI的輔助評測模型 FlagJudge和靈活全面的多模態評測框架FlagEvalMM，並構建面向大模型新能力的有挑戰的評測集，包括與北京大學共建的HalluDial幻覺評測集、與北師大共建的CMMU多模態評測集、多語言跨模態評測集MG18、複雜代碼評測集TACO以及長視頻理解評測MLVU等，其中與北京大學共建的HalluDial是目前全球規模最大的對話場景下的幻覺評測集，有18000多個輪次對話，和14萬多個回答。

以語言模型爲例，評測重點考察模型中文能力，結果顯示字節跳動Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五；在語言模型客觀評測中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字節跳動Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排名前五。

智源公佈FlagEval“百模”評測結果

相關資訊