智源最新模型評測:百度文心大模型4.0登頂閉源榜
北京商報訊(記者 魏蔚)6月18日,北京商報記者獲悉,北京智源研究院打造的FlagEval天秤大模型評測平臺實現了全面升級,並公佈202406期FlagEval模型評測排行榜單。最新一期榜單顯示,百度文心大模型4.0以89.72的綜合評分在閉源對話模型中排名第一,
FlagEval天秤大模型評測平臺是智源研究院推出的科學、權威、公正、開放的大模型評測體系,自2023年發佈以來,已從主要面向語言模型擴展到視頻、語音、多模態模型,實現多領域全覆蓋,目前已評測國內外 300 餘個開源和商業閉源的語言及多模態大模型。資料顯示,FlagEval大語言模型評測體系當前包含6大評測任務,近30個評測數據集,超10萬道評測題目。