檢驗大模型數學推理能力,司南發佈全新評測指標與評測集
近日,大模型開放評測體系司南(OpenCompass)推出評測指標G-Pass@k及數學評測集LiveMathBench,旨在檢驗大模型的數學推理能力,加速大模型在高難度推理場景中的落地應用。基於最新提出的評測集及指標,OpenCompass團隊對主流通用大模型、數學大模型及強推理模型進行了多輪評測並觀察到:閉源、開源模型均無法進行穩定的複雜推理;增大參數規模對推理能力提升有限;強推理模型的性能潛力和實際表現之間存在顯著的差距,亟待解決在實現最佳性能的同時保持穩定性。
相關資訊
- ▣ 《通用大模型評測標準》發佈
- ▣ 全球140+大模型全方位評測結果出爐,智源評測體系發佈
- ▣ Kimi發佈新一代推理模型,數學能力對標OpenAI o1系列
- ▣ 首個AI大模型高考全卷評測結果發佈
- ▣ 全國首個!上海發佈《金融大模型應用評測指南》,深化金融垂類應用
- 中國保險汽車安全指數發佈五款車型測評結果
- 中國保險汽車安全指數五款車型測評結果發佈
- ▣ “國家隊”評測30個大模型數學能力,九章、文心、星火位列前三
- ▣ K5車型評測:性能、配置與駕駛體驗全面解析
- 短評/全民智力測驗
- 快評》全民智力測驗
- ▣ 月活超3600萬人 Kimi發佈數學推理模型,能力可對標OpenAI o1系列
- ▣ 真實世界複雜任務,全新基準GTA助力大模型工具調用能力評測
- ▣ 百川智能發佈超千億大模型Baichuan 3,中文評測超越GPT-4
- ▣ 券商壓力測試 納評鑑指標
- ▣ 永信至誠:公司AI大模型安全測評“數字風洞”平臺已接入抖音豆包大模型
- ▣ i5-6200U處理器性能評測與使用體驗分析
- ▣ 從考公、寫週報到下廚指南,晚點評測 18 個大模型
- ▣ 蘋果7的性能與使用體驗全面評測
- ▣ A手機的性能與用戶體驗全面評測
- ▣ 蘋果4的性能與使用體驗全面評測
- ▣ 蘋果6S的性能與使用體驗全面評測
- ▣ 蘋果8的性能與使用體驗全面評測
- ▣ LG冰箱的性能與用戶體驗全面評測
- ▣ 奇瑞新能源車型評測:性能與性價比全面解析
- ▣ Anthropic大模型測評首超GPT-4
- ▣ TikTok 熱門冷卻毯:親測體驗與全面評測
- ▣ 中國保險汽車安全指數(C-IASI)2022年測評車型第一次結果發佈
- ▣ 新型人工智能學習模型讓立場檢測大升級