檢驗大模型數學推理能力,司南發佈全新評測指標與評測集

近日,大模型開放評測體系司南(OpenCompass)推出評測指標G-Pass@k及數學評測集LiveMathBench,旨在檢驗大模型的數學推理能力,加速大模型在高難度推理場景中的落地應用。基於最新提出的評測集及指標,OpenCompass團隊對主流通用大模型、數學大模型及強推理模型進行了多輪評測並觀察到:閉源、開源模型均無法進行穩定的複雜推理;增大參數規模對推理能力提升有限;強推理模型的性能潛力和實際表現之間存在顯著的差距,‍亟待解決在實現最佳性能的同時保持穩定性。