高考AI答題系列|今年數學到底有多難?大模型:我也不太會啊

出品|本站科技《態度》欄目

作者|薛世軒

編輯|丁廣勝

如果說高考語文作文題所考察的文字功底是各家大模型的入門基本功的話,那麼數學的難度Level就更考驗大模型的圖像識別與分析能力了。畢竟曲線題、導數題、函數題、幾何題可不是什麼善茬。(這可能也是爲什麼很少有人在網上討論數學題的原因了)

因此,我們測試了GPT-4o、kimi、文心一言、訊飛星火大模型、百小應、通義千問、360大模型、豆包這8款目前市面上主流的幾款大模型,看看它們遇到“硬茬”時又會作何表現呢?

爲了更全面的考察大模型的綜合性能,我們分別選取了數學I卷的一道立體幾何題和一道函數題,以考察大模型的空間理解能力和邏輯推理能力,以下爲具體考題:

立體幾何題:

函數題:

(下文各圖左側爲立體幾何題,右側爲函數題)

GPT-4o

Kimi

文心一言

訊飛星火大模型

百小應

通義千問

360智腦

豆包

以上就是所有8款大模型在作答今年高考數學I卷的表現,可以發現,儘管大模型們在今年曆經多次迭代,但在本次測試中的表現並不盡如人意,且關於同一道題目所給出的答案也不盡相同。

除此之外,GPT-4O則使用全英文答題;通義千問在作答函數題時出現了“bug”現象,對同一函數式開始無限循環;豆包甚至由於tokens用盡出現了無法進行完整作答;文心一言也對題幹信息理解錯誤……

由此可見,不僅是考生們直呼今年數學“太難了”“裂開了”,就連大模型們的發揮也不如預期中的優秀。

但無論今天考的怎樣,高考第一天已經結束,考生們要做的就是放鬆心情,全力準備明天的考試,本站科技也祝考生們金榜題名!