GPT-4升級被曝引入Q*,推理/數學更強廢話更少,競技場重奪王位

啥?

新版GPT-4是在Q*的輸出上微調的?

在競技場重回榜一的新版GPT-4 Turbo,成功再次踩中大家嗨點。

它此次的性能提升體現在數學、推理、代碼上,而且輸出內容廢話更少。

最讓大家感到興奮的是其數學/推理能力,現在可以在一些問題上完勝其他大模型。

比如“求y=x^4-5x^2-x+4和y=x^2-3x交點的y座標之和。”只有最新版GPT-4 Turbo能測出來。

這條推特被公開承認自己參與過Q*的Lukasz Kaiser轉發。

Noam Brown也發推表示新版GPT-4 Turbo在推理能力上大幅提升——要知道,這位OpenAI科學家一直被外界認爲正在研究Q*。

各方信息彙總後,網友們一拍腦袋反應過來,這其中會不會就引入了Q*啊?

(以及他的數學題測試推特被OpenAI的人轉發了)

好傢伙,難道OpenAI在悄悄搞大事?

新GPT-4的“新馬腳”?

OpenAI官方公告表示,最新版本的GPT-4 Turbo全方位大提升,現在ChatGPT用戶可直接體驗。

網友立馬衝去實測,有人給出評估結果,特別是數學/推理能力有了重大提升。

實際問題測試中,在多個數學推理題上,GPT-4 Turbo都沒有翻車,但是如Command-R plus、Clauede-3 Opus等都有失誤。

比如一道乘電梯的推理題。陷阱在於這部神奇電梯無論坐幾層,最後都會停在一層。GPT-4 Turbo理解了這層邏輯,最後給出了正確答案。

還有在修改二叉樹問題上,GPT-4 Turbo不僅回答正確,而且過程清晰完整。

同時在“大海撈針”能力上,與之前版本對比,最新GPT-4 Turbo已經是出版GPT-4能力的4.3倍。

競技場的結果表明,在代碼能力方面,GPT-4 Turbo也更強了。

文本輸出方面變得更加簡潔。

生成代碼也少了很多廢話(下圖右側爲新版本)。

有人補充說,生成速度上也更快了。

神秘Q*:OpenAI的最大秘密?

現在Q*已經成了OpenAI的流量密碼了,只要出現這個關鍵字,網友們都會興奮不已。

畢竟當初奧特曼宮斗大戲就和它有關聯,還有人發出警告,Q*預示着AGI即將出現。

不過官方一直沒有公開承認過這個項目的存在,奧特曼拒絕回答,Transformer作者公開承認參與Q*也被OpenAI公關跳起來捂嘴。

從目前各方透露的信息來看,Q*專注於邏輯和數學推理能力,數學能力突出。

Transformer作者之一Lukasz Kaiser承認自己參與了這個項目。

德撲AI之父、前FAIR(Meta)研究科學家Noam Brown也被視爲是Q*項目的重要成員(推測來自LeCun)。

他加入OpenAI的動作也被外界視爲分析Q*的一個線索,“有理由懷疑Q是將LLM和AlphaGo結合起來,並用強化學習進行訓練”。

Noam Brown開發出了第一個在打撲克牌上超越人類的AI,後來加入Meta致力於讓AI學會玩Diplomacy(外交遊戲)。

目前,關於Q*的準確信息還是非常少。

可能奧特曼還在等一個合適的時機來回應外界。

One More Thing

btw,網友們意外捉到總裁Brockman轉發的一個視頻演示裡的提示詞是:

看來大家拿GPT-4乾的事也都差不多嘛(doge)。

參考鏈接:[1]https://twitter.com/lukaszkaiser[2]https://twitter.com/skirano/status/1778122305471705489[3]https://twitter.com/7oponaut/status/1777971159478194256[4]https://twitter.com/ai_for_success/status/1778073765748064678[5]https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors