OpenAI 的新“o1”模型真能帶來重大進步?

週四,OpenAI 發佈了“o1”,這是一款新的人工智能模型,它能夠把難題拆解爲組成部分,然後逐步處理,從而解決難題。

該模型分 o1-Preview 和 o1-mini 兩個版本發佈,所有 ChatGPT Plus 用戶均可使用,後續還將進行更廣泛的發佈。

o1 的發佈是 OpenAI 的名爲"草莓"的人工智能推理項目(最初稱爲 Q*)的首次發佈,該公司認爲這是該領域的重大進步。“我們認爲這實際上是關鍵的突破,”OpenAI 研究主管鮑勃·麥格魯(Bob McGrew)本週告訴 The Verge。“從根本上說,這對於模型而言是一種新方式,以便能夠解決爲了朝着類人智能水平發展而需要解決的真正難題。”

在親自試用了新的 o1 模型並對文檔進行分析之後,我雖然已經印象深刻,但還是存在一些相當大的問題。以下是我從這次發佈中得出的關鍵要點,包括它是否確實是 OpenAI 期待已久的重大進步:

OpenAI 的 o1 模型在處理您的查詢時會寫出它的思維過程,展示在給出答案之前如何“思考”問題。我讓可用的最強大的 o1-preview 模型創作一首 14 行的詩,每行的首字母拼出我的名字,並在每個句子的首字母拼出一個國家的名字。該模型“思考”了 59 秒鐘,輕鬆處理了一些內容,但爲尋找以我名字中的“X”開頭的國家而努力。最終,它意識到那部分無法令人滿意地回答,但其餘的詩寫得不錯。“一顆獨特的星星在秋天閃耀地旅行,”它開頭用了 Alex 中的“A”,並在這一行拼出了奧地利。我給 Anthropic 的 Claude 同樣的提示,它失敗了。

o1 模型處理這些多步驟、複雜任務的能力表明 OpenAI 再次推動了人工智能的技術水準,但這種進步的程度仍需要一些時間來確定。儘管 o1 在編碼、數學和科學方面超過了現有的基準,但在其他情形下,其“思維鏈”可能讓人感覺像是個小把戲。在最好的情況下,o1 是通往可能更重大事物的一步。

這些新模型可能會在公衆對人工智能的看法上造成分歧。把人工智能用於寫作、編輯和營銷任務的人或許會感到失望。但把它用於編碼、數學和科學研究的人則會感到興奮。在 OpenAI 的測試中,使用 o1 來寫作的人實際上對它的喜愛程度要低於 GPT-4o。但那些將其用於數學計算、數據分析和計算機編程的人則明顯更喜歡它。

“因此,鑑於他們的主觀經驗,撰寫有關這項技術的‘文字工作者’可能對它的評價更負面,而在最佳用例中使用它的‘數學工作者’則看到了它的全部能力。這可能會致使對該技術的負面看法超出其應有的程度,這是 OpenAI 朝着1500 億美元估值邁進時值得關注的事情。

要想最大限度地利用推理模型,您可能得給它們分配工作,而不是與它們聊天。Spellbook(一款人工智能法律助手)的首席執行官斯科特·史蒂文森(Scott Stevenson)表示,該機器人擅長接收一長串指令,並利用這些指令修改法律文件。“當人們對 o1 感到失望時,我認爲這是因爲他們仍將其視爲聊天,”史蒂文森說。“它的工作能力將會非常出色。”

如果這在您看來像是朝着人工智能代理邁進的一步,對我來說也是如此。隨着 OpenAI 對這項技術進行授權,公司不可避免地會嘗試用它來構建人工智能代理。不過,儘管有這樣的熱議,所謂的“代理型人工智能”似乎還很遙遠。

儘管有傳言稱,在包括首席科學家伊利亞·蘇茨克維(Ilya Sutskever)在內的高層人員離職的情況下,該公司迷失了方向,但 OpenAI 表明它仍能推動人工智能的前沿發展。其次,OpenAI 把此次發佈置於其他項目之前(比如:Sora 在哪兒?GPT-4o 語音呢?),這可能表明它找到了一些重點,並正在大力推進它所相信的方法。

山姆·奧特曼(Sam Altman)在 X 上對一位感到沮喪的用戶的迴應中也暗示了這一點。“先對天空中神奇的智能心懷幾周的感激之情,怎麼樣?然後你很快就會有更多的玩具。”他寫道。對於同時在做很多事情的 OpenAI 來說,一些重點是受歡迎的。而且這肯定比另一種解釋要好,即 Sora 和 GPT-4o 語音可能正在失敗。