☰

OpenAI 的新“o1”模型真能帶來重大進步？

週四，OpenAI 發佈了“o1”，這是一款新的人工智能模型，它能夠把難題拆解爲組成部分，然後逐步處理，從而解決難題。

該模型分 o1-Preview 和 o1-mini 兩個版本發佈，所有 ChatGPT Plus 用戶均可使用，後續還將進行更廣泛的發佈。

o1 的發佈是 OpenAI 的名爲"草莓"的人工智能推理項目（最初稱爲 Q*）的首次發佈，該公司認爲這是該領域的重大進步。“我們認爲這實際上是關鍵的突破，”OpenAI 研究主管鮑勃·麥格魯（Bob McGrew）本週告訴 The Verge。“從根本上說，這對於模型而言是一種新方式，以便能夠解決爲了朝着類人智能水平發展而需要解決的真正難題。”

在親自試用了新的 o1 模型並對文檔進行分析之後，我雖然已經印象深刻，但還是存在一些相當大的問題。以下是我從這次發佈中得出的關鍵要點，包括它是否確實是 OpenAI 期待已久的重大進步：

OpenAI 的 o1 模型在處理您的查詢時會寫出它的思維過程，展示在給出答案之前如何“思考”問題。我讓可用的最強大的 o1-preview 模型創作一首 14 行的詩，每行的首字母拼出我的名字，並在每個句子的首字母拼出一個國家的名字。該模型“思考”了 59 秒鐘，輕鬆處理了一些內容，但爲尋找以我名字中的“X”開頭的國家而努力。最終，它意識到那部分無法令人滿意地回答，但其餘的詩寫得不錯。“一顆獨特的星星在秋天閃耀地旅行，”它開頭用了 Alex 中的“A”，並在這一行拼出了奧地利。我給 Anthropic 的 Claude 同樣的提示，它失敗了。

o1 模型處理這些多步驟、複雜任務的能力表明 OpenAI 再次推動了人工智能的技術水準，但這種進步的程度仍需要一些時間來確定。儘管 o1 在編碼、數學和科學方面超過了現有的基準，但在其他情形下，其“思維鏈”可能讓人感覺像是個小把戲。在最好的情況下，o1 是通往可能更重大事物的一步。

這些新模型可能會在公衆對人工智能的看法上造成分歧。把人工智能用於寫作、編輯和營銷任務的人或許會感到失望。但把它用於編碼、數學和科學研究的人則會感到興奮。在 OpenAI 的測試中，使用 o1 來寫作的人實際上對它的喜愛程度要低於 GPT-4o。但那些將其用於數學計算、數據分析和計算機編程的人則明顯更喜歡它。

“因此，鑑於他們的主觀經驗，撰寫有關這項技術的‘文字工作者’可能對它的評價更負面，而在最佳用例中使用它的‘數學工作者’則看到了它的全部能力。這可能會致使對該技術的負面看法超出其應有的程度，這是 OpenAI 朝着1500 億美元估值邁進時值得關注的事情。

要想最大限度地利用推理模型，您可能得給它們分配工作，而不是與它們聊天。Spellbook（一款人工智能法律助手）的首席執行官斯科特·史蒂文森（Scott Stevenson）表示，該機器人擅長接收一長串指令，並利用這些指令修改法律文件。“當人們對 o1 感到失望時，我認爲這是因爲他們仍將其視爲聊天，”史蒂文森說。“它的工作能力將會非常出色。”

如果這在您看來像是朝着人工智能代理邁進的一步，對我來說也是如此。隨着 OpenAI 對這項技術進行授權，公司不可避免地會嘗試用它來構建人工智能代理。不過，儘管有這樣的熱議，所謂的“代理型人工智能”似乎還很遙遠。

儘管有傳言稱，在包括首席科學家伊利亞·蘇茨克維（Ilya Sutskever）在內的高層人員離職的情況下，該公司迷失了方向，但 OpenAI 表明它仍能推動人工智能的前沿發展。其次，OpenAI 把此次發佈置於其他項目之前（比如：Sora 在哪兒？GPT-4o 語音呢？），這可能表明它找到了一些重點，並正在大力推進它所相信的方法。

山姆·奧特曼（Sam Altman）在 X 上對一位感到沮喪的用戶的迴應中也暗示了這一點。“先對天空中神奇的智能心懷幾周的感激之情，怎麼樣？然後你很快就會有更多的玩具。”他寫道。對於同時在做很多事情的 OpenAI 來說，一些重點是受歡迎的。而且這肯定比另一種解釋要好，即 Sora 和 GPT-4o 語音可能正在失敗。

OpenAI 的新“o1”模型真能帶來重大進步？

相關資訊