☰

OpenAI空降GPT-4o：更快更強還免費

備受關注的搜索產品“跳票”之後，OpenAI依然搞了個大的——推出GPT-4o，殺瘋科技圈。其強大的自然對話能力以及對人類情感的實時感知，讓人們懷疑，科幻電影《Her》裡的薩曼莎、《鋼鐵俠》裡的賈維斯是不是真的要來了。

北京時間5月14日凌晨，OpenAI舉辦線上“春季更新”活動，發佈新旗艦生成式AI模型GPT-4o。據悉，GPT-4o的“o”代表“omni”，意爲全能，是邁向更自然的人機交互的關鍵一步。

特別是在音頻處理領域，過往獨立模型之間的相互轉化帶來的延遲感，算得上是人工智能助手變科幻爲現實的最大障礙之一。爲應對這一情況，GPT-4o跨文本、視覺和音頻端到端地訓練了一個新模型，所有輸入和輸出都由同一個神經網絡處理，成爲其突破深度學習界限的最新舉措，也完成了人工智能對話的“絲滑”實現。

在表現上，GPT-4o可以接收文本、音頻和圖像的任意組合作爲輸入，並實時生成文本、音頻和圖像的任意組合輸出。據悉，新模型使ChatGPT能夠處理50種不同的語言，同時提高了速度和質量。

在反應速度上，GPT-4o可以在短短232毫秒內響應音頻輸入，平均響應時長也僅有320毫秒，與對話中的人類響應時間相似。相比起來，GPT-3.5語音對話的平均延遲爲2.8秒、GPT-4爲5.4秒。

GPT-4o更大的驚喜則在於對“情緒價值”的提供。比如機器人能夠從急促的喘氣聲中理解“緊張”的含義，並且指導他進行深呼吸，還可以根據用戶要求變換語調。在發佈會上，還有演示者將手機舉到自己面前正對着臉，要求ChatGPT告訴他自己長什麼樣子。第二次嘗試後，ChatGPT對他說：“看起來你感覺非常快樂，喜笑顏開。”

更“炸裂”的是，所有用戶均可免費使用該模型，而付費用戶的容量限制是免費用戶的5倍。據悉，GPT-4o的文本和圖像功能已經開始向付費的ChatGPT Plus和Team用戶推出，企業用戶也即將推出。免費用戶也將開始使用，但有使用限制。

在API使用方面，OpenAI首席技術官米拉·穆拉蒂表示，相比去年11月發佈的GPT-4-turbo，GPT-4o價格降低一半，速度提升兩倍。GPT-4o的語音和視頻輸入功能將在未來幾周內推出。

此外，OpenAI還發布了桌面版的ChatGPT和新的用戶界面。“我們認識到這些模型正變得越來越複雜。”穆拉蒂說道，“但我們希望用戶與人工智能模型的交互體驗能夠更加自然、輕鬆，讓用戶可以將注意力完全集中在與模型的協作上，而無需在意界面本身。”

“語音對話的能力原本就有，但是這次可怕在於基本沒有延遲的響應，還有對複雜環境，包括情緒、語氣的識別”，阿里研究院執行院長袁媛對北京商報記者分析稱，低延遲來自於推理架構的整體優化，而複雜環境識別理解又是模型能力的提升，“所以最後的winner，還是要贏在一個從頭到腳的技術體系”。

此前OpenAI頻傳將推出AI搜索引擎，GPT-5的消息也甚囂塵上。但當地時間5月10日，OpenAI表示，將於當地時間5月13日以直播的形式宣佈產品更新，不過屆時不會發布GPT-5，也不會發布搜索引擎產品。

GPT-5和搜索產品的缺席，也導致外界討論OpenAI是否“慢下來了”。對此，袁媛認爲，技術能力並不是跟着數字線性增長的，GPT-4o雖然還“姓”4，但已經能看到清晰的技術特點和可能的商業模式以及後續發展潛力，例如低延遲推理能力，還可能支持更多的模型能力，比如動作控制和交互。此外，“omni”代表的多模態信息輸入輸出，也有很大潛力。

受GPT-4o消息影響，A股多模態AI概念高開，其中湯姆貓漲停。公開信息顯示，湯姆貓5月12日發佈機構調研內容提到，公司正有序推進人工智能垂直模型與算力基礎設施的建設。

國盛證券認爲，GPT-4o是邁向更自然的人機交互的重大進步，新功能帶來了嶄新的多模態交互能力，通過新的端到端模型實現了體驗上的新突破，有望在各類終端實現用戶體驗的最大化，利好智能終端Agent、機器人等方向。

北京商報記者楊月涵

OpenAI空降GPT-4o：更快更強還免費

相關資訊