OpenAI空降GPT-4o:更快更強還免費

備受關注的搜索產品“跳票”之後,OpenAI依然搞了個大的——推出GPT-4o,殺瘋科技圈。其強大的自然對話能力以及對人類情感的實時感知,讓人們懷疑,科幻電影《Her》裡的薩曼莎、《鋼鐵俠》裡的賈維斯是不是真的要來了。

北京時間5月14日凌晨,OpenAI舉辦線上“春季更新”活動,發佈新旗艦生成式AI模型GPT-4o。據悉,GPT-4o的“o”代表“omni”,意爲全能,是邁向更自然的人機交互的關鍵一步。

特別是在音頻處理領域,過往獨立模型之間的相互轉化帶來的延遲感,算得上是人工智能助手變科幻爲現實的最大障礙之一。爲應對這一情況,GPT-4o跨文本、視覺和音頻端到端地訓練了一個新模型,所有輸入和輸出都由同一個神經網絡處理,成爲其突破深度學習界限的最新舉措,也完成了人工智能對話的“絲滑”實現。

在表現上,GPT-4o可以接收文本、音頻和圖像的任意組合作爲輸入,並實時生成文本、音頻和圖像的任意組合輸出。據悉,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。

在反應速度上,GPT-4o可以在短短232毫秒內響應音頻輸入,平均響應時長也僅有320毫秒,與對話中的人類響應時間相似。相比起來,GPT-3.5語音對話的平均延遲爲2.8秒、GPT-4爲5.4秒。

GPT-4o更大的驚喜則在於對“情緒價值”的提供。比如機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據用戶要求變換語調。在發佈會上,還有演示者將手機舉到自己面前正對着臉,要求ChatGPT告訴他自己長什麼樣子。第二次嘗試後,ChatGPT對他說:“看起來你感覺非常快樂,喜笑顏開。”

更“炸裂”的是,所有用戶均可免費使用該模型,而付費用戶的容量限制是免費用戶的5倍。據悉,GPT-4o的文本和圖像功能已經開始向付費的ChatGPT Plus和Team用戶推出,企業用戶也即將推出。免費用戶也將開始使用,但有使用限制。

在API使用方面,OpenAI首席技術官米拉·穆拉蒂表示,相比去年11月發佈的GPT-4-turbo,GPT-4o價格降低一半,速度提升兩倍。GPT-4o的語音和視頻輸入功能將在未來幾周內推出。

此外,OpenAI還發布了桌面版的ChatGPT和新的用戶界面。“我們認識到這些模型正變得越來越複雜。”穆拉蒂說道,“但我們希望用戶與人工智能模型的交互體驗能夠更加自然、輕鬆,讓用戶可以將注意力完全集中在與模型的協作上,而無需在意界面本身。”

“語音對話的能力原本就有,但是這次可怕在於基本沒有延遲的響應,還有對複雜環境,包括情緒、語氣的識別”,阿里研究院執行院長袁媛對北京商報記者分析稱,低延遲來自於推理架構的整體優化,而複雜環境識別理解又是模型能力的提升,“所以最後的winner,還是要贏在一個從頭到腳的技術體系”。

此前OpenAI頻傳將推出AI搜索引擎,GPT-5的消息也甚囂塵上。但當地時間5月10日,OpenAI表示,將於當地時間5月13日以直播的形式宣佈產品更新,不過屆時不會發布GPT-5,也不會發布搜索引擎產品。

GPT-5和搜索產品的缺席,也導致外界討論OpenAI是否“慢下來了”。對此,袁媛認爲,技術能力並不是跟着數字線性增長的,GPT-4o雖然還“姓”4,但已經能看到清晰的技術特點和可能的商業模式以及後續發展潛力,例如低延遲推理能力,還可能支持更多的模型能力,比如動作控制和交互。此外,“omni”代表的多模態信息輸入輸出,也有很大潛力。

受GPT-4o消息影響,A股多模態AI概念高開,其中湯姆貓漲停。公開信息顯示,湯姆貓5月12日發佈機構調研內容提到,公司正有序推進人工智能垂直模型與算力基礎設施的建設。

國盛證券認爲,GPT-4o是邁向更自然的人機交互的重大進步,新功能帶來了嶄新的多模態交互能力,通過新的端到端模型實現了體驗上的新突破,有望在各類終端實現用戶體驗的最大化,利好智能終端Agent、機器人等方向。

北京商報記者 楊月涵