OpenAI的GPT-4o上場,科幻電影《Her》有了現實版

在OpenAI這場全球矚目的發佈會結束後,Sam Altman的表態是發在Twitter上簡短的一個詞:“her”。

北京時間5月14日,OpenAI舉行春季發佈會,在CTO Mira Murati的介紹下,這家公司正式推出最新旗艦模型GPT-4o(o代表Omni,全能)。

GPT-4o是一個多模態大模型,支持文本、音頻和圖像的任意組合輸入,並能生成文本、音頻和圖像的任意組合輸出。其文本、推理和編碼智能等方面能力媲美GPT-4 Turbo,同時在多語言、音頻和視覺能力方面也有所提升。

相較於GPT-4 Turbo,GPT-4o的API價格便宜了50%,但速度比它快了兩倍、速率限制提高了5倍,最高可達每分鐘1000萬token。至此,GPT-4o的響應速度已經接近於人類之間的正常對話,據悉音頻輸入平均反應時間爲320毫秒。

幾乎無延遲的反應速度,支撐起了這場發佈會的核心重點——OpenAI研發負責人Mark Chen演示了基於GPT-4o的實時對話能力。

他挑選的第一個場景是告知ChatGPT自己正在做演示,但非常緊張應該怎麼辦,ChatGPT的提示是“深呼吸一下吧,記得你是個專家!”隨後,Mark Chen用非常急促的幾聲喘息迴應,ChatGPT則用吃驚語氣下的“慢點呼吸,你可不是個吸塵器!”來回答他。

不僅是對人類語氣和狀態的感知,以及代表人類“情商”的幽默表達,ChatGPT還展示出了對話可被隨時打斷並即時跟進的能力。總之,在與Mark Chen的對話中,它已經近乎於一個真實人類,對話沒有尷尬的停頓點,也沒有理解障礙的地方。

除了實時對話,Mark Chen也引導ChatGPT表現了在講故事情境下渲染音色的能力。他要求ChatGPT講述一個主題爲“戀愛中的機器人”的睡前故事,並連續兩次要求其用更加“drama”(戲劇化)的方式朗讀,用戶可以明顯感受到有遞進感的音色,這背後是明顯的情感表達能力。

這也是Sam Altman發送那個簡短推文的含義,科幻電影《Her》中那位女性語音智能機器人,已經由OpenAI接近於完成。

情感表現之外,另一位研發負責人Barret負責演示了GPT-4o基於多模態的智力表現。

Barret寫下一個“3x+1=4”的簡單線性方程,並打開了ChatGPT的攝像頭,要求它實時引導自己一步步解開這個方程式。過程中Barret有意給出了錯誤的反應,但均被ChatGPT以耐心自然的語氣予以迴應。

隨後,Barret還給出了一堆代碼,展示了ChatGPT理解代碼、描述任務、對應函數名及其功能等能夠完全理解代碼內在邏輯的能力。此外,ChatGPT面對圖表理解任務(任意抽取座標軸解讀等)也能夠順暢完成。

作爲彩蛋,ChatGPT還解讀了Barret自拍中的表情,以及簡短演繹了實時語音翻譯(意大利語和英語)的角色。只是解讀自拍時,ChatGPT似乎出現一點“故障”,反饋說“好像在看一個木質表面的東西”,但這被Barret用“那是我之前發給你的的東西”一句話迅速翻篇。

OpenAI將自己再度大力推向C端市場的一個殺手鐗是,此次GPT-4o的能力免費開放給所有ChatGPT用戶,這將讓他們直接體驗GPT-4級別的智能,只不過ChatGPT Plus用戶的容量限制是免費用戶的5倍。此外,OpenAI還發布了ChatGPT的桌面應用程序並全面更新了UI,使其用起來更簡單自然。

“我們使命中一個非常重要的部分,就是讓我們的高級AI工具可以免費向所有人提供。”Mira Murati表示,“我們認爲人們對技術功能有直觀感受非常重要。”這些功能都將在接下來幾周時間中迭代推出。