☰

OpenAI放了一個大招，這纔是真正的語音助手

繼文生視頻模型Sora之後，OpenAI再一次給外界帶來驚喜。這一次，OpenAI向世人展現了強大且絲滑的語音對話等多模態能力。

北京時間5月14日凌晨1點，在谷歌開發者大會前一天，預熱已久的OpenAI正式向公衆發佈了語音大模型GPT-4o（omnimodle，全能模型），可以綜合利用語音、文本和視覺信息進行推理，扮演一個個人語音交互助手。而且，OpenAI將會對這一模型免費向公衆開放。

除了全新的大模型，OpenAI也正式宣佈推出ChatGPT桌面版，"從今天開始，我們將首先向Plus用戶推出macOS應用，並在未來幾周內向更廣泛的用戶開放。我們還計劃在今年晚些時候推出Windows版本。"

01 情感化、對話絲滑，效果令人震撼

發佈會全程只持續了26分鐘，OpenAI CEO奧特曼沒有現身，由公司CTO和兩位工程師來發布。它的界面是一個巨大的黑點，但現場演示的幾個GPT4o對話場景卻令人感到驚豔。

整個對話的過程非常絲滑，不僅能說能聽能看，還會有情緒的變化，就像是和一個真實的人在打視頻電話。

而通過OpenAI現場演示的幾個場景，我們也彷彿看到了《Her》的場面，科幻正在成爲現實。

場景一：緩解情緒

演示嘉賓說自己現在有點緊張要如何緩解，大模型立馬安撫他別緊張，慢下來，可以深呼吸。然後演示嘉賓故意做出非常誇張且急促的呼吸聲。大模型很快糾正了這種不正確的呼吸方式，在它的指導下如何緩慢地呼氣和吸氣。

場景二：講睡前故事

要求大模型講一個關於機器人與愛的睡前故事。正當大模型講得正起勁時，主持人趕緊打斷，提出聲音要更有感情，大模型很快切換到了非常有戲劇性的聲音。結果話還沒說完，一位嘉賓接過話題，提出聲音需要更有衝擊力，大模型便以一種非常誇張的口吻繼續講述着剛纔的睡前故事。但是，對大模型的考驗還沒有結束，另一位嘉賓又提出要切換到機器人的聲音。很快，大模型就開始模仿機器人的腔調繼續講述。最終，大模型被要求以演唱一首歌結束了對話。

場景三：解代數方程

演示嘉賓在紙上寫了一個簡單的方程式，要求語音助手通過攝像頭獲得視覺能力後，實時視頻指導數學解題。

大模型剛開始還出現了"幻覺"，在沒打開攝像頭時就自信滿滿地說理解了。當演示嘉賓提示後，她才說"oops，我太興奮了。"然後大模型一步一步提醒和講解他的解題思路。整個過程，大模型就像一個很有經驗且富有耐心的數學老師。

媽媽再也不用擔心我的學習了。

場景四：根據外表判斷情緒

演示嘉賓拿着手機攝像頭對着自己的臉和大模型對話，大模型很快通過識別視頻中的人物表情給出了自己的判斷。大模型說，你看起來很開心，帶着燦爛的笑容，甚至有一絲興奮，你能分享你快樂的來源嗎？當演示嘉賓說，開心是因爲要展示你多麼有用和強大時，大模型甚至表現出了一絲絲的嬌羞。

在這個場景的演示中還出現了一個插曲，演示嘉賓一開始打開的是後置攝像頭，拍到的是一張桌子，大模型說"這看起來像是一個木板的表面"。演示嘉賓很快說自己拍錯了畫面，然後轉換成前置攝像頭開始自拍，大模型也快速反應過來。

總結一下OpenAI語音大模型在演示中的幾個特點：

一是快，快速反應，幾乎沒有時延，而且語速跟正常人沒有差別，彷彿在跟一個真實的人類在打電話。而此前，用戶使用語音功能與ChatGPT對話時，GPT-3.5的平均延遲爲2.8秒，GPT-4爲5.4秒。

二是可以隨時打斷，不用等它回答完，直接打斷，也能快速接着最新的話題往下聊，非常絲滑；

三是可以捕捉情緒變化，比如能判斷對方急促的呼吸方式不對。而且也可以扮演不同的角色，比如戲劇性的語氣，或者冰冷的機器人的聲音，切換自如。

四是多模態的能力很強，比如你可以用意大利語提問，然後要求對方用英語回答，比如可以寫一個方程式，語音助手可以通過手機攝像頭識別後，一步步教你解題步驟。甚至還可以用攝像頭對着自己，語音助手可以識別圖像來判斷你現在的情緒。從"軟件代碼中發生了什麼？"到"這個人穿什麼牌子的襯衫？"，大模型都能通過多模態的能力，很好地回答。

OpenAI 首席技術官穆裡·穆拉蒂 (Muri Murati) 表示，GPT-4o將提供與GPT-4同等水平的智能，但在文本、圖像以及語音處理方面均取得了進一步提升，"GPT-4o可以綜合利用語音、文本和視覺信息進行推理。"

對於這一模型，OpenAI並沒有像Sora一樣，遲遲未對公衆開放使用。OpenAI宣佈GPT-4o將在未來幾周內分階段集成至OpenAI的各個產品之中。更關鍵的是，GPT-4o將免費提供給所有用戶使用，付費用戶則可以享受五倍的調用額度。

同時，OpenAI同步開放了最新大模型的API接口的調用，價格方也便宜不少。GPT-4o的價格是GPT-4-turbo的一半，速度是GPT-4-turbo的兩倍。

不過，GPT-4o的API接口並非向所有客戶開放。OpenAI以濫用風險爲由，表示計劃在未來幾周內首先向"一小羣值得信賴的合作伙伴"推出對GPT-4o新音頻功能的支持。

02 AI搜索沒來，但桌面版ChatGPT來了

這次的發佈基本坐實了一個事實，那就是蘋果的語音助手Siri將引入ChatGPT，GPT-4o強大的語音對話能力對Siri是個巨大的提升。而且，OpenAI的發佈會演示過程中也出現了大量蘋果的設備。

不過，令人遺憾的是，此前外界盛傳已久的ChatGPT搜索產品沒有出現。

在此之前，外界一度盛傳OpenAI將發佈AI搜索的功能，包括有媒體拿到了ChatGPT Search的提前體驗版本——界面仍然是對話交互，但ChatGPT在回答時會使用網絡信息進行回答。

所以，一度有消息稱，ChatGPT的搜索功能會在5月10日上線，但最終還是被放了鴿子，ChatGPT CEO奧特曼迴應稱，不會有GPT5，也不會有搜索產品。

但不少用戶發現，ChatGPT已經可以回答最新的信息，比如當天的股票或者天氣，而且都是準確的信息。ChatGPT可以回答網址，可以跳轉鏈接，時不時也可以提供最新的數據。但這與真正的AI搜索相差甚遠。

崑崙萬維CEO方漢認爲，用戶漲不上去是OpenAI現在最頭疼的事情。"目前看到的產品形態上來講，OpenAI的搜索產品，並沒有對海內外所有的搜索引擎產品，形成碾壓，形成 SOTA（state-of-the-art，最佳表現），發佈這個產品，可能會讓用戶有一點增長，但不會讓用戶翻倍增長。所以我認爲，這是在 Google I/O 前對谷歌的一次戰略狙擊，它的根本戰術上，還是在等待和籌備 GPT-4.5。"

"Open AI無論發佈什麼新產品，都是在給ChatGPT的強大能力重新定義場景，在找新的產品出路。"360董事長周鴻禕也認爲，OpenAI在做場景的收縮和聚焦，如果大模型有一萬種能力，而不要去承諾有一萬種場景，而是在大模型中精選幾十種或者幾百種能力，聚焦到一兩個比較明確的場景上。

在此之前，OpenAI發佈了GPT的應用商店，通過GPTs讓用戶來定義場景，目前GPTs的數量超過了百萬，但卻遭到了不少用戶的吐槽，一方面OpenAI不上心，另一方面也缺少客戶。正如周鴻禕說，GPTs定義的場景太多太碎，也不算成功。Open AI也需要探索，做出幾個典型的大模型驅動的產品，這個產品要明確定義用戶使用的場景。

不過相比於尋找場景，OpenAI這次發佈了桌面版的ChatGPT和新的用戶界面，完善ChatGPT的協作能力。"我們認識到這些模型正變得越來越複雜，" 穆拉蒂說道，"但我們希望用戶與人工智能模型的交互體驗能夠更加自然、輕鬆，讓用戶可以將注意力完全集中在與模型的協作上，而無需在意界面本身。"

比如，用戶可以通過Option + 空格鍵向ChatGPT提問，並且可以在應用內截取和討論屏幕截圖。

"我們知道，隨着這些模型變得越來越複雜，我們希望交互體驗變得更加自然，"穆拉蒂說。"這是我們第一次在易用性方面真正邁出一大步。"

上一次，OpenAI用Sora狙擊了谷歌的Gemini，這一次OpenAI再一次選擇谷歌開發者大會的前一天釋放大招，面對有實力又擅長PR的奧特曼，谷歌又將如何應對，明日的谷歌開發者大會見分曉。

OpenAI放了一個大招，這纔是真正的語音助手

相關資訊