OpenAI新王炸:ChatGPT語音助手可以“看”人說話了,能實時視頻對話

本文作者:李丹

來源:硬AI

OpenAI爲期12個工作日的新產品和技術發佈活動出了新王炸:在首次公開演示將近七個月後,OpenAI正式面向廣大付費用戶推出ChatGPT類人高級人工智能(AI)語音助手的新功能,實時視頻對話。

美東時間12月12日週四,OpenAI宣佈,在ChatGPT的移動端應用程序App中,上線ChatGPT高級語音模式Advanced Voice的視頻和共享屏幕功能。Advanced Voice由OpenAI的多模態模型GPT-4o支持。

OpenAI的研究員在直播中演示了任何運用新功能,點擊ChatGPT 聊天欄旁邊的語音圖標,然後點擊左下角的視頻圖標,就可以啓動視頻對話。如果想共享屏幕,手機用戶要點擊打開一個有三個喧囂的菜單,選擇其中的“共享屏幕”(Share Screen)。

在和ChatGPT的視頻對話中,OpenAI研究員提問,研究員先讓GPT看到並和現場的OpenAI工作人員分別打過招呼,然後問GPT,現場誰的打扮最像聖誕老人,誰像聖誕老人的馴鹿,GPT均作出準確而回答。研究員演示了,給GPT轉發一個短信內容及圖片,讓GPT建議如何回覆對方的短信。

研究員還演示了,利用Advanced Voice的新功能讓GPT幫忙校對或者通過GPT學習新東西。比如找出一些製作手衝咖啡的咖啡壺、過濾杯等工具,向GPT展示並詢問如何使用這些工具,在操作時,讓GPT評價做得如何,並給出建議。

OpenAI表示,大多數ChatGPT Plus和 Pro套餐的訂閱用戶以及所有Team用戶都將可以在今後幾天內通過ChatGPT的App訪問週四推出的新功能,預計歐盟、瑞士、冰島、挪威和列支敦士登的 ChatGPT Plus 和 Pro 用戶也將很快可以運用新功能。ChatGPT的企業版和教育版Enterprise和Edu將於明年1月上線新功能。

同時OpenAI宣佈,在Advanced Voice這一高級語音模式中,新增了“限時”的聖誕老人聲音作爲“節日特供”,有效期持續到明年1月初,在全球範圍內,所有移動、網絡和桌面App用戶都可選用,它可通過 ChatGPT 中的雪花圖標訪問。

華爾街見聞曾提到,今年5月OpenAI就在推出新旗艦模型GPT-4o時演示了語音模式Voice Mode,不過該模式真正落地一波三折。

OpenAI原計劃6月末向一小批Plus計劃用戶推出該語音模式,6月又宣佈推遲一個月發佈,以便確保該功能安全有效地處理來自數百萬用戶的請求。當時OpenAI稱,計劃今年秋季讓所有Plus用戶都可以訪問該功能,確切的時間表取決於是否達到內部對安全性和可靠性的高標準。

7月末,OpenAI對有限的部分付費Plus用戶推出高級語音模式下的ChatGPT,稱語音模式無法模仿他人的說話方式,且增加了新的過濾器,保證軟件能夠發現並拒絕某些生成音樂或其他形式受版權保護音頻的請求。當時上線的語音模式缺少5月OpenAI展示過的不少功能,比如計算機視覺功能,類似於本週四OpenAI宣佈將要推出的視頻對話答問。