免費AI“神器”系列第11彈:蘋果版ChatGPT超越GPT-4;騰訊版Sora已獲3000星|鈦媒體AGI

近期,生成式人工智能(AIGC)領域又涌現出多款創意十足的新應用。

今天,鈦媒體AGI梳理了免費 AI “神器”系列第十一彈,共五款,其中不少產品再一次拓寬了我們對AI的想象力。

蘋果版ChatGPT來了。

產品信息:ReALM(Real-time Analysis of Live Media)是由蘋果公司研究團隊開發的一款設備端AI模型,參數量達8億,某些性能超越了GPT-4,從而理解前後文關係,並且加快反應效率。

蘋果 AI 技術將與Google、微軟、OpenAI、亞馬遜等科技巨頭進行抗衡。

產品功能:首先,ReALM目前屬一種模型技術,實際產品與GPT類似;其次,ReALM可利用大模型將參考指代問題(包括對話歷史中的上下文、用戶與設備交互式感知的非對話實體)轉換爲純語言建模問題,使模型能夠對用戶的指令做出正確的響應;再次,ReALM也能用於理解圖像中的文字內容,諸如電話號碼或食譜資訊,由於ReALM模型參數量小,適合在手機和平板等設備上運行,有望顯著提升Siri AI助手技術。

最後,目前暫時無法確認蘋果是否會將ReALM AI模型實際用於iPhone、iPad、Mac當中,但蘋果先前已經多次暗示將在2024年推出 AI 產品,藉此提升產品使用體驗,因此預期今年WWDC 2024期間將會有更進一步說明,可能會出現在即將到來的iOS 18和macOS 15中。

論文地址:https://arxiv.org/pdf/2403.20329.pdf

2、讓圖像開口說話,騰訊開源版Sora來了

繼OpenAI、阿里之後,騰訊版Sora也來了。

產品信息:騰訊推開源技術框架AniPortrait,它可以通過一張人臉照片和音頻生成一段高質量視頻。與此前阿里發佈的視頻生成模型EMO的功能相似,但AniPortrait可直接開源,用戶直接使用即可。

產品功能:AniPortrait可根據輸入的音頻和圖像生成會說話、唱歌的動態視頻,並保持人物面部表情流暢、生動且口型一致。同時支持多種語言輸入,還可以對面部重繪以及進行頭部姿勢控制。

據瞭解,該技術框架的工作原理分爲兩個步驟:第一步AniPortrait會從音頻中提取關鍵信息,再將音頻通過兩個簡單的處理層轉換成一個三維的面部模型,並確定頭部姿勢。第二步,將三維面部模型和頭部姿態轉換成一系列二維點,進行識別標註,再使用Stable Diffusion 1.5結合時間運動模塊,根據二維標記點序列創建一系列連貫的肖像幀,形成動畫,確保動畫的流暢性和真實感。

對於AniPortrait目前存在對口型不太流暢自然的問題,騰訊團隊稱,接下來也會效仿阿里EMO方法,直接從音頻來預測肖像視頻的生成,以達到更好的效果。

截至目前,AniPortrait已經在GitHub上獲得了3000 Stars星星

項目地址:https://huggingface.co/ZJYang/AniPortrait

論文地址:https://huggingface.co/papers/2403.17694

3、醫療護理保健模型——Polaris

產品信息:Polaris是由AI初創公司Hippocratic AI開發的一款用於醫療保健的大語言模型(LLM)系統,能通過實時對話爲患者提供專業醫療諮詢和指導,包括藥物使用指南、治療方案以及健康建議等。

產品功能:Polaris能與患者進行長時間、多輪次的自然語音對話,爲其提供複雜的醫療諮詢和指導,還能分析患者的實驗報告和生命體徵數據,幫助患者解讀檢查結果,監控健康狀況的變化。此外,Polaris可以根據患者的健康狀況和特定醫療需求,提供個性化的飲食和營養建議。

目前,Polaris已經發布了其二代模型——Polaris 2。評估結果顯示,Polaris 2在醫療安全、臨牀準備、患者教育、對話質量等多個維度上與人類護士表現相當,甚至在某些關鍵維度上超越了人類護士。而在藥物管理、實驗報告解讀能力上,Polaris 2已經超越了GPT-4和LLaMA-2 70B等大模型。

Polaris 2的運行成本也非常具有競爭力,每小時工作成本只需9美元,人類護士每小時工作成本是90美元,Polaris 2僅是其十分之一。

官網地址:https://www.hippocraticai.com/video

4、視頻主體無縫替換——VideoSwap

產品信息:VideoSwap是一款由新加坡國立大學和Meta研究團隊合作開發的視頻編輯模型,支持在不改變視頻背景、運動軌跡的前提下替換掉視頻主體。

產品功能:在VideoSwap的幫助下,用戶僅需一張圖片就能替換掉一段動態視頻的主角。比如將轉頭的小貓換成小狗,疾馳的SUV換成超跑等。

VideoSwap的原理是通過使用少量語義點來對齊物體的運動軌跡並改變主體形狀,再利用圖像擴散模型將視頻運動層集成,以確保視頻生成結果的時間一致性。

研究團隊表示,VideoSwap通過大量測試,最終取得了SOTA(State of the arts)成績,成爲目前最好的視頻變換模型。

項目地址:https://videoswap.github.io/

5、動畫界“神筆馬良”——BasicPBC

產品信息:BasicPBC是一項由新加坡南洋理工大學S-lab團隊開發的動畫自動填色AI技術,能自動爲動畫中的線條圖着色,極大地提升了動畫製作中的上色工作效率。

產品功能:用戶只需要對動畫的第一幀進行手動彩色化,BasicPBC就能自動將顏色填充到後續的所有幀。

爲了幫助AI更好地理解動畫的複雜性,研究團隊開發了一個數據集PaintBucket-Character。這個數據集包含了豐富的3D角色渲染線條藝術及其彩色版本,模擬了真實動畫製作中的各種細節。在大量實驗中,這項自動着色技術顯現出了其在人物運動、陰影變化和被遮擋等複雜場景時的優越性。

項目地址:https://github.com/ykdai/BasicPBC

(本文首發鈦媒體App,作者|任穎文,編輯|林志佳)