蘋果又發大模型論文,Siri未來也許能“看懂”屏幕了

蘋果近日發佈的一篇語言模型相關的論文,預示了未來的Siri可能擁有讀懂屏幕的能力,這意味着蘋果終端設備更智能的交互能力。

4月2日消息,蘋果研究團隊發表了一篇名爲《ReALM: Reference Resolution As Language Modeling》的論文,主題在於解決非對話實體(non-conversational entities)中的指代消解(Reference resolution)問題。

文章摘要指出,雖然大語言模型被證明在許多任務處理中表現強大,但在屏幕實體、後臺實體等非對話實體中的指代理解能力,還沒有得到充分的開發利用。

其中,“對話實體”指的是在對話過程中出現的具體對象或概念,可以是任何提及並被討論的事物,例如人名、地點、事件、產品、觀點等;“屏幕實體”指的是用戶在電子設備屏幕上可以看到的各種元素,例如文本、圖標、按鈕、圖片、視頻等;“後臺實體”通常指的是在電子設備的操作系統或應用程序中運行的、對用戶不可見的進程和服務。

這篇文章主要展示了,如何利用大語言模型建立能夠解析各種類型指代(尤其是非對話實體)的高效系統。團隊的方法是將其轉化爲一個純粹的語言建模問題,具體而言,ReALM(該模型的名稱)通過已經解析的實體及其位置來重建屏幕,生成一個可視覺識別的文本,並通過對屏幕中的實體進行標註,使其具備出現所在位置的上下文,這就使得系統能夠理解用戶在屏幕上看到的內容。

蘋果研究團隊在結果中展示了不同模型在各種數據集上的準確性結果,包括ReALM-80M/250M/1B/3B四種參數大小模型,並與GPT-3.5和GPT-4都進行了對比。數據顯示,這種針對指代消解進行微調的語言模型,在多數表現上優於GPT-4。

最新發表的這篇論文,表明了蘋果的努力方向之一就在於加強Siri以及其他產品對於實體及其上下文的感知和解析能力,這可能讓蘋果在硬件設備的智能交互水平上相較競爭者佔據優勢。不過研究人員也明確指出,依靠屏幕的自動解析存在侷限性,因爲在更復雜的視覺指代解析中,如區分多個圖像,可能需要結合計算機視覺和多模態技術。

在AI大模型、生成式AI等AI技術上,蘋果雖然入局稍晚,但動作高效且成果頗爲明顯,在AI上的投入方向也越來越明朗。本月初,蘋果已經發表了一篇論文,公佈自己研發的MM1多態大語言模型(Multimodal LLM),最大擁有300億參數(並不算一個很高的數值),但尚未公測或公佈上線時間。

公司似乎也正在籌備讓Siri接入大模型。據極客公園報道,今年1月,有開發者在iOS 17.4的開發者預覽版Beta中發現了與大模型相關的技術代碼。這些代碼表明,蘋果正在開發一個由大模型支持的新版本Siri。

在蘋果之前,其全球範圍內最大競爭對手三星已經在AI手機上搶跑,在最新旗艦系列中打出Galaxy AI戰略,從翻譯、拍照、修圖、搜索等方面全面加入AI能力,並在中國市場也迅速找到百度、WPS、美圖等公司完成本土化落地。

而從去年下半年開始,國內手機廠商的AI佈局聲量已經漸起。去年8月,華爲HarmonyOS 4全面接入盤古大模型;10月,小米自研AI大模型“MiLM-6B”接入澎湃OS;11月,vivo發佈自研“藍心大模型”,OPPO在ColorOS 14引入“安第斯大模型”。今年1月,榮耀也發佈自研70億參數端側AI大模型“魔法大模型”。

事實上,現有智能手機的AI功能主要圍繞應用層,效果在於提升個別功能的使用效率,但除了實時通話翻譯這樣的場景屬於剛需的一種,其他方向的效果還沒有足夠驚豔。所以如果是要強大到撬動用戶的換機訴求,賽道中還沒有出現這樣的AI手機選手。

蘋果這篇論文留出的想象空間在於,如果Siri對於屏幕實體有了足夠強的理解能力,那用戶可以發起的智能交互範疇就會明顯擴大。例如,也許未來用戶可以通過語音讓Siri在某個外賣平臺上進入某家店鋪訂一份餐——這個交互步驟的確是基於現狀的大幅度簡化。

但這會是用戶想要的新iPhone嗎?或許蘋果也沒有答案。市場可以期待的是,在蘋果今年的WWDC(全球開發者大會)上,它會給這場挑戰起一個什麼樣的開頭,使得觀衆不會唏噓它遲到如此之久。