☰

論文一窺蘋果AI大計，Siri這回要變厲害了

5月7日消息，儘管外界普遍認爲蘋果在AI領域的動作較慢，實際上，蘋果一直在悄然籌備，並等待合適時機發力。

通過分析研究論文，美媒可以看出蘋果的AI策略逐漸明朗化。蘋果正致力於優化AI模型，使之更加精簡和高效。通過在設備上直接處理數據並改進存儲方式，蘋果已顯著加快了處理速度並提高了模型效率。此外，蘋果還開發了名爲EELBERT的系統，該系統能顯著減小模型的體積，同時儘量保持性能儘量不受影響。

在提升用戶體驗方面，蘋果特別關注如何改進Siri，使其更智能地處理語音指令和查詢。研究團隊正在開發一種新技術，使Siri無需喚醒詞即可激活，同時優化對模糊查詢的處理。

此外蘋果也意識到了AI在健康監測、創意設計和音樂編輯等多個領域的應用潛力。

蘋果最雄心勃勃的AI項目之一則是多模態大語言模型Ferret。它能夠根據用戶的指令專注並理解指定的對象及其周圍環境。Ferret的潛力不止於此，它甚至能解析屏幕上的內容。這一技術可能徹底改變人們使用智能手機和Vision Pro的方式。

以下是翻譯內容：

在人工智能領域的競爭中，常有人誤以爲蘋果起步較晚。自2022年底ChatGPT風靡全球以來，多數競爭對手都在加速追趕。雖然蘋果偶爾參與討論人工智能，並推出一些相關技術的產品，但外界普遍感覺蘋果似乎僅是試探，而非全力以赴。

然而，近幾個月的傳聞和報道揭示了蘋果的戰略佈局。實際上，蘋果一直在等待合適的時機。最近幾周有消息稱，蘋果正在與OpenAI和谷歌等巨頭探討合作，旨在增強其人工智能功能，並積極開發自己的人工智能模型，名爲Ajax。

通過仔細研讀蘋果發佈的人工智能研究論文，可以感知到該公司的AI策略日漸成型。當然，我們應認識到，從研究到產品的轉化是一個複雜且充滿不確定性的過程。但隨着蘋果預計在今年六月的全球開發者大會（WWDC）上展示其人工智能技術，我們將至少能一窺這家科技巨頭的遠大藍圖，以及其如何將這些技術融入日常生活。

更小、更高效的模型

我們共同期待的無疑是更優秀的Siri體驗！更出色的Siri即將到來！蘋果和全球科技界的許多研究都基於同一個前提：大語言模型（LLM）將立即提升虛擬助手的智能。對蘋果來說，提升Siri意味着必須迅速部署這些模型，並確保它們普遍可用以便爲用戶提供服務。

最新報道指出，在iOS 18中，蘋果計劃讓所有人工智能功能都能在設備上完全離線運行。即便擁有龐大的數據中心網絡和數千個頂尖GPU，構建一個功能全面且出色的模型也並非易事，而在智能手機這樣有限的空間內實現這一目標，更是難上加難。因此，蘋果需要展示其非凡的創新能力。

在一篇名爲《閃存中的LLM：有限內存下的高效大語言模型推理》（LLM in a flash: Efficient Large Language Model Inference withLimited Memory）的論文中，研究人員設計了一種創新系統來存儲模型數據。這種系統將數據主要存儲在設備的SSD而非RAM上。

研究人員寫道：“我們已證明能夠在SSD上運行的LLM大小是可用DRAM的兩倍，推理速度在CPU上提高了4到5倍，在GPU上提升了20到25倍。”他們發現，通過巧妙利用設備上最便宜且易於獲得的存儲空間，可以使模型運行得更快更高效。

此外，蘋果研究人員還開發了一個名爲EELBERT的系統，該系統能夠將大語言模型壓縮到更小的尺寸，同時基本保持其性能不受影響。他們在谷歌BERT模型上的測試成功將數據壓縮到原來的1/15，即只有1.2兆字節，且質量僅下降了4%。然而，這種壓縮確實帶來了一些延遲上的妥協。

總體而言，蘋果正在努力解決模型世界中的一個核心矛盾：模型越大，其性能越好，但同時也變得更復雜、更耗電，運行速度更慢。與許多其他公司一樣，蘋果也在尋找在這些方面達到最佳平衡的方法，並探索實現這一目標的最有效途徑。

Siri將變得足夠好？

在探討人工智能產品時，虛擬助手的功能常常成爲焦點——它們能獲取信息、提醒事項、解答疑問，甚至代替我們完成任務。因此，蘋果的許多人工智能研究專注於一個核心問題：如何將Siri提升至完美水平？

蘋果研發團隊正在探索一種無需喚醒詞即可激活Siri的新方法。想象一下，無需再說“嘿Siri”或“Siri”，設備就能直覺地感知到你是否在與它對話。研究人員承認：“這一挑戰比簡單的語音觸發檢測要複雜得多，因爲缺少了標誌語音命令開始的明確觸發短語。”爲了解決這一問題，另一組研究人員致力於開發更精確的喚醒詞檢測系統。另一項研究中，他們訓練了一個模型，以更好地理解那些通常難以被虛擬助手理解的罕見詞彙。

大語言模型的優勢在於其理論上能更快地處理大量信息。例如，在喚醒詞研究中，研究人員發現，不是刻意排除所有不必要的聲音，而是將所有聲音都輸入模型，讓模型自己判斷哪些是重要的，這樣做可以顯著提高喚醒詞的識別率。

一旦Siri捕獲到用戶的聲音，蘋果便竭盡全力確保其能更好地理解並進行交流。其中一個創新是名爲STEER的系統，該系統通過判斷用戶是在提出後續問題還是新問題，來改善與虛擬助手的交互。

另一個研究利用大語言模型處理“模糊查詢”，使得無論用戶如何表達，系統都能準確理解其意圖。研究人員指出：“在不確定情況下，智能對話代理可能需要主動提問，以減少不確定性，從而更有效地解決問題。”還有一項研究致力於使生成的回答更加簡潔明瞭，研究人員利用大語言模型優化了虛擬助手的語言表達。

AI在健康、創作以及音樂領域的應用

每當蘋果公開討論人工智能時，其焦點總是如何讓這項技術改善日常生活，而非僅僅展示其技術力量。因此，儘管Siri得到了廣泛關注，特別是蘋果正試圖與如HumaneAI Pin、Rabbit R1這樣的設備競爭，同時谷歌也在將Gemini集成到所有安卓系統中，蘋果顯然看到了人工智能在多個領域的巨大潛力。

在蘋果關注的諸多領域中，健康領域尤其重要。理論上，大語言模型能幫助我們分析從各種設備收集的海量生物識別數據，並理解這些數據的深層含義。因此，蘋果一直在積極探索如何收集並整合用戶的運動數據，如何利用步態識別和耳機識別用戶身份，以及如何追蹤和解讀心率數據。爲推進這一領域的研究，蘋果還創建併發布了名爲“最大的基於多設備多位置傳感器的人類活動數據集”，收集了50名參與者的詳細生物傳感數據。

蘋果還視人工智能爲創新工具。在一項研究中，研究人員與動畫師、設計師和工程師進行了深入交流，開發了名爲Keyframer的系統。此係統允許用戶迭代地構建和完善設計。與傳統圖像生成不同，Keyframer並非僅僅依賴輸入提示符來生成圖像，而是提供了一個工具箱，用戶可以根據個人喜好調整和完善圖像的各個部分。這一系統可廣泛應用於從Memoji個性化設計到蘋果更專業的藝術工具等多個領域。

另一項研究描述了一個名爲MGIE的工具，該工具允許用戶通過描述修改意圖來直接編輯圖像，如“讓天空更藍”、“讓我的臉看起來不那麼奇怪”或“添加一些石頭”，MGIE能將這些指令轉化爲明確的視覺意圖，並實現合理的圖像編輯。儘管初期實驗並非完美無缺，但其潛力已經顯現。

在Apple Music中，人工智能的應用同樣值得關注。一篇名爲《資源受限的立體聲唱歌聲音消除》（Resource-constrained Stereo Singing Voice Cancellation）的論文探討了如何將歌曲中的人聲與樂器聲分離的技術，這一技術如果被蘋果採用，將爲喜歡混音的TikTok或Instagram用戶提供強大的工具。

蘋果硬件與AI相結合

本文作者敢斷言，隨着時間的推移，蘋果將越來越多地將人工智能技術融入其產品和服務，特別是在iOS平臺上。蘋果不僅將在其自家應用程序中集成這些功能，還計劃通過API向第三方開發者開放。蘋果一直自豪於其硬件性能，尤其是相比普通安卓設備。將強大的硬件與注重隱私的人工智能結合使用，無疑將爲蘋果在市場競爭中帶來顯著優勢。

然而，談到蘋果最大、最具野心的人工智能項目，不得不提Ferret。Ferret是一個多模態大語言模型，可以根據用戶的指令，專注並理解用戶指定的對象及其周圍環境。這項技術是爲了應對當前常見的AI場景而設計的，即向設備詢問周圍的世界信息。

但Ferret的潛能不僅限於此，它還能解析並理解屏幕上的內容。在Ferret的相關論文中，研究人員展示了它如何幫助用戶導航應用程序，回答關於App Store評分的問題，以及描述他們所看到的內容等。這對提高可訪問性有深遠的意義，也可能徹底改變人們使用手機、Vision Pro和智能眼鏡的方式。

雖然我們對這些技術的設想可能看起來頗爲超前，但想象一下，這些技術如何與蘋果正在開發的其他產品相結合：一個能夠理解你需求的Siri，配合一個能看見並理解屏幕上所有內容的設備，將真正實現手機的自我操作。蘋果不需要對所有產品進行深度整合，只需運行相應的應用程序並自動點擊正確的按鈕即可。

必須指出，這一切目前還只是處於研究階段。如果從今年春天開始，這些技術能夠順利運行並應用到實際產品中，那將是一項前所未有的技術成就。我們預計在今年的WWDC上，將見證蘋果在人工智能領域的重大公告。

蘋果CEO蒂姆·庫克（Tim Cook）在2月份已經透露了這方面的信息，並在本週的財報電話會議上基本確認了這一點。有兩件事已經很清楚：蘋果在AI競賽中處於激烈的競爭狀態，這些技術可能會徹底改變iPhone。想象一下，將來你甚至可能願意頻繁使用Siri，這將是蘋果在AI領域取得的重大成就。（小小）

論文一窺蘋果AI大計，Siri這回要變厲害了

相關資訊