☰

系統級玩家微軟、蘋果先後出牌，端側大模型路徑清晰了？

落地端側被認爲是大模型走向普及的關鍵。個人PC和智能手機是當前受衆最爲廣泛的兩大終端品類。2023年下半年以來，全球範圍內各大PC、手機廠商紛紛通過硬件擴容，嘗試將大模型在物理意義上融入終端。

直到近期，大模型融入終端真正迎來關鍵節點。5月，微軟發佈Copilot + PC，緊接着6月，蘋果發佈Apple Intelligence。

系統級玩家着眼於全局的重塑，相比硬件玩家接近單點出擊式的改造，顯然不可同日而語。大模型落地終端或將迎來新的範式。但大方向趨同之下，微軟與蘋果在路徑上的差異，也預示着演化路徑仍將分叉而行。

而與此同時，技術演進正在逐步消解端側部署大模型的必要性，這又爲路徑演化注入了更大的不確定性。

巨頭的分歧：打造殺手級應用 VS 融入已有應用

5月21日，微軟發佈Copilot + PC, 重新定義AI PC；而6月11日，蘋果發佈Apple Intelligence，則試圖重新定義AI。發佈會上，兩大系統級玩家分別展示了一系列AI加持之下的新功能、新產品。雖然同樣都是聚焦AI，但各自在產品設計、議程設置上不同的着力點，清晰地體現着兩者對於端側AI落地路徑有着截然不同的設想。

微軟仍在追求殺手級應用。它全新發布的植根於 Windows 11 操作系統的“Recall”功能，彷彿能讓時光倒流。藉助於PC本地端大模型的加持，電腦能夠“記住”此前進行過的所有操作，然後在用戶需要時，簡單一句話即可立即召回。

儘管這並不是一種全新的產品概念——類似的回溯功能早已存在，但這確實是一種基於硬件升級的全新嘗試。“Recall”功能的的原理是在電腦運行期間，每隔幾秒鐘捕捉一次屏幕快照，並持續堆積至電腦硬盤，以備用戶在以後某個時間根據模糊的記憶找到它們。由於有PC本地端大模型的加持，召回的過程超越了常規精準檢索，從而更加便捷高效。

一系列操作的實現，都建立在更爲強大的硬件性能基礎上上。微軟爲Copilot + PC設置了硬件門檻，在傳統的CPU、GPU之外，還需要配置NPU，且AI算力需要超過40 TOPS，同時內存要達到16G、固態硬盤達到256GB。無論是算力還是內存，都遠超市面上絕大多數已有PC產品。

搶先接入OpenAI GPT-4o，讓同樣根植於Windows 11 操作系統的Copilot具備令人驚豔的“讀屏”能力，是微軟打造殺手級應用的另一種嘗試，儘管這並不屬於端側原生功能。根據現場演示，新款PC中的Copilot能夠“看懂”屏幕上正在顯示的遊戲畫面，並可基於自身理解實時提供操作建議，這相當於在電腦中內置了一個永遠不厭其煩的遊戲專家，而且所能提供的建議是開放式的，遠遠超出了只有固定劇本的NPC（非玩家控制角色）概念。

與微軟形成鮮明對比，蘋果則顯然沒有打造殺手級應用的執念。Apple Intelligence是蘋果的AI首秀，它爲準備首秀花費的時間最長，但它發佈的產品卻最爲平淡。

Apple Intelligence所提供的一系列功能，比如文本修改校對、歸納總結、圖片生成等等，不僅並未超出其它大模型的能力範疇，而且相比安卓友商們已經實現的功能，也並無出彩之處。與微軟Copilot一樣，新版Siri同樣接入了GPT-4o，但在Apple Intelligence的體系中，GPT-4o的地位相當邊緣化，僅在遇到複雜問題時，Siri纔會經用戶同意調用GPT-4o。讓功能強悍的GPT-4o扮演可有可無的外掛角色，清晰地表明，蘋果並不打算像微軟那樣倚重OpenAI以打造更具衝擊力的功能。

蘋果也沒有像微軟那樣將硬件門檻陡然拔高。蘋果爲Apple Intelligence設定的硬件門檻是A17 Pro（手機端）以及 M 系列芯片（平板和電腦端）。A17 Pro 的 AI 算力爲35 TOPS，內存爲8 GB，目前僅有iPhone 15 Pro 和 15 Pro Max兩款手機配備A17 Pro。M系列芯片以下限M1爲例，AI算力約爲11TOPS，內存爲8GB，近幾年發佈的iPad及Mac電腦普遍都達標。結合iPhone 15配備A16芯片AI 算力、內存分別爲17TOPS、6GB，但不能支持Apple Intelligence，有分析認爲蘋果爲端側AI設置的門檻，其實僅僅是內存8GB。

在蘋果看來，炫技式的單點功能突破以及硬件性能的堆疊，都不是端側AI的核心。蘋果更願意強調的，是基於現有的硬件條件，將AI融入已有的應用形態。它爲此構建了一個略顯複雜的三層大模型架構，分別是本地端30億參數級的小模型、未公佈參數量的雲端大模型，以及外掛大模型GPT-4o。

雖然據發佈會後蘋果官方技術博客披露，蘋果自研大模型性能相當出色——30億參數級小模型相比主流幾個70億級模型能力上基本都能勝出、雲端模型性能能夠達到GPT-4 Turbo級別，但在蘋果看來，這些單純的大模型能力，同樣不足以成爲發佈會的核心看點之一。蘋果 CEO 蒂姆·庫克（Tim Cook）在發佈會上提出了Apple Intelligence的五大開發原則，其中第三條是“整合”（Integrated），意思是AI必須集成到產品體驗中。

系統級玩家的共識：構建AI基礎設施

蘋果的“整合”不僅僅停留在自有App，還面向所有第三方App。蘋果專門設計了一套全新的框架，並公佈了第一批配套的開發工具，包括App Intents API、Image Playground API等，未來第三方開發者可以直接調用Apple Intelligence，將AI功能融入自己的App。

事實上，這同樣是微軟的選擇。微軟爲其Copilot + PC設置了一個兩層的大模型架構，其中本地端與蘋果不同，微軟選擇了多模型方案，Copilot + PC內置的大模型數量多達40個，而云端則直接接入GPT-4o。與發佈Copilot + PC同步，微軟推出了"Windows Copilot Runtime"工具套件，支持開發者利用Windows內建的這40多個AI模型，催生全新的應用程序體驗。

這或許是兩大系統級玩家關於大模型落地端側最爲重要的共識之一。微軟是全球最大的PC操作系統廠商，市佔率高達70%；蘋果橫跨PC、手機端，軟硬一體，是全球最大的閉源操作系統廠商，全球 80 億人裡，有超過 10 億人使用 iPhone，還有數億人使用蘋果的個人電腦、耳機、手錶。

在操作系統層面提供AI基礎設施，或許纔是更爲長遠也更爲務實的考量。距離2022年11月ChatGPT震撼出世，已經將近20個月，各大科技公司的天量資源投入仍在繼續，但大模型的進化速度呈現放緩跡象。以點燃這波生成式AI熱潮的大模型文本處理能力爲例，OpenAI 在 5月13日推出了最新模型GPT-4o，據官方公佈的評測數據，相比此前的GPT-4 Turbo，GPT-4o文本處理能力提升不大，MMLU（本科生水平的知識）得分提升 2.5%，HumanEval（編程能力）提升 3.6%，MGSM（跨語言數學能力）提升 2.3%，而DROP（文本段落分析推理）則下降了 3%。

但與此同時，殺手級應用仍未出現。根據第三方網站SimilarWeb的監測數據，早在去年6月，ChatGPT流量即已見頂，當月其網站與移動客戶端的全球流量（PV）環比下降9.7%，獨立訪客數量（UV）下降了5.7%，訪客在網站上花費的時間也下降了8.5%。而國內轟轟烈烈的“百模大戰”之後，大模型玩家們已推出數十款AI產品，但表現最好的頭部大模型APP日活躍量也僅在百萬級別。

在雲端大模型尚不足以催生殺手級應用的局面下，要想在受限於硬件短板的端側構建基於本地大模型能力的殺手級應用，顯然更爲困難。相比之下，在操作系統層面提供AI基礎設施，對於真正推動大模型在端側落地，或許是更爲務實的選擇。這不僅能夠更有成效地推動大模型技術與現有應用融合，而且也可以建立系統級的AI生態，讓殺手級應用自然而然地生長出來。

技術演進動搖端側大模型的必要性

但從技術演進來看，大模型落地端側本地的驅動力開始衰減。

一直以來，成本考量及隱私保護，是推動大模型從雲端落地終端的兩大因素。

雲端大模型普遍千億級的參數，意味着高昂的推理成本。將推理環節下放至終端，則相當於讓終端用戶平攤成本，其中包括服務器成本和電力成本。

但5月份以來，經過一輪激烈的價格戰，大模型調用價格已經大幅下降，甚至部分被打至白菜價。OpenAI新模型GPT-4o的 API價格降至上一版本GPT-4 Turbo的一半，處理100 萬 Token的輸入僅需5美元，谷歌同樣將其主力模型Gemini 1.5 Pro的調用價格打5折，處理 100 萬 Token的費用降至3.5美元。

而國內模型的降價幅度更爲誇張。字節豆包大模型將處理輸入文本的價格定在 0.8 元 / 百萬 Tokens，阿里則把對標 GPT-4 的 Qwen-Long API 輸入價格降到 0.5 元 / 百萬 Tokens，百度更是宣佈主力模型文心一言 ERNIE Speed 和 Lite 模型免費使用。

大幅降價背後，除了短期的市場競爭因素之外，技術演進是支撐降價的趨勢性力量。在硬件層面，大模型算力的硬通貨英偉達GPU的性價比在快速提升。英偉達年初宣稱，靠着改進推理框架等方法，一年時就把大模型推理成本減少到了原本的四分之一。今年 3 月，英偉達發佈新產品 GB200 ，宣稱它能把大模型推理性能再提高 30 倍。在訓練及推理層面，技術的優化也帶來降本。比如字節在宣佈大模型降價時透露，通過調整模型架構、把在單個設備上做推理改成在多個設備上分佈式推理，集中處理模型調用任務，可以提升芯片的利用率，從而將成本降低。

伴隨大模型推理成本的持續下降，從成本出發要求大模型落地端側的必要性也將隨之減弱。此外，從隱私保護、數據安全出發的必要性，似乎也開始動搖。

對於如何在調用雲端大模型的過程中保障用戶的數據安全，一向注重用戶隱私的蘋果，提出了新的解決方案——私有云計算。私有云計算位於Apple Intelligence三層大模型架構中的第二層，介於本地端大模型以及外掛大模型之間，發揮承上啓下作用。按照蘋果的解釋，私密雲計算更像是一個加密協議，具體而言，Apple Intelligence在處理AI相關任務時，首先會評估任務是否能夠由本地端大模型完成，如果不能，Apple Intelligence則會通過加密的方式打包一個請求，其中包含與任務相關的提示信息以及需要動用的雲端模型，與之相應的是，只有要使用的特定 AI 模型纔會擁有正確的密鑰。而且這些私密性數據“閱後即焚”，任何傳輸到雲端的個人數據將僅用於手頭的人工智能任務，在模型完成請求後，蘋果不會保留或訪問這些數據，即使是用於調試或質量控制。

蘋果的方案是否行之有效併成爲一種新的範式，還有待時間檢驗。但可以肯定的是，微軟蘋果等端側系統級玩家的入場，將爲大模型的端側生態帶來巨大影響，疊加技術演進開始動搖大模型落地本地端的必要性，端側AI的實現路徑或將迎來重大切換。

系統級玩家微軟、蘋果先後出牌，端側大模型路徑清晰了？

相關資訊