蘋果開源大模型OpenELM來了,它可能用在下一代iPhone上

4月25日消息,據VentureBeat報道,蘋果近日在AI代碼社區Hugging Face上發佈了OpenELM大模型。這是一個由不同參數大小構成的一系列開源大型語言模型,可運行在端側設備上。

據界面新聞了解,該系列模型包含2.7億、4.5億、11億和30億共4個不同參數版本。基於較小的參數量,這些模型可在端側設備上獨立運行,而不必連接雲端服務器。具體而言,其一共包括4個預訓練模型和4個指令調優模型。

針對這套開源大模型,蘋果在其“樣本代碼許可”下提供了OpenELM模型的權重、檢查點、模型性能統計,以及預訓練、評估、指令調優和參數高效微調的說明。

整套示例代碼許可並沒有禁止商業使用或修改,但要求完整分發該軟件的開發者保留上述通知和免責聲明等文本。同時,蘋果公司指出,這些模型沒有安全保證的前提,有可能在用戶反饋過程中產生不準確、有害、有偏見或令人反感的輸出。

據蘋果在Hugging Face上的公開信息,儘管這四套模型參數最小僅有2.7億,最高30億,但預訓練數據規模高達1.8萬億tokens(模型處理文本時的基本單位)。這些數據來自Reddit、維基百科、arXiv.org等網站構成的公共數據集。同時,蘋果採用CoreNet作爲訓練框架,這是蘋果專門用於訓練模型的深度神經網絡庫,目前也已開源。

這些模型可運行在筆記本電腦甚至智能手機上,蘋果舉例稱,其中一臺是配備M2 Max芯片、64GB RAM,運行macOS 14.4.1的MacBook Pro。

蘋果發佈OpenELM,意味着它正式加入開源大模型,尤其是端側大模型的賽道之中,正如谷歌、微軟、三星等科技公司正在做的那樣,而這一動作也進一步揭開蘋果生成式AI戰略的神秘面紗。

徹底放棄造車以後,蘋果在生成式AI上的表現將是決定其下個十年科技領域地位的最大籌碼。在2024蘋果股東大會上,蘋果CEO蒂姆・庫克表示,今年將在生成式AI領域實現重大進展。該公司一部分造車團隊成員也開始轉向生成式AI。

微軟、谷歌等科技巨頭們已經打得火熱,蘋果也不可能沉寂太久。就在上個月,蘋果研究團隊已經發布一篇名爲《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的論文,正式公佈在多模態大模型領域的研究成果。

MM1是一個具有最高300億參數(另外還有30億和70億)的多模態大模型系列,由dense(密集)模型和MoE(混合專家)架構變體組成。該系列大模型在數個多模態基準、上下文預測、多圖像和思維鏈推理等方面均有不錯表現。

相較於AI大模型行業前沿激戰正酣的千億、萬億參數級別大模型,蘋果目前的大模型顯然不是一個以AGI(通用人工智能)爲目標的產品,但其階段性目標也明確在百億參數內的高性能表現上,即如何將AI大模型的能力更好與端側設備的本地運行能力相融合——這也是技術適應產品並推動產品的基本邏輯體現。

唯一特殊的地方在於,手機系統時代的蘋果以iOS的封閉生態爲最大賣點,但在AI大模型領域,它卻罕見選擇開源。至於具體原因,可能要靜待這家公司在WWDC2024(蘋果全球開發者大會)上更詳盡地闡釋。