微軟顛覆生產力:AI PC原生支持PyTorch,奧特曼預告新模型

AI 生產力的未來會是什麼樣子?全世界都在等待微軟的答案。

5 月 22 日凌晨,微軟 Build 2024 開發者大會在美國西雅圖召開,今天的發佈有關 AI 技術,更有關 AI 帶來的新工具。

「三十多年來,微軟對於計算機一直有兩個夢想 —— 首先是讓計算機理解我們,而不是我們去理解計算機;其次,在信息不斷增加的世界中,讓計算機幫助我們根據信息有效地進行推理、計劃和行動。人工智能浪潮已經爲我們的夢想找到了答案,」微軟 CEO 薩蒂亞・納德拉說道。

今天 Build 大會的內容主要最新的 Copilot,適用於生成式 AI 的新形態硬件,以及使用新 AI 能力的工具堆棧。

當然,除了大量應用整合、與 AI 創業公司、硬件廠商的合作,還有微軟自研的全新 AI 大模型。

Copilot+PC,有專用端側模型

原生支持 PyTorch

首先是有關 PC 新形態 Copilot+PC 的內容。微軟表示,將於 618 上市的首批機型會搭載高通 Snapdragon X 系列處理器,在今年晚些時候將推出更多基於英特爾和 AMD 處理器的此類設備。

目前已推出的版本因爲 NPU 擁有 40+ TOPS 的 AI 算力,運行 AI 工作負載的能力增強了 20 倍,效率提高了 100 倍。這樣的硬件基礎,讓 AI PC 絕不是接入雲端的 GPT-4o 那麼簡單,Windows 現在從三個層面提供 AI 體驗。

Windows Copilot 堆棧現在通過 Windows Copilot Runtime 擴展到了 Windows 上,人工智能對系統進行了自內而外的改造,使開發人員能夠加速 Windows 上的人工智能開發。

納德拉表示,Windows Copilot Runtime 包含一組 API,由 Windows 附帶的 40 多個端側 AI 模型提供支持,包括一種名爲 Phi-Silica 的小語言模型(SLM),專爲 Copilot+ PC 中的 NPU 設計。他們會被用於智能搜索、實時翻譯、圖像生成和處理等任務。

微軟表示,Phi-Silica 完全使用 NPU 進行推理,首個 token 輸出速度爲 650 token/s,僅消耗約 1.5 瓦的電量,可以讓 CPU 和 GPU 同時用於其他計算任務。持續運行時,文本生成重用 NPU 中的 KV 緩存並在 CPU 上運行,每秒生成約 27 個 token。

微軟提出了 Windows 語義索引,這是一種新的操作系統功能,重新定義了 Windows 上的搜索並支持 Recall 等新體驗。稍後,微軟將向使用 Vector Embeddings API 的開發人員提供此功能,以便人們在應用程序中基於數據構建自己的矢量存儲和 RAG。

新的 Copilot+PC 還自帶原生的人工智能框架和工具鏈,方便開發人員將自己的端側模型引入 Windows。微軟正式宣佈通過 DirectML,PyTorch 和 Web 神經網絡現在將在 Windows 上本地運行。這將爲開發人員提供更多可用的工具,允許數千個 Hugging Face 模型在 Windows 上運行。NPU 也可以幫助這些工具比以往更快的速度完成任務。

就像 DirectX 之於圖形處理一樣,DirectML 是 Windows 中用於機器學習的高性能低級 API。DirectML 對微軟的獨立硬件供應商 (IHV)合作伙伴爲 Windows 生態系統提供的不同硬件進行抽象,並支持 GPU 和 NPU,CPU 集成也即將推出。它集成了 AI 領域的相關框架,例如 ONNX Runtime、PyTorch 和 WebNN。

此外,Windows Subsystem for Linux(WSL)可以同時運行 Windows 和 Linux 工作負載,爲 Windows 上的 AI 開發提供平臺。開發人員可以在不同環境之間輕鬆共享文件、GUI 應用程序、GPU 等,無需額外的設置。

昨天,微軟向世界介紹了全新的 Windows 11 AI PC,再加上今天在 Build 開發者大會上宣佈的強大功能,Windows 正在成爲極具開放性的 AI 平臺和開發者平臺。

這些進化,似乎會把開發者們瞬間從 Mac 上吸引過來。

Copilot 持續升級

開始卷團隊協作

接下來是一系列面向個人和團隊的 AI 生產力提升。

圍繞 AI 軟件開發能力,GitHub 推出首套由微軟和第三方合作伙伴開發的 GitHub Copilot 擴展,現已開啓受邀預覽。新增功能允許開發者、企業通過其偏好的服務(如 Azure、Docker、Sentry 等)直接在 GitHub Copilot 智能副駕駛 Chat 中定製其 GitHub Copilot 智能副駕駛體驗。

作爲微軟推出的擴展功能之一,GitHub Copilot 智能副駕駛 for Azure 展示瞭如何利用自然語言和更廣泛的功能來提高開發速度。通過 Copilot 智能副駕駛 Chat 使用該擴展,開發者可以探索和管理 Azure 資源,同時排除故障、查找相關日誌和代碼。

在本次大會上,微軟展示了 Copilot 如何提升組織的團隊協作和業務效率。納德拉主要介紹了以下三個升級:

Team Copilot

Team Copilot 使 Copilot 不再只是個人助理,而成爲有價值的團隊成員,與其他成員一起參與並做出貢獻。當然,你全程掌控,將任務或職責分配給 Copilot,使得整個團隊共同提高效率、協作和創造力。

Team Copilot 可以在 Microsoft Teams、Microsoft Loop、Microsoft Planner 等協作應用中使用。

具體而言,Team Copilot 可以扮演以下三種角色。

一是會議主持人。Copilot 通過管理議程和記錄會議中共同撰寫的筆記,使會議中的討論更加富有成效。

小組協作者:Copilot 幫助每個人從聊天中獲得更多收穫,展示最重要的信息,跟蹤行動項目,並解決未解決的問題。

項目經理:Copilot 通過創建和分配任務、跟蹤截止日期以及在需要團隊成員輸入時通知他們,確保每個項目順利進行。

這些功能將於 2024 年晚些時候,在預覽版中提供給擁有 Microsoft Copilot for Microsoft 365 許可證的客戶。

Agents

Agents 是可以實現業務流程自動化的全新自定義 Copilot。每個業務流程都有待提高效率和釋放新價值,並且每個流程都各不相同。

因此,微軟宣佈 Microsoft Copilot Studio 推出新功能,可以構建自定義 Copilot,作爲 Agents 在客戶的指導下獨立工作。Agents 的功能包括如下:

如下爲創建自定義 Copilot(即 Agents)的演示。

這些 Agents 功能可供搶先體驗計劃(Early Access Program)中的客戶使用。

此外,微軟通過 Copilot 擴展和 Copilot 連接器進一步豐富了 Copilot 的功能。

藉助新的 Copilot 擴展,任何人都可以輕鬆地自定義 Copilot 操作並將 Copilot 擴展到他們的數據和業務線系統。開發人員可以使用 Copilot Studio 或 Teams Toolkit for Visual Studio 構建這些擴展。

微軟還在 Copilot Studio 中引入了 Copilot 連接器,讓開發人員可以更輕鬆、更快速地創建 Copilot 擴展。

這一系列能力,可以讓開發者們更方便地把人工智能納入到自己的產品和服務體系中。

小模型 Phi-3 家族上新

多模態 Phi-3-Vision 亮相

作爲 OpenAI 最新發布的旗艦模型,GPT-4o 現可在 Azure AI Studio 中使用,也可作爲 API 使用。這一開創性的多模態模型集成了文本、圖像和音頻處理,爲生成式和對話式 AI 體驗設定了新標準。

微軟開發的 AI 小語言模型(SLMs)Phi-3 系列也發佈了一款新的多模態模型 ——Phi-3-vision,並已可在 Azure 中使用。

開發者可在 Azure AI Playground 中體驗這些最先進的前沿模型,並能在 Azure AI Studio 中開始構建和定製模型。

作爲以創新智能手機和智能設備享譽全球的全球科技品牌,OPPO 正在將 Azure AI 語音轉文本(speech-to-text)、快速轉錄(Fast Transcription)和 Azure AI 文本轉語音(text-to-speech)技術在其新款智能手機上試點,以期爲客戶帶來全新體驗。

Phi-3 模型家族現有四個模型,每個模型都根據微軟負責任的 AI、安全標準進行指令調整和開發,以確保可以直接使用。

其中,Phi-3-vision 是 Phi-3 家族中的第一個多模態模型,它將文本和圖像結合在一起,並能夠推理現實世界的圖像以及從圖像中提取和推理文本。該模型還針對圖表理解進行了優化,可用於生成見解和回答問題。

Phi-3-vision 以 Phi-3-mini 的語言功能爲基礎,繼續在小模型中整合強大的語言和圖像推理質量。如下圖所示,Phi-3-vision 可以從圖表和圖解中生成見解。

Phi-3-small 和 Phi-3-medium 的表現優於同等規模以及規模更大的語言模型。

7B 參數的 Phi-3-small 在各種語言、推理、編碼和數學基準測試中擊敗了 GPT-3.5 Turbo。

14B 參數的 Phi-3-medium 延續了這一趨勢,並且表現優於 Gemini 1.0 Pro。

4.2B 參數的 Phi-3-vision 在一般視覺推理任務、OCR、表格和圖表理解任務中,表現優於 Claude-3 Haiku 和 Gemini 1.0 Pro V 等更大的模型。

當然,Phi-3-vision 模型是開源的。

Hugging Face 地址:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

這一模型的發佈令研究者們興奮不已,有人已經開始暢想其在機器人領域的應用了。

從 Phi-3 到 Phi-Silica,我們可以看到微軟對大模型的探索聚焦於應用,與自己支持的 OpenAI 區分了生態位。

最強氣氛組 ——OpenAI CEO 奧特曼

在微軟官宣了一系列更新後,OpenAI CEO 奧特曼也來到了活動現場以示支持。他鼓勵開發者和初創公司利用當前的人工智能熱潮,認爲這是自移動設備繁榮甚至互聯網出現以來最令人興奮的時刻。

在模型方面,奧特曼透露,未來,GPT-4o 將變得更快,但更便宜。他還很高興地預告,下一個大模型即將問世。微軟爲這項工作建造了一臺更大的超級計算機(如同虎鯨一樣規模的超算)。

奧特曼暗示,新的模態和整體智能將是 OpenAI 下一個模型的關鍵。「最重要的一點,聽起來也是我能說的最無聊的一點...... 模型會變得越來越智能,總的來說是全面智能。」

不過,他也指出,新技術並不能讓開發人員擺脫艱苦的工作。這項工作還有待完成。開發者必須弄清楚如何讓這些技術對人們有用。他說,最好不要忘記,將這些新技術帶入生活並不容易。

https://azure.microsoft.com/en-us/blog/new-models-added-to-the-phi-3-family-available-on-microsoft-azure/

https://www.microsoft.com/en-us/microsoft-365/blog/2024/05/21/new-agent-capabilities-in-microsoft-copilot-unlock-business-value/?ocid=FY24_soc_omc_br_x_TeamCopilot

https://blog.fabric.microsoft.com/en-US/blog/introducing-real-time-intelligence-in-microsoft-fabric/

https://blogs.windows.com/windowsdeveloper/2024/05/21/unlock-a-new-era-of-innovation-with-windows-copilot-runtime-and-copilot-pcs/