☰

Claude 3.5深夜覺醒，學會模仿人類用電腦！編程幹翻o1，Agent一夜變天

新智元報道

編輯：編輯部 HYZ

【新智元導讀】太科幻了，深夜上線的Claude，可以像人類一樣使用計算機了？查看屏幕、移動光標、點擊按鈕、輸入文本，還能查找代碼錯誤、自動蒐集信息填表。AI推理已至瓶頸，下一個爆破點，就是AI操作電腦！

Claude 3.5深夜迎來重磅升級！

不出所料，Anthropic AI這周終於有了大動作——首發Claude 3.5 Haiku，全新升級版Claude 3.5 Sonnet也來了。

不過，「超大杯」Opus依然沒有亮相。

讓人驚豔的是，進化後的Claude 3.5 Sonnet一舉擊潰OpenAI o1，堪稱最強推理模型。

它在各個方面得到了全面顯著的提升，尤其是業界領先的編碼能力。

而Claude 3.5 Haiku與上一代最強Claude 3 Opus性能相當，成本、速度與上一代Haiku相近。

甚至，Claude現在能夠像人類一樣操作計算機，不僅可以查看屏幕、移動光標，還可以單機按鈕、鍵入文本！

Anthropic開發者關係主管表示，「計算機使用」是全新人機交互範式的第一步。同時也是，AI模型應該具備的全新基礎能力。

許多做瀏覽器智能體的初創公司，一夜之間過時了。

網友們紛紛感嘆：Agent和工作流都要變天了……

會自己用電腦的AI來了？

在公測中，Anthropic引入一項突破性的新功能：計算機使用能力。從今天起，開發者可以通過API，指導Claude像人類一樣使用計算機了。

Claude 3.5 Sonnet是首個在公測中提供此功能的模型。

當然，這項功能仍處於實驗階段，使用起來還有些笨拙，可能出錯。而Anthropic選擇提前發佈此功能，也是爲了獲得開發者反饋，將之快速改進。

爲什麼要訓練AI操作電腦？

Anthropic表示，在過去幾年裡，強大的AI開發已經達到了許多里程碑，比如執行復雜邏輯推理，以及識別和理解圖像的能力。

而下一個突破點，就是AI操作電腦了！如果模型不必通過專門定製的工具進行交互，而是按指示就能使用所有軟件，這一定代表着未來的方向。

基本電腦操作

在這個demo中，Anthropic研究員給Claude提出了一個極有難度的挑戰：

Claude自行打開了Google，開始了搜索。

金門大橋和用戶居住地有多遠呢？Claude會自己打開地圖查找距離。

瞭解所需信息之後，它打開了日曆，爲主人安排好了日程。

自動編碼寫網站

開發者展示出Claude如何操控了自己的筆記本電腦，絲滑地完成了一個網站編程任務。

首先，Claude在小哥的Chrome瀏覽器中導航到了Claude.ai，並且讓Claude爲自己創造了一個90年代主題的個人主頁。

只見它自己輸入網址，鍵入提示，向另一個Claude發出請求。

Claude.ai返回了一些代碼，渲染出來的畫面看起來很不錯，但小哥希望在自己的電腦本地上對網站做一些修改。

於是他讓Claude下載文件，然後在VS Code中將其打開。Claude成功完成了這些指令。

然後小哥讓Claude啓動了一個服務器，然後就可以在瀏覽器中實際查看這個文件了。

Claude打開了VS Code終端，嘗試啓動一個服務器，然後卻遇到了錯誤：機子上並沒有安裝Python。

結果，通過查看終端輸出，Claude自己發現了這個問題！它用Python 3再次嘗試，成功運行起了服務器。

不過，終端輸出中有個錯誤，頂部還缺少了一個文件圖標。開發者小哥請Claude來識別這個錯誤，在文件中修復它。

令人驚喜的是，Claude在VS Code中找到了引發錯誤的行，刪除了整行，然後保存文件、重新運行網站。

這次，網站完全正確！

自動尋找數據填表

假設我們需要填寫一份來自「螞蟻設備公司」的供應商請求表，但需要填寫的數據散步在電腦的各個角落，Claude能幫我們完成嗎？

只見它開始截取小哥的屏幕截圖，並且很快發現：螞蟻設備公司並不在表格中。

這時，它立刻切換到CRM系統中，去搜索這個公司。找到後，它開始滾動頁面，查找填表所需的所有信息，然後提交了表格。

這也就意味着，我們工作中許多不得不做的繁瑣事項，都可以交由Claude代勞了！

現在，這個功能已經在API中可用了。

現在，Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司，已經在探索Claude的新潛能，讓它們執行數十步甚至數百步的複雜任務了。

比如，Replit正在利用Claude 3.5 Sonnet的計算機使用和用戶界面導航能力，爲Replit Agent開發功能，在構建應用程序過程中對其實時評估。

遠低於人類，但未來可期

新升級後的Claude 3.5 Sonnet，電腦使用能力究竟如何？

在 OSWorld測試中，它在僅基於屏幕截圖的任務類別中得分爲14.9%，明顯超越了排名第二的AI系統（7.8%）。

當允許更多操作步驟來完成任務時，Claude得分提高到了22.0%。

這表明模型與環境的多次交互，能夠優化任務性能。

雖然這一結果比之前有了大幅提升，但仍然遠低於人類72.36%的表現。

這也暗示了，Claude 3.5 Sonnet未來還有很大的改進空間。

畢竟，人類毫不費力完成的一些操作（滾動、拖動、縮放），目前對於Claude來說極具挑戰。

升級版Claude 3.5 Sonnet，編碼王者幹翻o1

在各項行業基準測試中，升級版Claude 3.5 Sonnet性能得到了全方位提升。

特別是，智能體編碼、工具使用任務中取得顯著突破。

論文地址：https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

在編碼能力方面，它在SWE-bench Verified測試中，性能從33.4%大幅提升至49.0%。

這超越了所有公開可用的模型——包括OpenAI o1-preview等推理模型和專爲智能體編碼設計的專門系統。

此外，在TAU-bench（一項評估智能體工具使用能力的基準測試）中，Claude 3.5 Sonnet也表現出色：

從下表中，可以看出推理測試基準GPQA（Diamond）上，新版Claude 3.5 Sonnet大幅超越GPT-4o。

在視覺QA、數學推理、文檔視覺問答、圖表問答、科學表格基準測試中，Claude 3.5 Sonnet性能成爲業界新標杆。

值得一提的是，新版Claude 3.5 Sonnet性能突破同時，仍保持了與前代模型相同的價格和運行速度。

一些早期測試用戶的反饋，進一步印證了升級後Claude 3.5 Sonnet，在AI驅動編碼領域實現「質」的飛躍。

GitLab：在DevSecOps任務測試中，發現Claude 3.5 Sonnet在不增加延遲的前提下，推理能力顯著提升（各用例最高提升10%），使其成爲驅動複雜軟件開發流程的理想選擇

Cognition：將新版Claude 3.5 Sonnet應用於自主AI評估，在編碼、規劃和問題解決等方面，相較前代模型均取得了實質性進步

The Browser Company：在使用該模型自動化網絡工作流程時發現，Claude 3.5 Sonnet的表現超越了他們此前測試過的所有模型

此外，在安全部署前，Claude 3.5 Sonnet已經在美國AI安全研究所（US AISI）和英國安全研究所（UK AISI）進行了聯合測試。

而且，經過自身評估，Anthorpic在「Responsible Scaling Policy」中制定的ASL-2標準仍然適用於新模型。

如前所述，升級版的Claude 3.5 Sonnet現在已經可以在網頁、終端APP上使用了。

API的定價起始爲每百萬輸入Token 3美元，每百萬輸出Token 15美元。

通過使用智能緩存技術可節省高達90%的成本，而使用批處理API則可節省50%成本。

應用場景

Claude 3.5 Sonnet能夠理解細微的指令和上下文，識別並糾正自身錯誤，還能從複雜數據中生成深入的分析和洞察。結合最先進的編碼、視覺識別和寫作能力，Claude 3.5 Sonnet可以被應用於各種場景。

- 模擬人類操作電腦

通過API集成Claude，開發者可以指導Claude像人類一樣使用電腦——通過觀察屏幕、移動鼠標、點擊按鈕和鍵入文字。Claude 3.5 Sonnet是首個能夠以這種方式可靠使用電腦的前沿AI模型，雖然目前在公開測試階段仍具實驗性質，但其能力會隨時間持續提升。

- 代碼自動生成

Claude 3.5 Sonnet可以協助整個軟件開發生命週期——從初始設計到錯誤修復，從系統維護到性能優化。可以直接將它被集成到產品中，或通過Claude.ai平臺將其用作智能編碼助手。

- 智能對話系統

憑藉增強的推理能力和親和、自然的語氣，Claude 3.5 Sonnet非常適合開發需要跨系統連接數據並執行操作的智能對話系統。

- 智能知識問答

Claude 3.5 Sonnet具有大規模上下文處理能力和極低的幻覺率，使其成爲處理大型知識庫、文檔和代碼庫問答任務的理想選擇。

- 視覺信息提取

Claude 3.5 Sonnet能夠輕鬆從圖表、圖形和複雜示意圖等視覺材料中提取信息——這使其成爲數據分析和數據科學任務的理想人工智能模型。

- 流程自動化

Claude 3.5 Sonnet能夠實現重複性任務或流程的自動化。它具備業界領先的指令執行能力，能夠處理複雜的流程和操作。

全新Claude 3.5 Haiku，智能超越上代老大哥

從上一代對標來看，Claude 3.5 Haiku稱得上是「最小杯」。

這是Anthropic速度最快的模型。

它不僅保持樂了與Claude 3 Haiku相同的運行成本和相近的處理速度，還在各項技能全面提升。

甚至，在多項智能基準測試中，Claude 3.5 Haiku超越了上一代最強大的模型Claude 3 Opus。

同樣，Claude 3.5 Haiku在編碼任務上的表現尤爲卓越。

比如，在SWE-bench Verified測試中，它取得了40.6%的高分，超越了許多使用公開可用的最先進模型的AI智能體——包括原始版本的Claude 3.5 Sonnet和GPT-4o。

Claude 3.5 Haiku具備了三點突出優勢：

1. 低延遲響應

2. 更精準的指令執行能力

3. 更準確的工具使用

這些特性使得模型特別適用於，面向用戶的產品開發、專門的子智能體任務處理、基於海量數據（如購買記錄、價格信息或庫存數據）生成個性化體驗。

本月末，Claude 3.5 Haiku將在多個平臺上推出，包括Anthropic API、Amazon Bedrock和谷歌雲的Vertex AI。（最初會以純文本模型形式推出，隨後會加入圖像輸入功能）

Claude 3.5 Haiku的定價起始爲每百萬輸入Token 0.25美元，每百萬輸出Token 1.25美元。

通過使用提示詞緩存技術可節省高達90%的成本，而使用消息批處理API則可節省50%的成本。

應用場景

憑藉快速的處理速度、改進的指令執行能力和更準確的工具使用，Claude 3.5 Haiku非常適合面向用戶的產品、專門的輔助任務，以及從海量數據中生成個性化體驗。

- 代碼自動補全

Claude 3.5 Haiku能夠提供快速、準確的代碼建議和補全，有效加速開發工作流程。特別適合那些希望簡化編碼過程並提高生產力的軟件開發團隊。

- 智能聊天機器人

藉助增強的對話能力和快速的響應時間，Claude 3.5 Haiku在驅動能處理大量用戶互動的響應式聊天機器人方面表現出色。對於需要可擴展互動能力的客戶服務、電子商務和教育平臺來說，它尤其有價值。

- 數據提取和自動標註

Claude 3.5 Haiku能高效處理和分類信息，在快速數據提取和自動標註任務中表現優異。這一能力對於需要處理金融、醫療保健和研究領域大量非結構化數據的組織特別有用。

- 自動實時內容審覈

Claude 3.5 Haiku通過其改進的推理和內容理解能力，提供可靠、即時的內容審覈服務。這對於那些需要大規模維護安全、適當內容的社交平臺、在線社區和媒體組織來說極具價值。

如何教會Claude操作電腦

Anthropic表示，人類輕鬆執行的操作——滾動、拖拽、縮放，目前對Claude來說仍然很有挑戰性。

而對於垃圾郵件、虛假信息、欺詐這類風險，公司正在尋找安全部署的策略，比如開發了識別系統，檢測是否發生危害。

研究過程

Anthropic在工具使用和多模態的工作，爲AI識別和解釋圖像奠定了基礎。

在此基礎上，Claude還需要推理如何以及何時根據屏幕內容執行操作。

爲此，研究者訓練Claude準確計算像素，從而完成命令，因爲它必須計算出需要垂直或水平移動鼠標指針多少像素，才能點擊正確的位置。

在此期間，Claude迅速將學習成功從計算器和文本編輯器這類簡單軟件的訓練中，遷移到了其他應用（注意，期間它不允許聯網）。

這種訓練讓它能將用戶指令轉化爲一系列邏輯步驟，執行操作。遇到障礙時，甚至還能自我糾正、重試任務。

小插曲

Anthropic開發者關係主管Alex Albert還分享了，團隊在開發計算機使用功能時的一個有趣故事。

當時，他們舉行了一場工程師的bug bash（漏洞排查活動），以確保發現API所有潛在的問題。

這意味着，要把一羣工程師關在一個房間裡幾個小時。

當時，恰好大家都餓了。其中一位工程師靈機一閃，「不如讓Claude來個實戰演習，自主打開DoorDash幫我們訂餐」。

沒想到，大約一分鐘後，Claude爲工程師們定來了披薩。

展望未來

AI操作電腦能力代表了一種全新的人工智能開發方法。

迄今爲止，LLM開發者一直在努力使工具適應模型，創造特殊的環境，讓AI使用專門設計的工具來完成各種任務。

現在，Anthropic「反其道而行之」——他們選擇讓模型去適應工具。也就是，Claude能像人類一樣，融入我們日常使用的計算機環境，直接使用現有的軟件。

雖然Claude已經達到了當前的最高水平，但它的操作仍然相對緩慢且容易出錯。我們日常使用電腦時的許多操作，如拖拽、縮放等，Claude都還無法做到。

此外，Claude目前觀察屏幕的方式類似於快速翻閱一本「畫冊」——通過連續截圖並拼接在一起，而不是觀察連續的視頻流。這意味着它可能會錯過一些短暫的動作或通知。

有趣的是，Anthropic在錄製Demo時，還遇到了一些有趣的小插曲。

比如，在一次演示中，Claude不小心點擊停止了一個長時間運行的屏幕錄製，導致所有錄像都付諸東流。

而在另一次編碼演示中，Claude則突然「走神」，開始饒有興趣地瀏覽起黃石國家公園的照片。

總之，Claude如今的表現讓人對未來充滿期待：AI操作電腦的能力將神速進步，那一天，軟件開發小白都能輕鬆使用它。

參考資料：

https://www.anthropic.com/news/3-5-models-and-computer-use

Claude 3.5深夜覺醒，學會模仿人類用電腦！編程幹翻o1，Agent一夜變天

相關資訊