OpenAI 推出 ChatGPT 深度研究代理
OpenAI 今天在 ChatGPT 中推出了深度研究功能,這是一個新的代理工具,它需要較長時間對網絡進行深入搜索,以便對查詢提供更全面的響應。
據 OpenAI 介紹,這個新代理將"查找、分析和綜合數百個在線資源,創建一份分析師級別的綜合報告"。它使用該公司即將推出的 o3 模型的一個版本來搜索互聯網信息,並根據搜索到的內容進行相應調整。
完成一次深度研究可能需要 5 到 30 分鐘不等。OpenAI 聲稱:"它能在幾十分鐘內完成人類需要數小時才能完成的工作。"
OpenAI 發佈了大量數據來支持其聲明。在"人類最後考試"評估中 (這是一個包含 100 個學科共 3000 個問題的數據集,用於對大語言模型進行基準測試),OpenAI 深度研究的準確率達到了 26.6%。相比之下,GPT-4o 爲 3.3%,Grok-2 爲 3.8%。
用戶可能會有似曾相識的感覺。Google 於 2024 年 12 月 11 日向 Gemini Advanced 訂閱用戶推出了深度研究功能,並聲稱該技術可以爲用戶"節省數小時時間"。
Google 的深度研究通過創建多步驟研究計劃工作,用戶可以選擇修改或批准。一旦獲得批准,機器人就會代表用戶搜索互聯網。
OpenAI 的深度研究更側重於向 ChatGPT 提問,可能還會添加電子表格等額外資源作爲上下文,然後讓它運行。結果包括引用和代理如何得出響應的總結。但是,用戶仍然有責任參考和驗證軟件返回的信息。
驗證仍然是必要的:根據 OpenAI 的內部評估,與現有的 ChatGPT 模型相比,不準確性和幻覺的發生率較低。"它可能難以區分權威信息和謠言,目前在置信度校準方面表現較弱,經常無法準確傳達不確定性。"
深度研究代理僅對每月支付 200 美元的 Pro 用戶開放。Plus 和 Team 用戶將是下一批獲得訪問權限的用戶,之後是 Enterprise 用戶。目前允許每月進行 100 次查詢,不過 OpenAI 表示,隨着公司發佈由小型模型支持的更快版本,付費用戶很快就會獲得"顯著更高的使用限制"。
時機恰逢中國初創公司 DeepSeek 推出 AI 模型之後,這很有趣。DeepSeek 聲稱其模型具有更高的效率和性能。至於 OpenAI?美國公司今天表示:"ChatGPT 中的深度研究目前非常計算密集。"
OpenAI 的深度研究代理目前僅支持網頁版,不過計劃在一個月內推廣到移動和桌面應用程序。該公司還計劃允許客戶通過連接更專業的數據源來擴展代理的研究範圍。
從長遠來看,OpenAI 設想將深度研究與可以採取實際行動的 Operator 相結合,"使 ChatGPT 能夠執行越來越複雜的任務"。