☰

國際組織首次就大模型安全發佈標準多家中外科技企業參編

本報記者李暉北京報道

大語言模型技術自去年以來持續火爆，其安全問題一直是全球關注焦點。

第27屆聯合國科技大會正在瑞士日內瓦召開。日前，在以“塑造AI的未來”爲主題的AI邊會上，世界數字技術院（WDTA）發佈了一系列突破性成果，包括《生成式人工智能應用安全測試標準》和《大語言模型安全測試方法》兩項國際標準。這是國際組織首次就大模型安全領域發佈國際標準，代表全球人工智能安全評估和測試進入新的基準。

《中國經營報》記者獲悉，這兩項國際標準是由OpenAI、螞蟻集團、科大訊飛、谷歌、微軟、OPPO、百度、騰訊、Meta、英偉達等數十家企業的專家學者共同編制而成。

WDTA人工智能安全可信負責任工作組組長黃連金在會上表示，此次發佈的標準填補了大語言模型和生成式AI應用方面安全測試領域的空白，爲業界提供了統一的測試框架和明確的測試方法，有助於提高AI系統安全性，促進AI技術負責任發展，增強公衆信任。

近年來，全球均在加強對於大模型安全的研究和管控。2023年7月，國家網信辦頒佈《生成式人工智能服務管理暫行辦法》；2024年3月，全國網絡安全標準化技術委員會發布TC260-003《生成式人工智能服務安全基本要求》；2024年3月，歐盟通過《人工智能法案》……上述官方文件的發佈，對促進生成式人工智能安全可信發展，達成全球人工智能治理領域合作共識起到了推動作用。

在行業層面，大模型安全測試領域的國際標準一直尚未建立。

官方信息顯示，WDTA是在日內瓦註冊的國際非政府組織，遵從聯合國指導框架，致力於在全球範圍內推進數字技術，促進國際合作。AI STR（安全、可信、負責任）計劃是WDTA的核心倡議，旨在確保人工智能系統的安全性、可信性和責任性。OpenAI、谷歌、微軟、Meta、華爲、科大訊飛、螞蟻集團、中國電子、國際數據空間協會(IDSA)、弗勞恩霍夫研究所等均爲其成員單位。

據瞭解，此次發佈的兩項國際標準是大模型及生成式AI應用方面的安全測試標準。其中，《生成式人工智能應用安全測試標準》由WDTA作爲牽頭單位。該標準爲測試和驗證生成式AI應用的安全性提供了一個框架，特別是那些使用大語言模型（LLM）構建的應用程序。它定義了人工智能應用程序架構每一層的測試和驗證範圍，包括基礎模型選擇、嵌入和矢量數據庫、RAG或檢索增強生成、AI應用運行時安全等，確保AI應用各個方面都經過嚴格的安全性和合規性評估，保障其在整個生命週期內免受威脅和漏洞侵害。

另一項《大語言模型安全測試方法》由螞蟻集團作爲牽頭單位。該標準則爲大模型本身的安全性評估提供了一套全面、嚴謹且實操性強的結構性方案。它提出了大語言模型的安全風險分類、攻擊的分類分級方法以及測試方法，並率先給出了四種不同攻擊強度的攻擊手法分類標準，提供了嚴格的評估指標和測試程序等，可解決大語言模型固有的複雜性，全面測試其抵禦敵對攻擊的能力，使開發人員和組織能夠識別和緩解潛在漏洞，並最終提高使用大語言模型構建的人工智能系統的安全性和可靠性。

螞蟻集團機器智能部總經理、螞蟻安全實驗室首席科學家王維強在發言時表示，生成式AI將釋放巨大的生產力，但也要對它帶來的新風險高度警惕。

“大型科技公司應在促進生成式AI安全和負責任的發展中發揮關鍵作用，利用其資源、專業知識和影響力推動構建一個優先考慮安全、隱私和道德考量的生態系統。例如，通過制定行業標準與指南，爲開發和部署生成式AI系統的開發者和機構提供清晰指導；投入研發並開放保障生成式AI安全的工具，形成產業共治。”他表示。

記者瀏覽WDTA官網發現，上述兩項標準屬於AI STR計劃的重要成果。該計劃工作內容包括：爲安全、值得信賴和負責任的人工智能開發和部署制定最佳實踐、指南和框架；倡導促進負責任的人工智能發展的政策框架，並與利益相關者合作，提高對人工智能相關風險和機遇的認識，培育負責任的人工智能使用文化；建立認證和認可計劃，以驗證人工智能系統是否符合安全、可信和負責任標準，爲利益相關者和消費者提供保證等。

目前，AI STR計劃已經形成《全球人工智能治理宣言》《關於人工智能未來機遇和風險的報告》以及上述兩項標準等文件。

（編輯：何莎莎審覈：朱紫雲校對：劉軍）

國際組織首次就大模型安全發佈標準 多家中外科技企業參編

相關資訊

國際組織首次就大模型安全發佈標準多家中外科技企業參編