國際組織首次就大模型安全發佈標準 多家中外科技企業參編

本報記者 李暉 北京報道

大語言模型技術自去年以來持續火爆,其安全問題一直是全球關注焦點。

第27屆聯合國科技大會正在瑞士日內瓦召開。日前,在以“塑造AI的未來”爲主題的AI邊會上,世界數字技術院(WDTA)發佈了一系列突破性成果,包括《生成式人工智能應用安全測試標準》和《大語言模型安全測試方法》兩項國際標準。這是國際組織首次就大模型安全領域發佈國際標準,代表全球人工智能安全評估和測試進入新的基準。

《中國經營報》記者獲悉,這兩項國際標準是由OpenAI、螞蟻集團、科大訊飛、谷歌、微軟、OPPO、百度、騰訊、Meta、英偉達等數十家企業的專家學者共同編制而成。

WDTA人工智能安全可信負責任工作組組長黃連金在會上表示,此次發佈的標準填補了大語言模型和生成式AI應用方面安全測試領域的空白,爲業界提供了統一的測試框架和明確的測試方法,有助於提高AI系統安全性,促進AI技術負責任發展,增強公衆信任。

近年來,全球均在加強對於大模型安全的研究和管控。2023年7月,國家網信辦頒佈《生成式人工智能服務管理暫行辦法》;2024年3月,全國網絡安全標準化技術委員會發布TC260-003《生成式人工智能服務安全基本要求》;2024年3月,歐盟通過《人工智能法案》……上述官方文件的發佈,對促進生成式人工智能安全可信發展,達成全球人工智能治理領域合作共識起到了推動作用。

在行業層面,大模型安全測試領域的國際標準一直尚未建立。

官方信息顯示,WDTA是在日內瓦註冊的國際非政府組織,遵從聯合國指導框架,致力於在全球範圍內推進數字技術,促進國際合作。AI STR(安全、可信、負責任)計劃是WDTA的核心倡議,旨在確保人工智能系統的安全性、可信性和責任性。OpenAI、谷歌、微軟、Meta、華爲、科大訊飛、螞蟻集團、中國電子、國際數據空間協會(IDSA)、弗勞恩霍夫研究所等均爲其成員單位。

據瞭解,此次發佈的兩項國際標準是大模型及生成式AI應用方面的安全測試標準。其中,《生成式人工智能應用安全測試標準》由WDTA作爲牽頭單位。該標準爲測試和驗證生成式AI應用的安全性提供了一個框架,特別是那些使用大語言模型(LLM)構建的應用程序。它定義了人工智能應用程序架構每一層的測試和驗證範圍,包括基礎模型選擇、嵌入和矢量數據庫、RAG或檢索增強生成、AI應用運行時安全等,確保AI應用各個方面都經過嚴格的安全性和合規性評估,保障其在整個生命週期內免受威脅和漏洞侵害。

另一項《大語言模型安全測試方法》由螞蟻集團作爲牽頭單位。該標準則爲大模型本身的安全性評估提供了一套全面、嚴謹且實操性強的結構性方案。它提出了大語言模型的安全風險分類、攻擊的分類分級方法以及測試方法,並率先給出了四種不同攻擊強度的攻擊手法分類標準,提供了嚴格的評估指標和測試程序等,可解決大語言模型固有的複雜性,全面測試其抵禦敵對攻擊的能力,使開發人員和組織能夠識別和緩解潛在漏洞,並最終提高使用大語言模型構建的人工智能系統的安全性和可靠性。

螞蟻集團機器智能部總經理、螞蟻安全實驗室首席科學家王維強在發言時表示,生成式AI將釋放巨大的生產力,但也要對它帶來的新風險高度警惕。

“大型科技公司應在促進生成式AI安全和負責任的發展中發揮關鍵作用,利用其資源、專業知識和影響力推動構建一個優先考慮安全、隱私和道德考量的生態系統。例如,通過制定行業標準與指南,爲開發和部署生成式AI系統的開發者和機構提供清晰指導;投入研發並開放保障生成式AI安全的工具,形成產業共治。”他表示。

記者瀏覽WDTA官網發現,上述兩項標準屬於AI STR計劃的重要成果。該計劃工作內容包括:爲安全、值得信賴和負責任的人工智能開發和部署制定最佳實踐、指南和框架;倡導促進負責任的人工智能發展的政策框架,並與利益相關者合作,提高對人工智能相關風險和機遇的認識,培育負責任的人工智能使用文化;建立認證和認可計劃,以驗證人工智能系統是否符合安全、可信和負責任標準,爲利益相關者和消費者提供保證等。

目前,AI STR計劃已經形成《全球人工智能治理宣言》《關於人工智能未來機遇和風險的報告》以及上述兩項標準等文件。

(編輯:何莎莎 審覈:朱紫雲 校對:劉軍)