螞蟻發起“隱私革命”

AI加快了整個行業邁向數據密態時代。

7月5日,在2024年世界人工智能大會上,螞蟻集團推出了螞蟻密算公司的第一款產品——“隱語Cloud”大模型密算平臺。

據螞蟻密算CEO王磊介紹,“隱語Cloud”大模型密算平臺主要提供兩個能力,分別爲大模型密態託管和大模型密態推理。

密態託管主要是解決大模型本身IP保護的問題,當大模型在雲上部署的時候,大模型會被加工成密態的,確保模型IP不會被別人偷去。大模型密態推理主要解決的是訪問信息的保護,訪問信息在整個的推理過程中都是密態的。

當下,高質量數據供給和安全流通,成爲大模型進入垂直產業應用的首要挑戰。大模型在垂直行業應用時,許多企業通過私有化部署來應對數據安全挑戰,這不僅增加企業的運維和服務成本,也影響對外服務的效率和質量。

專業數據通常分佈在不同機構和企業,因其高價值和保密性而難以共享。同時,企業、大模型廠商和用戶之間存在信任障礙:企業擔心數據泄露,廠商擔心模型資產安全,用戶則擔心個人隱私風險。

王磊透露,隱語Cloud平臺將提供全鏈路數據安全服務,覆蓋大模型從構建到服務的全過程。平臺將爲大模型的預訓練、微調、評測、推理和用戶交互提供密態計算,確保數據在提供方、使用方之間的安全流轉。此外,平臺還將提供包括密態檢索、提示詞和流程編排在內的全鏈路開發工具。

螞蟻集團副總裁兼首席技術安全官、螞蟻密算董事長韋韜認爲,數據供給決定了大模型應用能力的上限,而隱私計算技術決定了數據跨域供給的上限。當大模型從通用走向專業應用,從技術想象力走向產業的生產力,必須要解決高質量數據集稀缺與專業數據阻滯的挑戰,否則大模型作爲“智力引擎”,只會陷入空轉。

5月底,螞蟻集團宣佈了以AI和數據技術爲核心的科技戰略,併成立了浙江螞蟻密算科技有限公司,將提供密算相關的產品和服務,包括一套端到端的數據安全保障、一套軟硬件結合的計算加速解決方案和一個隱私計算雲服務平臺,推動數據安全可信的跨雲跨端低成本流通。

以下是華爾街見聞與螞蟻集團副總裁兼首席技術安全官、螞蟻密算董事長韋韜和螞蟻密算CEO王磊的對話實錄(經編輯):

提問:如何看待成本、安全和性能之間的關係?

王磊:安全一定是有成本的,這本質上包含兩個方面:首先,從商業視角看,隱私計算技術帶來的安全收益是否足夠抵消成本。例如,在數據泄露事件中,我們觀察到的損失動輒數百萬美元,因此,如果安全措施的成本低於潛在損失,那麼這些措施就是可接受的。其次,從技術角度出發,隨着技術的不斷迭代,相關成本將逐步降低。此外,隱私計算產品需要根據安全需求進行分級,對於價值不是非常高的數據,不必採用高成本的安全防護措施。在對數據進行安全分級的基礎上,技術措施也應相應分級。當數據的價值與其安全措施的成本相匹配時,這樣的安全策略纔是最經濟、最合理的。

提問:如何理解在加入密態計算流程後,服務成本反而降低的情況?此外,加入密態計算似乎增加了一個步驟,這將如何影響整個數據流通的效率,是提高還是降低?

韋韜:單純看技術鏈路肯定是成本更高,但從整個全鏈路來看,綜合考慮人爲因素、技術因素和合規因素等,實際上總成本是更低的。明文計算雖然在初期看似簡單,但一旦發生數據泄露,將會帶來巨大的損失,包括商業利益的損失和法律風險等。密態計算的研發將引發一場變革。目前,許多數據源方由於擔心數據泄露,不敢輕易共享數據。密態計算技術能夠使這些原本無法流通的數據得以安全流通,從而充分發揮數據的價值。

提問:隨着大模型的問世,人們普遍關注算力速度和價格這兩個問題。近兩年,許多獨立的隱私計算廠商發現生意越發難做。在我們的策略或方法中,當應用到具體的業務場景時,客戶通常在哪些方面會採用密態計算?

韋韜:在過去兩年中,隱私計算行業進行了大量嘗試,主要處於所謂的"桶裝水"階段,實現了點對點的連接。PSI(隱私計算求交)是目前應用最廣泛的技術之一,它允許兩個機構在保護各自用戶隱私的前提下,進行用戶羣體的交集計算。雖然這種技術在驗證單個環節方面表現良好,但其應用範圍相對有限,尚未實現數據流轉的全鏈路保護。

在整個研發過程中,數據源方對於數據泄露的擔憂仍然很大,這一問題尚未得到有效解決。當前的技術應用在深度和廣度上都還不夠。如果將"桶裝水"階段的技術擴展到大規模應用,成本將會非常高,而且整個流程缺乏一致性的保障,風險也未能得到有效控制。

王磊:隱私計算商業化之所以不再那麼熱門,主要有以下兩個原因:首先,隱私計算技術目前主要適用於小規模應用,且成本高昂,難以實現規模化,這導致了成本難以降低。只有擴大規模,成本纔有望降低。其次,傳統的商業模式主要是銷售軟件,這種高成本的交付模式並不利於隱私計算技術的應用和推廣。隱私計算的最終目標是促進數據的安全流通。

我們成立新公司後,也在深入思考這個問題。一方面,我們計劃採用雲化模式,包括即將推出的隱語Cloud等系列產品。我們認爲,只有通過雲服務,數據才能真正實現大規模流通,並應用於更復雜的場景,從而實現規模化並降低成本。同時,我們也將在端側推出相關產品,實現端雲協同。

另一方面,我們希望建立一種對結果負責的商業模式。這意味着在數據流通的整個過程中,我們能夠確保數據安全,從全鏈路的角度降低成本和法律風險。我們希望在這個過程中持續獲得收益,因爲數據價值得到了保障,從而從數據價值中獲得利潤。

我們希望引入保險公司,它能夠起到兩個作用:一是作爲獨立第三方,在事前對產品安全性進行評估,提供數據安全保險;二是在發生不可預見的黑天鵝事件時,提供事後保障。通過這個方式推動整個的產業良性地運作起來。這樣的機制將促進整個產業的良性運作。只有商業模式健康運轉,技術創新和迭代才能持續健康發展。

提問:在過去幾年中,市場上普遍認同了隱私計算技術的重要性,但在技術層面,對其是否爲一項必不可少的技術存在分歧。一些專家指出,儘管隱私計算的成本較高,但可能存在性價比更高的替代技術。隱私計算要獲得市場機構的廣泛認可,是否真的存在迫切的需求?它還需要克服哪些障礙?

韋韜:隱私計算技術的發展軌跡與光伏產業頗爲相似。光伏技術剛推出時成本高昂,不可能立即普及到所有行業。然而,隨着高需求行業率先採用並推動規模化生產,成本逐漸降低。當光伏發電成本降至與煤電相當的臨界點時,它便開始得到廣泛應用。

隱私計算同樣遵循這一模式,它將首先在高價值數據和場景中得到應用。儘管隱私計算解決的問題並非僅限於高價值數據,但當前數據泄露問題已經非常嚴重。許多機構的數據在暗網上被交易,造成嚴重後果。然而,這只是冰山一角,國內黑產的大量數據交易已經不僅限於暗網,這是一個非常危險的現象。數據泄露正在大規模發生,對社會造成巨大傷害,而傳統技術路徑無法有效保障數據安全。

當高價值數據和場景的行業首先建立起隱私計算體系,並實現規模化以降低成本時,它將能夠服務於更多行業。我們認爲,每個行業場景的臨界點是隱私計算的成本降至數據流通價值的5%左右,這將實現規模化推廣。

王磊:我也補充一下,先講一個概念,我們經常提到密態計算,雖然現在不再提及隱私計算,但隱私計算仍是行業的認知。我們之所以轉向密態計算,並非爲了炒個新的概念。在大家的印象中,隱私計算更多是基於多方安全計算和聯邦安全學習兩方做融合,融合的過程中增加保證參與者之間互相不能夠竊取到數據。其實在數據大規模流通過程中,很多應用場景並不是這個。

舉個很現實的例子,現在公共數據開放面臨什麼風險?數據要放到外網做開放,這裡面可能不涉及到數據融合,但有巨大的風險,這是他們不敢開放的原因。例如,將政務內網的數據轉移到外網平臺時,如何確保數據的安全性?即使運維公司是可信的,運維人員是否也同樣可信?他們是否可能通過拆卸硬盤或其他方式輕易地竊取數據?此外,在數據加工和使用過程中,即使是有正常權限的人員,也可能存在數據泄露的風險。

所以有很多的真正有價值的數據是不敢開放的,一直講開放,一直很難開放。密態計算通過密態的方式確保運維者沒有辦法竊取到數據,讓數據真正的開放流通起來。

隱私計算之前只應用到整個數據流通當中的一小環節一小部分環節,當數據真正大面積流通,我需要做到多方數據融合。我們認爲密態計算是下一代的隱私計算,希望解決數據更大規模流通中遇到的真正問題。