數據“大家”談 I 鄔賀銓:AI時代的數據要素開發與治理

文 | 中國工程院院士 鄔賀銓

人工智能概念的提出已有60多年時間,但直到1997年IBM的深藍計算機戰勝國際象棋大師才爲大衆所知,不過基於專家系統經驗的智能有限。 2016年,AlphaGo戰勝世界圍棋高手初顯大數據實力,但也只是在規則下的算法熟能生巧,類似的方法推動了自然語言識別與人臉識別技術的發展。

2022年底,ChatGPT的問世標誌着人工智能從判別式發展到生成式的跨越,雖然目前的大模型只是針對特定任務和指定模態,離通用人工智能還有不少距離,但語言大模型讓機器初步具有常識,懂得推理,學會創作,讓人和機器能以較自然的方式互動,通過與周邊工具的結合,表現出擬人的智能。 與AlphaGo將數據作爲查詢和判別的依據不同,ChatGPT可以說讀透與消化了數據,融會貫通計上心來,得出源於數據高於數據的結論。

生成式大模型賦予數據以新的生命力,AI時代大數據蘊含的價值將進一步涌現。 數據因AI而變得越來越重要,數據要素是新型生產力的代表,數據挖掘能力成爲新時代的國家重要競爭力。

培育數據資源,促進開放共享

數據是生產和生活過程的記錄及對自然觀察的結果。2022年中國人口占全球18%,網民佔全球21.5%,GDP佔全球18.06%。據國家網信辦《數字中國發展報告(2022年)》數據顯示,2022年我國數據產量達8.1ZB,同比增長22.7%,全球佔比爲10.5%,位居全球第二;我國數據存儲量達724.5EB,同比增長21.1%,全球佔比爲14.4%。中國產生和存儲的數據在全球的佔比均低於中國的人口、網民和經濟規模在全球的比例。據Synergy Research Group截至2021年Q3季度統計,美國大規模數據中心在全球佔比高達49%,其次是中國佔比爲15%。可見我國數據存儲量與美國相比差距還比較大,這反映了我國在社會信息化和產業數字化程度上仍落後於美國,加快數字中國的建設將有望儘快改變這一狀況。

政府與研究機構及企業都會存儲大量數據,其中政府掌握全社會數據約80%,而且是高質量數據,但主要卻僅供內部使用甚至是本部門內小單位各自存儲和使用而非共享,數據利用率不高。需要從制度上明確共享內容、權限和責任,促進政府部門間數據共享,更精準地把握社會和經濟運行全局,提升政府部門間工作的協同性。

與共享相比,數據開放更是社會數字化的標誌之一,政府及企事業單位掌握的公共數據具有很強的社會性,政府開放數據對提升政府公信力、降低社會成本,帶動數字經濟發展有重要作用。國際上將政府數據開放作爲數字政府的重要衡量指標,據《聯合國電子政務調查報告2022》數據顯示,從2012年到2022年的十年間,中國在線服務指數從0.5294上升到0.8876,在193個國家中排名從第62位上升到第15位,愛沙尼亞、芬蘭、韓國位居前三,美國第8,日本第9。我國還存在政務數據標準規範體系待健全、政務數據統籌管理機制待完善,政務數據安全保障能力待加強的問題,需要從建設數據流通基礎制度體系入手,加快數據立法,完善制度規範,統籌協調推進,編制數據目錄,分類分級管理,夯實共享開放機制,提升安全保障。

除了政府開放數據以外,社會公共數據的開源開放也表徵數據流通的水平。人工智能生成內容(AIGC)大模型都是利用語料庫訓練的,一些互聯網大廠利用電商、社交、搜索等業務收集和標註了海量的語料供自身訓練大模型使用,沒有語料積累的企業和研究機構雖然可以從網絡獲得語料,但自媒體內容質量良莠不分,未經清洗與標註就用作大模型的訓練語料其效果堪憂。ChatGPT大模型訓練時使用了開源語料庫,但中文詞元(Token)佔比不到0.1%,還不及一些小語種的比例,其中的原因與中文開源語料庫數量少和規模小有關。國內高校也有數億到數十億字的語料庫但尚未開源。國內一些語言大模型直接採用國外開源語料庫訓練,在價值觀的把控上存在潛在風險,建議對面向公衆開放應用的對話類大模型需要做語料來源的評估。面向重要應用場景的大模型不宜強調訓練用數據免標註和無監督學習,還是要採用經過清洗標註的數據集和保留人工微調,即有監督學習環節。

行業大模型的訓練也面臨挑戰,專業數據沒有通用數據容易獲得,行業內的企業間往往不願共享專業數據。爲此有必要建立高質量國家級重要行業領域基礎知識庫、數據庫、資源庫等。此外要鼓勵社會數據要素的合理流動和利用。中共中央、國務院《關於構建數據基礎制度更好發揮數據要素作用的意見》提出,依法規範、共同參與、各取所需、共享紅利的發展模式,將合理降低市場主體獲取數據的門檻,增強數據要素共享性、普惠性,激勵創新創業創造。

生成式大模型賦予數據以新的生命力,AI時代大數據蘊含的價值將進一步涌現。

大模型驅動數據範式創新

基礎大模型通常從通用語料訓練生成,通識能力強,從聊天對話入手容易反饋迭代優化,但聊天難成剛需,落地行業應用將更顯大模型的價值,但基礎大模型缺乏行業專業知識,需要大模型提供方與垂直行業合作開發行業大模型。

一種模式是企業將數據交基礎大模型進行再訓練,待調優至理想後再進行知識蒸餾、量化及針對特定場景遷移等縮小模型規模的工作,但後續模型微調和雲邊端部署等仍需算法工程師支撐,企業技術力量不足還得依賴模型提供方,企業數據交到模型提供方有數據泄漏風險,但數據不全面則會導致訓練效果差。

另一種模式是企業具有算法工程師,按照特定業務場景以專有數據對基礎大模型進行微調,形成行業大模型或多個基於實際業務的小模型,最好是在預訓練階段就加入垂直行業企業的數據,預訓練和指令微調交錯進行,提高模型對行業知識的表達、理解、遷移和泛化能力。

一些強監管、重數據安全的行業核心企業,例如頭部金融機構等,通常不會在第三方基礎大模型上構建專業大模型,而是採用數據私有化、模型私有化、本地私有云方式構建大模型,即在加密環境中使用私有數據訓練專業大模型,但需要面對成本與技術門檻高的挑戰。總的來說,無論自建或合作開發行業大模型,數據安全都是前提,既掌握大模型訓練技術又熟悉行業專業知識的人才是關鍵。

中小企業因資金、技術和人才的限制,少有能力與基礎大模型提供方合作開發行業大模型,MaaS(模型即服務)應運而生,這是針對中小企業而提出的服務模式,MaaS部署在中小企業本地設備上或公有云上,以小切口嵌入PaaS與SaaS間,並提供調用基礎大模型的接口,可加入企業自身數據對模型精細化調整,從而將大模型能力嵌入到SaaS產品上,解決了傳統SaaS面臨的客戶定製化需求和標準化產品規模化盈利之間的難題。基於MaaS通過大模型可優選小程序及配套的低代碼開發和模型編排等工具,PaaS可據此搭建低代碼平臺,豐富工具軟件,實現數據和功能的定製化,以MaaS方式使中小企業上雲的同時使用個性化的小模型,爲數字化轉型提供智能解決方案。

當前大模型不僅是一種技術,它重塑了數據要素生態鏈,引領產業研究開發應用的範式變革,標誌着信息化發展從網絡驅動到數據驅動。面對大模型浪潮,需要在國家戰略與規劃部署下,統籌推進政產學研用,引導“百模併發”形成合力,避免資源分散和低水平重複,實現數據採集匯聚、加工處理、流通交易、開發應用全鏈條協同。

數據助力社會治理信息化

習近平總書記指出“隨着互聯網運用普及和大數據等技術快速發展,國家治理正逐步從線下向線下線上相結合轉變,從掌握少量‘樣本數據’向掌握海量‘全體數據’轉變,這爲推動治理模式變革、提升國家治理現代化水平提供了有利條件”。 從網格化管理、精細化服務、信息化支撐的基層治理平臺,到一網統攬一網通辦的城市大腦,利用大數據、人工智能、物聯網等信息化手段感知社會態勢、暢通溝通渠道、支持快速響應,推進政府決策科學化、社會治理精準化、公共服務高效化。 特別是AIGC技術的應用,重構政府與民衆之間的互動過程,大模型能夠提升對現實生活中複雜大系統問題的處理能力,能夠精準防控社會發展中的風險,能夠有力維護政治穩定和社會安全,進一步促進經濟發展和社會進步。

AI特別是生成式大模型技術是雙刃劍,其推理過程不透明,解答有自圓其說的成分,尤其使用了未經鑑別的語料訓練用於社會治理的大模型,可能會觸發對公衆的誤導,甚至引起價值觀的衝突。AI技術也可能被濫用或惡意利用來製造虛假新聞,引發社會傳播風險,危害國家安全。我們既要用AI來輔助社會治理也要治理AI行爲,但不能因AI的使用可能失控而限制對AI技術的研究與應用,AI技術需要在應用中反饋和迭代升級。

當前,國際貿易、科技合作、人員往來不可避免數據跨境流動,數據的社會治理也面臨對外開放的挑戰,解決之道是AI監管制度體系建設與AI技術研究並重,發展與安全治理協同,使AI的監管創新與技術發展相輔相成,以技術手段和治理規範兩手應對大模型的算法偏見和倫理道德失序,以法律法規防止各類數據安全事件發生和維護國家安全。

爲此,首先需要按照《關於構建數據基礎制度更好發揮數據要素作用的意見》,儘快完善數據產權制度、數據要素流通和交易制度、數據要素收益分配製度、數據要素治理制度,爲AI技術的發展與治理提供行爲規範。

其次是重視數據監管的技術創新,APN6(基於IPv6的應用感知網絡)和iFIT(基於IPv6的隨流檢測)可以標註IP流的屬性,包括數據類型和對IP流路徑溯源,有利於對跨境數據流動的管理,IPv6的多歸屬特性可以分流敏感數據。多方計算等技術可以在不同所有者的數據融合時做到數據可用不可見。加快各類數據監管和數據安全技術的研究已成當務之急,要爲數據管理規範儘快填補技術支撐手段的不足或缺失。

當前大模型不僅是一種技術,它重塑了數據要素生態鏈,引領產業研究開發應用的範式變革,標誌着信息化發展從網絡驅動到數據驅動。

加快數據基礎設施建設

大模型的數據訓練與推理都需要算力支撐,中國2022年算力總規模爲180Eflops,低於2021年美國的200Eflops,其中智能算力2022年中國爲41Eflops,不及2021年美國的65Eflpos,這反映了我國在大模型的數據訓練和推理算力上的差距。

算力的建設是市場行爲,但國家統籌推進將優化資源的利用和產業的合理佈局。 “東數西算”作爲國家戰略部署具有中國特色,反映我國區域經濟、地理氣候特點和能源分佈的格局,政府之手的作用在東西部數據資源配置與有效應用上不是可有可無的。 西部不足之處是數據中心產業配套能力薄弱和人才短缺,需要同步規劃佈局數據清洗標註、數據機房產品及服務業的培育發展,延伸產業鏈上下游,在做好承接東部的溫冷數據的存算的同時,還要帶動起當地熱數據的上雲服務,使西部的數據集羣發展形成良性循環。

算力的佈局需要處理好幾方面的關係,一是通用算力與智能算力的合理比例,通用算力以CPU爲主,適合處理政務、智慧城市和智能客服等數據/計算密集的事務性任務;智能算力以GPU爲主,適合做大模型的訓練,注意到在數據訓練過程中還需要算法工程師介入和微調,智算中心適於在數據源集中和算法工程師聚集地建設,不宜全面開花,動用財政資金支持的大型智算中心的建設應慎重規劃。

二是自建算力與雲原生算力,很多單位有自建算力的積極性,但麥肯錫報告顯示,商用和企業數據中心的服務器很少超過6%的利用率,通常高達30%的服務器帶電閒置。需要鼓勵中小企業從自購AI服務器搭建數據中心向採購雲服務轉變,既降低成本又提高利用率,增強抗DDoS的能力及減碳;需要引導縣級地方政府使用省地集中建設的政務雲代替獨立採購IT基礎設施。

三是存算比例,存力與算力需配合,內存與算力合理比例是GB/Gflops爲1,避免因存力短缺造成算力等待而影響處理效率,據華爲/羅蘭貝格報告,2020年美國爲1:0.9,中國爲1:2.4。

四是災備容量與主用數據中心存儲容量之比,數據中心需異地雙容災備份,關鍵數據實現本地雙活,2020年當年數據災備保護佔數據中心存儲投資的比例全球平均爲27.4%,而我國只有7.8%,需重視改進。

數據作爲生產要素是經濟理論與實踐的創新。數據與土地、勞動力、資本等傳統生產要素不同,數據要素的開發與治理有很多需要深入研究的問題,例如數據的可複製性、使用無損性等導致數據產權和安全管理邊界難以界定。黨中央決策部署組建國家數據局,負責協調推進數據基礎制度建設,統籌數據資源整合共享和開發利用,統籌推進數字中國、數字經濟、數字社會規劃和建設等,將有力促進數據要素技術創新、開發利用和有效治理,以數據強國支撐數字中國的建設。

編輯、校對:高超

指導:新文