國產數字新基建,放眼未來的“大模型”建設

出品|本站新聞

導語:ChatGPT風靡全球,作爲一種人工智能“大模型”被認爲能在很大程度上改變人們的生活,中國也正大力發展的全國性大型算力中心的建設也取得了階段性成功,將推動“讓用戶像用電一樣使用算力服務”的發展願景。隨着模型和算力的普及化,國產人工智能發展也將邁入新的臺階。

一、模型與數據驅動人工智能

2017年5月,當時圍棋世界排名第一的棋手柯潔在萬衆矚目的“人機大戰”中0:3完敗於谷歌研發的AI程序AlphaGo,這個標誌性的事件給很多人提了個醒:AI的浪潮已經開始席捲而來了。

AI帶來的勞動價值將讓人類徹底擺脫某種“稀缺”,擺脫重複的勞動,從而使人類的解放成爲可能。真正獲得全面解放和完全自由的人類,將擁有更充裕的時間來發展自己的興趣愛好、思考人生、享受生活、改變世界,實現精神財富和物質財富的雙豐收。

但距離做到這一點,依舊需要相當長時間的發展和相當多的投入。

計算機程序的發展已經使得設備能夠按照人類已經輸入好的指令機械地運行,適用於純粹重複性的工作,這已經在很多領域已經極大減少了人的工作量,這種基於輸入性規則的程序可以稱得上是最初級的AI。

目前世界各國着力發展的更高級的AI則力圖在更多的領域也能做到這一點。它的核心含義是指,通過恰當的方法學習合適的已有經驗(以數據的形式),來獲得一種通用的決策方式。經過測試之後就可以在類似的場景下自動做出決策,從而實現自動進行重複勞動的目的。

AI發展的具體效果分別取決於兩個因素——“恰當的方法”以及“合適的已有經驗”,對應了模型驅動和數據驅動兩個流派,它們在動機、模式、映射關係等方面各有不同,但並不矛盾。模型驅動和數據驅動的區別在於數據處理方式:如果數據處理並不改變模型本身,就是模型驅動;如果數據處理改變了模型,讓模型去貼合數據,就是數據驅動的研究方法。在解決實際問題中,各自都存在優勢和限制。

對我國而言,中文語料庫的體量約爲全球英文語料庫的十分之一。首先是對數據本身做預處理,然後需要大量人工標註數據集,這樣才能夠讓模型來學習人的行爲模式,整套流程花費甚巨。而模型驅動的方法則需要大量試錯,需要平衡模型的複雜程度和算力投入,且每次試錯需要付出大量的算力和時間代價。因此,基於大量共用數據的,且經過充分驗證的“大模型”概念成爲了一種具有競爭力的方案。

二、“大模型”賦能各行各業

過去以小型團隊爲單位,通過尋找合適的數據與模型的確能產生效果較好的AI程序,但“點對點”的適應單一任務的模型依舊讓其擺脫不了“小作坊”的形式。“大模型”指通過在大規模寬泛的數據上進行訓練後能適應一系列下游任務的模型。

近年,各種“大模型”在早期預訓練中顯示出前所未有的威力,成爲AI創新的共識,很多模型的達成的效果都已經給人產生了深刻的印象。通過超算中心等戰略投資,目前我國已經在農業、金融、互聯網、生物醫藥等領域都擁有了自主知識產權的“大模型”。

“大模型”提供了一種在某個領域通用化的解決方案,通過“預訓練大模型與下游任務微調”的方式,通過大模型從大量數據中捕獲知識,極大擴展了模型的泛化能力,後期根據下游任務的少量數據進行少量針對性的訓練,能有效壓縮後續投入,這一套流程使得AI程序的產出更高效。

然而,“大模型”的開發過程繁複、門檻也很高,訓練一個“大模型”的總投入在數千萬美元級別,例如ChatGPT的單次訓練就需要耗資150萬美元。“大模型”的大,主要體現在以下兩方面。AI模型爲準確擬合相關場景的決策,其表現通常與參數量成正比。而“大模型”參數級別更是隨着泛化能力要求的增加水漲船高,以谷歌的Switch Transformer爲例,它的參數量已經達到了萬億級別(ChatGPT的參數量爲千億級別),“大模型”的設計和訓練投入堪稱恐怖。

其次是數據大,“大模型”的目的是擁有儘可能大的拓展潛力,這意味着數據的收集和標註必須儘可能覆蓋到這些範圍內。模型大的根本原因是數據大,“大模型”所使用的數據量都是至少數十個TB級別,數據收集和人工標註的成本都非常高,例如ChatGPT爲規避美國的高昂人力成本,數據是在肯尼亞僱傭了大量人員手工進行標註,即使如此標註成本也高達數億美元。

這兩者的結合,在技術上導致了“大模型”初始的訓練、後期的微調和日常使用中算力需求較大,本地設備遠無法負擔,甚至不是某一個單一服務器下的設備能完成的了,必須使用某種聯網機制,通過聯合計算加快訓練。

三、“東數西算”構築算力基建

與互聯網類似作爲戰略新興行業,AI的發展離不開充足算力的保證。讓科研人員甚至民衆“像用電、用網一樣使用算力服務”的發展,將有力地支撐我國在AI領域的發展。算力資源目前稀缺且昂貴,通過統籌建設,成立全國性的大型算力中心,有助於算力更公平地流向科研在內的各領域。

同時,算力的建設和分配需要考慮到服務器的地理因素。由於大部分的數據在經濟較發達的沿海地區產生和清洗,而數據計算過程中則需要消耗大量能源,且需要考慮到散熱問題,綜合來看算力中心最適合建設在電力便宜、氣候恆溫的地方。在此基礎上我國提出了基於“東數西算”(在東部產生數據,在西部運行計算)思想的一體化算力網絡。

在國家“東數西算”工程與全國一體化算力網絡的佈局下,中國算力網計劃已全面展開。計算節點數已經超過了二十個,在地理上去中心化的前提下,國家在每個地區集約化地統籌建設人工智能算力中心,同時真正實現全國大型算力的協同調度與高效計算。

結語:

我國集中力量打造的“大模型”和國家級算力網絡,其目的都是爲了更高效地產生實用的AI算法,並在下一代科技革命中佔得先機。放眼未來,我們能用這樣的AI創造出更多人類的新篇章。