鄔賀銓提出算力十大思考,建言從實戰中學習創新

近日,2022中國算力大會在濟南開幕,在以“算力築基高質量發展”爲主題的主論壇上,中國工程院院士鄔賀銓發表《對數據中心“數學”與“算術”的思考》的主題演講,提出了對算力的十大思考。鄔賀銓解釋“數學”即研究數據的科學,“算術”即研究算力的技術。

以算爲主還是以存爲主?

鄔賀銓表示,AI應用驅動算力需求快速增長。基於GPU/NPU/FPGA等構建的AI智算中心適於訓練數據導出模型。

訓練出數學模型後,深度神經網絡的使用並不需要調度非常多的參數,降低了對算力的需求。基於CPU的通用算力的IDC適於在已知數學模型下的計算任務。

鄔賀銓指出,是否可以認爲AI智算中心主要任務是算,IDC主要任務是存?

三類算力如何合理比例?

目前算力可以分爲基礎算力(基於CPU芯片)、智能算力(基於GPU和NPU芯片)和超算算力(基於超算)。

從2021年全球算力分佈來看,美國佔31%,中國佔27%,其次是日本、德國、英國等其他國家。美國的基礎算力佔全球35%,智能算力佔15%,超算佔30%,而中國這三類分別爲27%、26%和20%。

鄔賀銓表示,可以看到美國以基礎算力爲主,中國智能算力的能力遠遠超過美國。中國的超算和AI智能中心是以政府爲主,基礎算力以運營商和互聯網企業爲主,美國則主要是互聯網企業爲主。

冷數據與熱數據

IDC數據顯示,人類歷史上90%的數據都是在過去幾年間產生的,50%在短短兩年內生成的,預測到2025年數據量年均將以30%增長,即兩年增70%。

一般來說,最近產生的是熱數據,經歷一週或數月後將轉爲溫或冷數據,冷、溫、熱數據分別佔累計數據總量約80%、15%和5%。

冷數據主要是存儲,計算需求非常態。東西部分別適合處理熱和冷數據,東數西算實際上是東數西存。

存算分離與存內計算

存算分離架構在控制單元指令下從存儲器讀數據並交到CPU計算,得到的結果還需送回存儲器。但對冷數據I/O往復並不頻繁,因此更適用於冷數據處理,例如雲平臺建模,邊緣計算訓練與仿真。另外,存算分離可採用開放存儲體系和磁帶存儲介質,存儲器可同時服務多服務器,池化存儲支持多雲,高利用率,降成本與能耗。

不過,熱數據需快速計算,但受限於存算分離I/O瓶頸,且CPU能力受累於存儲器訪問速度難以發揮,更需要存內計算。存內技術以RAM代硬盤,在RAM內完成所有運算,例如自動駕駛可以在車內同時完成存與算,但目前實現複雜和成本高。

鄔賀銓表示,雖然西部以處理冷數據爲主,但也需要處理當地的熱數據,冷熱數據是否需要分別採用不同的存算架構?

封閉系統存儲與開放系統存儲

服務器一般由CPU和內存組成,如果將存儲也放在一起,則稱爲封閉存儲系統,但是容量有限。因此,大多數情況下是將存儲和服務器分離,即開放系統存儲,實現存儲容量爲多服務器共享,以池化方式支持多雲應用。不同存儲架構適應不同任務,可按照任務來軟件定義存儲。

PUE與IT能效

PUE是數據中心能耗佔IT系統能耗之比,反映了製冷系統的水平,但並非衡量IT系統的能效。據統計在IDC的IT系統的能耗中,服務器約佔50%,存儲系統約佔35%,網絡通信設備約佔15%。

數據中心需要7*24小時工作,但通常並非7*24小時都在計算,非計算狀態下也耗能,此時存儲系統的能耗成爲主體。據麥肯錫報告:大部分電能用於維持服務器狀態,僅6-12%用於計算。

因此,要降低能耗,首先對冷數據存儲採用磁帶代替磁盤,預計100PB十年存儲成本可下降73%;其次,熱數據存儲用閃存代替磁盤,改進訪速、吞吐量及能效,但目前成本還較高;另外,還要探索通過數據預處理改進能效。

數據可信與災備保護

數據最重要的是安全,目前主要有兩種災備保護方案。一是三副本方案,容量利用率較低,但讀寫快,適於小文件;二是4+2糾刪碼方案,容量利用率較高,但讀寫慢,適用於大文件場景。這時候就要思考,大小文件需要分區存儲,以便採用不同可靠性技術方案嗎?

同時,災備是數據中心剛性要求。據華爲/羅蘭貝格報告,美國數據保護佔存儲投資爲33.3%,全球平均爲27.4%,而我國僅7.8%,並且異地備份的比例更低,防災能力堪憂。

此外還有值得研究的是對數據備份還是算力備份?算力與存力需要等比例備份嗎?

存算協同的思考

根據華爲/羅蘭貝格報告,中國與美國相比存算比低一倍,導致中國算力利用率也較低,可以理解爲,雖然算力有了,但存儲沒跟上。而存算比並非固定,例如對於冷數據其計算頻度低,存算比應比熱數據更高。因此,對冷數據和熱數據分別的合理存算比應該是多少值得思考。

另外,帶寬(吞吐量)和每秒/O操作數(IOPS)是衡量存儲性能的兩大指標,前者需要聚合更多存儲單元的帶寬,後者希望減少每次數據存取請求涉及的存儲單元數,二者難以兼得。可以從計算任務調度入手,爲存儲系統提供預判此次任務的IO模式的信息,以便做出針對性的緩存策略和數據一致性策略,甚至將數據調度到合適的存儲位置,獲得更好的數據存儲效能。

算網容量配比的思考

2021年全球數據中心流量分佈,數據中心內佔71.5%、數據中心到用戶佔比14.5%、數據中心間佔比13.6%。主備數據中心間的數據傳輸要求同步動態更新數據,實時性高,不過每次更新的數據量不大。但對主備間鏈路可靠性要求高,通常需要端到端雙路由。

另外,東西部數據中心間傳輸系統容量雙向不對稱。從東部定期將由熱轉冷的數據轉移到西部,數據量大,但實時性要求不高,瞬時帶寬不必很高。西部數據按需計算後的結果需要回傳東部,數據量不大,但實時性可靠性要求高。東西數據中心間鏈路在數據中心到所在城市段需要雙路由。我國需要有更多的調研和經驗數據來決定數據中心間及到用戶間的傳輸通道容量優化設計。

東數西算的思考

東數西算使得算力設施的佈局超越了數據中心樞紐的範疇,雖然設想東部與西部互爲冷熱數據的配對,但東部西部間應如何比例?

以廣東數據中心規劃爲例,設計省內算力70%,省外算力30%,這與冷數據佔比80%差別很大,是否理解冷數據佔80%是指存儲容量而非算力的比例?另外,在市場經濟條件下,東部與西部並非固定配對,各自獨立設計部要如何能做到容量最佳利用?

同時,同一數據中心樞紐或集羣內部也有很多比例需要優化。數據中心樞紐內有多個數據中心,每個數據中心內部多業主,如何實現樞紐內各數據中心所需的能源與網絡資源集約化,並建立業主間資源共享機制,提升利用率。每一個數據中心需要設計算力、存力與網絡能力合理的比例以及相應災備比例,會視冷熱數據有不同的優化。數據中心需立足長遠建設能效更高的大型數據中心,但切忌一步到位.

此外,Gartner認爲,2025年約超75%的數據將在邊緣側處理,需規劃邊緣與集羣數據中心算力比例。

最後,鄔賀銓表示,關於數據中心的 “數學”與“算術”還有很多需要深入研究的內容,要善於從實戰中學習創新。(C114 水易)