對話阿里雲吳結生:AI時代,雲上高性能計算的創新發展
Hyperion Research預計,雲端HPC市場的增長速度將是本地服務器市場的兩倍多,到2027年,雲端HPC市場規模預計將超過140億美元。
原先HPC(High performance computing,高性能計算)“高高在上”,幾乎只應用在高精尖科研領域,但隨着以AI代表的新一代數字技術的應用,HPC也在更多行業有了“大展拳腳”的機會,在企業側的應用場景也越來越多。
從HPC到Cloud HPC
在阿里雲智能集團副總裁,彈性計算產品線負責人、存儲產品線負責人 吳結生看來,如今已經有很多行業應用了高性能計算,且高性能計算的負載正呈現出多樣化發展的趨勢,“當下,很多基礎模型的預訓練、自動駕駛、生命科學,以及工業製造、半導體芯片等行業和領域都應用了高性能計算。”吳結生指出。
阿里雲智能集團副總裁,彈性計算產品線負責人、存儲產品線負責人 吳結生
傳統模式下,HPC因其獨有的定位、複雜的架構,以及極高的運維難度,造成了成本高昂,且適配業務發展特性較差,這也讓很多企業“望而卻步”。
而當企業對於高性能計算的需求不斷增加時,如何讓更多企業“用得起”和“用得好”高性能計算成爲行業面臨的難題。
這時候,雲計算就承擔起了讓HPC被更多企業,更便捷應用的重任。談及Cloud HPC的優勢時,吳結生告訴鈦媒體APP,以雲計算的模式應用高性能計算,具備了四個顯著的優勢:首先,是彈性的能力,通過雲的方式,具有高度的彈性,可以彈性地分配、調用大規模資源,讓企業獲得的算力更高;其次,Cloud HPC具備異構計算的兼容性能力,以雲的方式,可以對異構芯片之間的算力進行整合,兼容性更強;第三,Cloud HPC讓用戶具備了快速部署的能力;第四,與本地化的HPC相比,Cloud HPC具備了平臺化的數據處理生態。
就數據處理能力,吳結生向鈦媒體APP舉例詳細介紹到,以汽車研發爲例,汽車研發的過程中需要用到仿真計算,仿真計算在預處理的過程中會產生數據,計算的過程中也會產生大量數據,如何將處於不同位置的數據“挪動”,整合到一起,就成爲了傳統HPC時代的難題。
Cloud HPC的出現很好的解決了這個問題,吳結生告訴鈦媒體APP,通過彈性高性能計算集羣,加上並行文件存儲系統,可以免除數據的挪動,提升整個系統的能力,從而提升效率,縮短產品研發進程。因此可以看出,雲上的高性能計算,具備藉助整個雲平臺,將包括計算、存儲、網絡和一些安全方面的能力疊加起來的優勢。
“按需制宜”
從目前應用趨勢上來看,用戶對於算力的需求的多樣化的。這種情況下,顯然單一的計算架構已經不能滿足所有用戶的需求。
“算力目前遇見的核心問題就是:計算架構的單一性與算力需求多樣性之間的矛盾。”中國工程院院士鄔江興曾在2024年全國高性能計算學術年會上公開表示,“算力需求是多樣性的,面對不同的場景、不同的計算環境、不同的任務類型、不同的性能需求,需要不同的算力架構。可是計算架構是單一的,目前的情況走下去,會有兩種發展結果:一個是‘削足適履’,一個是各自爲政,都不是好的發展結果。”
這樣的算力困境同樣發生在高性能計算領域,吳結生告訴鈦媒體APP,多元化的負載需求,也對高性能計算提出了新的挑戰。面對這些挑戰,吳結生認爲,企業需要通過多樣化的產品、系統架構和技術方案,來滿足不同負載對計算能力、存儲性能、網絡帶寬等方面的差異化需求。
從需求側出發,根據不同的業務場景,以及場景下算力的耦合度和數據的密集度可以大致劃分爲鬆耦合、緊耦合,吳結生告訴鈦媒體APP,算力越耦合,就越需要高性能的網絡連接能力,針對不同的業務場景,用戶應該選擇相對應的產品架構,這樣才能在確保計算效率的同時,降低使用算力的成本。
在鬆耦合場景下,用戶對於延遲的要求不是很高,對算力的類型也沒有要求(比如對CPU代系沒有強要求)。但是,該場景下,用戶對性價比的要求更高,他們需要以更低的成本,更高的彈性,實現算力的全局調度,“阿里雲藉助自身積累的雲資源規模,加之創新性的CIPU(雲基礎設施處理器)架構,提供E-HPC Instant來服務‘鬆耦合’的高性能計算負載,”吳結生指出,“通過E-HPC Instant對雲上所有可用區的資源進行不同代系的算力抽象,並實現全局的資源分配和任務調度,滿足用戶對於彈性的需求。”
吳結生以製藥行業爲例分享了具體鬆耦合場景中的架構經驗,他表示,在該場景下,客戶有高吞吐量的彈性計算需求—隨時需要大規模的CPU、GPU計算資源,計算峰值大、任務併發度高。阿里雲的產品爲客戶提供了彈性按需的海量資源:智能調度底層大規模基礎設施,任意時刻提供10萬核以上的資源保障,優化大併發下計算和存儲性能,顯著提高藥物研發效率,只需原來1/3的成本。
在緊耦合場景下,大多業務場景都存在計算任務多、規模大、計算時間緊張等特點,這種場景更爲適合Cloud HPC,利用雲資源的規模大、並行計算能力強等特點,滿足企業對於高性能計算的需求。
針對此,阿里雲推出了高性能計算平臺—E-HPC平臺,可以同時提交AI作業和傳統HPC的作業,在資源管理層,同時管理了HPC的Slurm集羣和AI的ACK(K8s)集羣,作業管理層根據作業類型將AI作業和HPC作業分別投遞到相應的集羣上運行。
以汽車行業爲例,目前的研發週期需要效率非常高,本地 HPC 集羣硬件資源老化,嚴重影響業務進度,並且業務流程割裂:線下前後處理與線上求解計算的流程割裂,數據挪動頻繁。“如果建一個1000 臺機器這樣的一個超算集羣,傳統方式肯定是幾個月。那麼今天在雲上10 萬核的需求我們可以在不超過一天之內建好。並且客戶可以利用雲的資源規模去做彈性的資源分配。在雲上可以獲取豐富的以及最新代際的算力形態,滿足各種不同工作任務的這種負載的需求。”
在吳結生看來,E-HPC高性能計算服務落地過程中最大的挑戰是——任務的計算實例之間需要緊耦合的通信。面對這個痛點,阿里雲首先以CIPU作爲所有底層物理資源的連接器,將底層物理資源統一納管,提高計算效率,進而加速IO效率,通過eRMDA網絡大幅提升緊耦合的HPC工作負載性能,最終實現以更低成本,更快速度的交付能力。
除此之外,吳結生告訴鈦媒體APP,E-HPC還通過多層次的網絡拓補感知與彈性擴容的能力,快速彈出網絡拓撲上靠近的ECS計算集羣,適應緊耦合HPC作業極致性能要求。
AI時代,雲上HPC如何更好用?
ChatGPT的橫空出世讓AI又一次成爲了科技圈關注的焦點。這一輪的AI的火爆在吳結生看來,也將徹底改變所有行業,“當下幾乎所有的行業龍頭公司都已經是數據公司了,未來都將會是數據+AI的公司。”吳結生告訴鈦媒體APP。
“大模型的訓練場景是比較傳統的高性能計算在雲上的一種重新復興,我們稱之爲極致緊耦合的場景。”吳結生將大模型廠商的算力需求總結爲:這些企業需要穩定大規模高性能的訓練算力,並需要彈性拓展的推理算力,還需要數據處理的速度和彈性能力,以提高資源利用率並降低成本。
當前大模型的預訓練需要集羣化,構建萬卡甚至更大的集羣,且整個集羣需要是一個龐大的“整體”,若其中一臺機器出問題,都會造成訓練中斷。“大模型的訓練就像是一排人兩個、兩個的將腿綁在一起,共同前進,這種並行的方式,一旦有一個人反應慢了或者倒了以後,可能整個隊伍的前進速度就被拖累了。”吳結生以一個生動的比喻比擬了大模型的訓練過程。“讓每張GPU卡,每臺機器都以相同的‘步伐’前進,才能提升整體的模型訓練效率。”吳結生如是說。
爲了實現上述所描述的“相同步伐”,阿里雲靈駿集羣採用 HPN 7.0 的網絡架構,通過一系列的創新來支持更大的規模、更優的效率和更高的穩定性:一方面,阿里云爲每臺機器 3.2T 的 RDMA 的計算連接,讓每臺服務器之間的通訊更順暢;另一方面,後端 GPU 互聯網絡和前端網絡分離,減少存儲的訪問對算力通信的干擾,進而提升了整體GPU集羣的計算效率。
這樣的“相同步伐”也對存儲能力提出更高的要求。在大規模的模型訓練過程中,經常會遇到各種原因而被迫中斷。“我們的頭部大模型客戶提出了連續的、分鐘級的Checkpoint的讀寫要求,這對存儲的吞吐要求是非常高的,這是爲什麼在阿里雲靈駿智算服務裡面,提供了高性能的並行文件系統CPFS,滿足訓練和推理的超高性能和成本優化要求。通過CPFS,網絡的雙上聯、系統監控、自定位和自愈等優化,降低中斷次數和時間,使得我們訓練時長的有效率高達99%,” 吳結生指出。
無論是鬆耦合、緊耦合,還是極致緊耦合,面對多元化算力需求,CIPU 是阿里雲基礎設施的基石,是差異化競爭力的主要來源之一。通過CIPU架構,可以實現0虛擬化開銷,讓企業能更充分的利用CPU、GPU資源,從而減少開銷。除此之外,CIPU架構還通過硬件加速的方式,進一步提升IO和存儲性能,“目前,阿里雲已經推出了2.0版本的CIPU架構,整機穩定性提升20%,帶寬性能可達400Gbps,VPC可達6000萬pps,彈性RDMA可達5000萬message/s,存儲性能可達360萬IOPS,50GB/s,這些性能都達到了業內領先水平。”吳結生指出。
當下,每一家公司都是一個數據公司,很快每一家公司都會是一家數據+AI的公司,雲計算一直在踐行 Scaling Law,高性能計算也將煥發新的動能,雲計算提供的規模化、高性能、可擴展的算力與存力,會幫助企業在進行業務規模的擴展的同時,應對好數據規模的擴展,充分使用好AI模型以及基於模型的各類應用。我們也期待看到,雲計算廠商可以不斷創新,提供多元化的產品組合,幫助企業在不同負載場景中落地應用,實現智能化創新。
(本文首發於鈦媒體APP,作者|張申宇,編輯丨蓋虹達)