在線、離線業務融合場景,天均CPU利用率提升至55% | 創新場景

場景描述

圖片系AI生成

在線服務資源使用量隨着終端用戶的使用習慣呈現出穩定的潮汐現象,夜間CPU利用率極低,導致集羣均值CPU利用率較低;業務保有大量的獨佔資源池,資源池割裂產生大量的資源碎片,拉低CPU利用率;業務爲了穩定性考慮,會過量囤積資源,進一步拉低CPU利用率。

解決方案

點擊報名參與創新場景50的評選

在阿里雲的協助下,小紅書混部技術經歷了四個階段演進:閒置資源再利用、整機騰挪分時複用、常態混部、統一調度。

一,通過技術手段將集羣中的閒置資源收集起來,分配給轉碼類業務場景使用;

二,通過彈性能力(HPA),在凌晨業務低峰期按比例對在線業務縮容,騰挪空出整機,並將轉碼、訓練等離線pod在該時段運行起來,起到利用率“填谷”的效果;

三,平臺持續推進業務大規模合池,將業務由獨佔池遷至平臺託管的公共混部池,通過合池、資源超賣等技術手段,CPU分配率得到有效提升,同時通過建設更爲細粒度的資源管理與調度能力來實現均值利用率提升的目標;

四,混合雲架構的統一調度來管理異構計算資源,並支持各類業務形態的工作負載調度能力。

成效

通過大規模容器混部的持續推進,小紅書在資源成本效能上有顯著改善。

在CPU利用率方面,在線混部集羣天均CPU利用率提升至45%以上,部分集羣天均CPU利用率可穩定提升至55%。在線集羣CPU利用率提升8%-15%不等,部分存儲集羣利用率提升可達20%以上。在資源成本方面,爲小紅書各類離線場景提供數百萬核時的低成本算力。混部集羣CPU分配率提升至125%以上,相較於獨佔資源池,資源碎片率明顯下降。

點擊進入2024 ITValue Summit數字價值年會,瞭解更多信息。