阿里雲崩了:企業未來該怎麼選擇雲廠商?
雙十一剛過一天,阿里雲就崩了。
2023年11月12日17:44開始,阿里雲發生嚴重故障,導致阿里巴巴大量產品無法連接,一時間,“阿里雲盤崩了”、“淘寶又崩了”、“閒魚崩了”、“釘釘崩了”等話題相繼登上熱搜。
阿里雲出現大規模故障,也成爲政企們熱議的話題,大家關心的問題在於:公有云到底還安全嗎?是否還能繼續上雲?未來應該採取哪些措施來保障穩定可靠?
不要動搖“上雲”的方向
一個不爭的事實是:阿里雲出現嚴重故障,給上雲企業,特別是核心業務跑在雲上的企業帶來了損失。
一個是故障波及的範圍廣,故障期間阿里雲控制檯無法正常登錄,API調用異常,導致阿里雲全系列產品服務及全球區域數據中心都受到了影響;另一個是持續的時間長,故障持續了3個多小時才基本完全恢復。據不完全統計,除了阿里系幾乎全線產品出現故障外,整數雲、理工小蜜蜂、餓樂送、cool easy、IOTTEC、納思雲、語雀等平臺均受到影響。
如此大的影響規模,如此嚴重的程度,在公有云歷史上都非常罕見。於是,有一些人出現了是否繼續上雲的疑慮,甚至有人說應該退回到過去自建的模式。
筆者首先給出結論:千萬不要動搖“上雲”的方向。雖然這次阿里雲出現的故障很嚴重,但我們仍不能否認雲相比物理主機具有更高的可靠性。
這是因爲傳統服務器硬件受到廠商品牌、機型、服務器運行時間以及部件型號故障率等諸多因素影響,更容易出現故障,而云服務提供商通常遵循一對多的模型,而且具有專業的基礎運維團隊和內核團隊,能夠在出現問題時快速恢復。相比自建機房的方式,公有云不僅運維成本更低,而且運維更專業、可靠。
某電商公司2018年投入數百萬資金自建物理機房,起初系統穩定性連90%都達不到,2020年雙11大促活動期間,因業務中斷兩小時,造成高達100餘萬的損失。後來該公司改用移動云云主機,公司業務系統穩定性提高至99%,建設維護成本下降60%,問題迎刃而解。
更重要的是,上雲相比自建機房更是能爲企業帶來無可比擬的價值。在數字化轉型的大背景下,雲作爲數字化轉型的重要支撐技術,具有按需使用、彈性伸縮、資源共享等優勢,可以提升企業的業務敏捷性,降低企業的成本。而且,雲計算也是人工智能的基座,只有在雲的基礎上,企業才能更好地擁抱智能時代。
從千行萬業無數企業的實踐也能看到這一點。例如,對可靠性要求最爲苛刻的金融企業,也在將核心業務上雲。以郵儲銀行爲例,其新一代分佈式核心系統爲全行6億多個人客戶提供了日均20億筆的處理能力,聯機交易處理效率提升一倍,批處理效率提升33%。
正如長江黃河不會倒流,上雲的大方向也不會因爲出現一些坎坷而發生改變。
雞蛋不要放在一個籃子裡
上雲的方向沒問題,但是上雲的路徑和具體策略卻需要藉助阿里雲故障時間進行重新審視。
比如對於核心業務上雲的企業,就有必要警惕雲集中的風險,實施多雲戰略勢在必行。
Gartner公佈的2023年三季度新興風險報告顯示,雲集中風險連續第二年進入“五大新興風險”綜合榜單,其中中國市場的這種風險尤爲突出。正如Gartner法律風險與合規實踐部門研究總結徐然所說,“雲服務集中化風險正在成爲大多數企業的共識,許多企業和機構現在面臨這樣的處境:一旦單個雲服務商出現故障,將導致業務發生嚴重中斷。”
破局雲集中風險的一個有效途徑,就是實施多雲戰略,就像不要將雞蛋放在同一個籃子裡一樣。Flexera發佈的《2021年雲計算市場發展狀態報告》顯示,有92%的企業採用了多雲戰略,就是如此。
採用多雲戰略的好處顯而易見,一方面,企業可以將風險分散,防止出現某個雲廠商出現故障時企業業務中斷的風險,實現雙保險、多保險;另一方面,企業也能選擇各領域最優的雲服務廠商,形成最佳組合來滿足業務需求。
通過這次阿里雲宕機事件,還有一個警示意義,那就是必須要重視災備。事實上,災備服務也是雲相比自建機房的重要優勢,雲服務提供商通常會提供災備服務,以滿足企業數據安全和業務連續性需求。
但是需要指出的是,不同雲廠商的災備服務能力也是有差異的。例如,華爲雲就具有同城AZ(Available Zone,可用區)內、跨AZ、異地跨區的兩地三中心容災方案和1000公里以上的城市級容災能力。河鋼集團,就採用華爲雲提供的兩地三中心容災備份方案,實現了系統的平穩可靠運行,任何時候都能實現業務0中斷。
所以,對於將核心業務放在雲上的企業,只有不將雞蛋放在一個籃子裡(多雲與多地災備),才能最大限度保障企業核心數據的安全和業務的平穩運行。
後記:選雲,要選可靠的雲
毋庸置疑,阿里雲這次出現如此大的故障,會對其未來的市場開拓帶來負面影響。野村綜研(上海)數字化能力中心總監陶旭駿就表示,政府和國企央企市場是雲市場的非常重要的客戶羣,他們對安全性和穩定性的要求是壓倒成本和性能的,阿里雲會在開拓企業市場時受到挑戰。
可以預計,這次事件也會對政企在選擇雲服務廠商時帶來影響,大家會有一個強烈的共識:選雲,要選可靠的雲。因爲,不管是性能,還是成本,都必須有一個前提,那就是高可靠性、高可用性。打個比方,高可靠性和高可用性是1,其他是0,如果沒有前者,後者也不復存在。
那麼什麼是可靠的雲呢?我覺得,首先要看企業的基因。比如華爲雲,就根植華爲的基因,華爲從運營商業務起家,運營商對於產品的可靠性、穩定性有極高的要求,如我們經常聽到的電信級要求,要求在不間斷運行、高穩定性、可靠性上有5個9的級別。正是這樣嚴苛的要求,讓高可靠性、高可用性刻在了華爲、華爲雲的骨子裡,滲透到了血液裡。
其次要看企業在高可靠性、高可用性上的技術能力,尤其是運維安全上的內功。事實上,在軟硬件迭代加速、企業需求瞬息萬變、不確定性加劇的大背景下,雲服務的運維也在發生變革,運維既要保穩,也要敏捷。令人欣喜的是,業界的頭部廠商正在身體力行地推動運維模式的變革,從運維組織、人員能力、知識體系發展等全維度進行變革,強化穩定可靠性。
穩定可靠一直是各雲廠商的業務重點和難點,爲此進行了各種組織上和體制上的設計。例如,華爲雲內部就專門有一種職業,叫做SRE(Site Reliabllitiy Engineer,站點可用工程師),還系統定義了包括質量管理機制、運維平臺等SRE的能力體系。京東雲通過京東云云泰-穩定性主動管理平臺,爲客戶提供全鏈路的雲上安全保障,其基於混沌工程原理,可以做到先於用戶發現問題、先於感知修復問題。金山雲服務器帶來完善的管理員面板功能,可以讓用戶快速瞭解實例情況、配置實例、掛載和擴容硬盤等,隨時掌控資源使用情況。
總而言之,針對阿里雲出現故障這一事件,需要客觀理性看待:既不能因噎廢食,改變上雲的大方向;也不能置若罔聞,需要對上雲的路徑和策略進行重新審視,需要對雲服務廠商進行全面審視。
只有這樣,企業的雲上之旅和數字化轉型步伐才能既快又穩。