網路資訊/兩岸三地MIS應對技術變遷之道(一)
作/林恩雅
對資訊部門而言,何謂資訊系統的HA?簡單來說,就是讓系統不停機正常運作,一旦無法運作,不論是正常維修或異常狀況下,也能讓用戶在可以容忍的時間內恢復正常。
高度可用性(High Availability,以下簡稱HA)的觀念可以拆分成以下兩組詞彙:
1.Mean Time To Failure(MTTF, 平均無故障時間)或是Mean Time Between Failure(MTBF,兩個故障之間的時間):系統的可靠性越高,MTTF或MTBF的時間就越長,代表可用性越好。
2.Mean Time Repair(MTTR,平均修復時間):時間越短,就越能符合用戶的容忍範圍。
業界有個不成文的HA算法,即HA = MTTF / (MTTF + MTTR)。
傳統HA方案不外是討論雙主機備援、資料庫備份或Replication,但這種方案對兩岸三地型的企業顯然是不夠的。
以右頁圖1典型兩岸三地架構爲例,至少要考慮以下幾部份的狀況才能完整體現出整體HA,任何一個點失效就有可能導致用戶無法使用系統,包含兩岸三地主機的HA、兩岸三地ERP AP的HA、兩岸三地資料庫的HA、兩岸三地線路的HA、兩岸三地各個節點路由器等重要設備的HA。
除此之外,還有人的HA,包括相關係統開發、維護人員的HA,以及相關供應商的HA。
兩岸三地主機的HA
對於兩岸三地製造型的企業來說,除了大陸的五一、十一、及過年外,基本上生產單位都是一週7天無休、2班倒或3班倒生產,隨時隨地在對系統輸入資料或對File server進行資料存取,因此機房中的主機除了以上3個時間點之外,是無法好好的停機整頓。
就算有時間停機整頓,時間夠嗎?筆者曾看過幾個知名企業的File server資料量極度龐大,即便是用一天一夜的時間來進行完整掃毒、完整備份、資料重整,竟然還不夠!這都是當初在規劃過程中未考慮HA機制所造成。
如果要讓主機有較好的HA可以從以下幾個部份着手:
1.硬體組件:所採購的主機爲雙電源配備、RAID、熱插拔,但這個方式仍無法解決作業系統損毀的問題。
2.備份機:即新增一臺組態一樣的主機,平時正式機每日定期備份、定期將資料移轉到備份機, 當正式機無法使用時,即使用備份機來處理。
但由於正式機與備援機的資料通常有時間差的問題,因此當正式機損毀時有可能造成資料損失(例如一天備份一次,則最壞情況有可能損失一天的資料)。同時如果資料量很大,則MTTR仍然會很長。
3.備援機:即用戶端存取正式機時,資料會同時被寫入另一臺備援機,當正式機損毀時便自動或人工方式切換到備援機,由於資料是同時寫入到兩臺主機,因此不會有資料遺失的問題。此種MTTR幾乎爲0,但方案最貴!通常要有外部廠商、特定軟體、特定硬體的協助才能完成。
另外,這些方案要特別注意「異地備援」!異地的機房、異地的主機纔能有效保證主機高度的可用性,否則碰上如臺灣的921大地震、四川汶川大地震、或是大陸當地機關因查帳把公司主機抱走,先前所做的HA投資一樣無效。
兩岸三地ERP AP的HA
至少有2個理由需要讓ERP AP有2臺以上。首先,假設如果只有一臺ERP AP,當毀損時代表兩岸三地的ERP會全部停擺,代價會非常高。其次,則是基於負載平衡(Load balance),因爲每一臺AP Sever都會隨着用戶連線人數的增多、所需運算資料的增多而逐步耗用AP Server資源,當用戶連線數超過某一個穩定值時,AP Server將無法爲每一個Connection提供足夠的CPU與記憶體資源,導致所有Connection的運作效率大幅滑落。