網路資訊/ 透過Hadoop 巨量資料蛻變巨大商機

網路資訊雜誌/曹乙帆

巨量資料來襲,它或許是個契機,但也可能是場災難,端看企業的心態及作爲而定。趨勢科技董事長張明正大聲疾呼表示,如今正值雲端運算、巨量資料再加上物聯網?聚在一起的最佳時機點,無疑是再造臺灣黃金30年的千載難逢大契機。臺灣IT 發展會向上提升,還是向下沈淪,全在此一戰!

過去,有價值的資料都會被正規化地儲存資料庫系統裡,進而成爲整個IT系統運作所仰賴的結構化資料,反觀數量更加龐大的非/半結構性資料,在過去關聯式資料庫無法有效消化的情況下,只有被迫視之爲敝屣地加以丟棄。但隨着Hadoop及NoSQL 等新技術的出現,過去堆積如山的「垃圾」,竟然搖身變爲企業致勝於千里的關鍵寶礦

事實證明,站在技術浪頭尖端的Google、Yahoo、Amazon 及臉書,其在激烈商業大戰中所展現的「遠見」,竟然全都是從過去視之爲敝屣的垃圾堆中萃取而出的。一時之間,巨量資料遂成爲想要出人頭地也好、大賺其錢也對,甚至想絕地逢生企業們的仙丹妙藥。巨量資料的蒐集、儲存、建模(Modeling)、運算及分析因而成爲當前最熱門的顯學,而Hadoop分散式平行運算架構及各類NoSQL分散式資料庫更成爲其中的佼佼者, 進而成爲讓企業擁有智慧洞見, 並能發掘巨量價值、創造無窮商機的新利器

面對巨量資料,企業可以正面對待,也可視而不見,全看企業的需求而定。所以巨量資料絕非非做不可的事情,而是要不要做的問題,換言之,如果覺得透過傳統資料庫便可在結構性資料中找到商業價值,那麼就不必在影像圖檔日誌中辛苦地翻箱倒櫃,尋找出可爲企業增長智慧的蛛絲馬跡。

但在激烈的商業戰爭中,一丁點寶貴的智慧及洞見,都可能讓原本僵侍戰局出現戲劇化一面倒的局面,抑或讓原本委靡不振的頹勢出現出人意表的大翻盤。如果在原本傳統資料庫及結構性資料中無法生出更進一步的新意時,或許致敵於機先的錦囊妙計與答案就藏在巨量非/半結構性資料之中。對此,企業豈有如同縮頭烏龜般地視而不見,白白放過向上提升的機會?

張明正在由趨勢科技、國家高速網路與計算中心騰雲計算公司主辦的Hadoop in Taiwan 2012盛會會後指出,物聯網所產生的巨量資料,再結合到後端雲端運算及Hadoop分散式平行運算平臺,將勾勒出今後長達30年光景的新產業價值體系供應鏈。在此體系及供應鏈中,不會再由過去商業軟體巨頭所能壟斷,轉而會是開原軟體主導的天下,這對臺灣產業而言無疑會是千載難逢向上提升的大契機。

打造臺灣專屬巨量資料產業價值體系

張明正認爲臺灣全新產業價值體系及供應鏈中擁有諸多無與倫比的優勢。首先,今後物聯網中Machine to Maching(M2M)網路,事實上會是裝置感測器相互連結,並將蒐集資訊上傳雲端進行分析的網路架構。談到感測器,可說是臺灣的強項及優勢所在,這是因爲臺灣過去從BIOS到各種類比感測元件之開發上,累積了全球無出其右的豐富經驗及Know-how,所以臺灣絕對有能力在巨量資料這一波潮流當中,完成感測器子系統的建置。

過去臺灣無法建立感測器子系統,而只能在OEM的微利中奮力周旋的原因,即在於缺乏後端可與之相連的運算平臺。當前在生活周遭不乏許多感測元件的應用實例,例如現今ATM提款機的背後運作,即爲感測器對感測器,以及對後端伺服器間的資料互通

同樣的,機場通關的感測掃描元件,會將資料後傳至伺服器或資料中心做分析比對。隨着物聯網時代的到來,各類裝置間的互通有無將形成更加巨大可觀的資料,這中間需要藉助感測器將資料傳送到後端主機或雲端上,同時也要建置Hadoop儲存及運算平臺,乃至NoSQL資料庫進行巨量資料的處理及分析。 過去從應用軟體到伺服器,莫不是大型廠商禁臠,如今雲端運算不再如此,開放原始碼已經成爲雲端運算中一股非常重要的勢力,其中尤以OpenStack及CloudStack 堪稱是今後開放原始碼雲端之兩大中流砥柱,今後不論私有云端、公有云端及混合雲端的建置,同爲Apache基金會開放原始碼的OpenStack及CloudStack將成爲商用方案之外的最佳選擇之一。

除此之外,目前一談到巨量資料,人們腦海中首現浮現的不再是過去制霸資料庫市場的甲骨文也不是軟體巨人微軟,卻是同爲Apache基金會旗下的開放原始碼Hadoop平行運算暨儲存架構,以及HBase NoSQL分散式資料庫。

由此可見,從雲端運算,到巨量資料的儲存、運算及資料庫系統,不再是過去商業軟體所壟斷的局面,開放原始碼在其中發揮非常巨大的影響力。同樣的,臺灣產業也可藉由開放原始碼發光發熱,藉此打造從感測子系統到後端雲端運算與Hadoop平臺的產業價值供應鏈及生態體系。

張明正極富洞見地指出,身處巨量資料及物聯網的新世代裡,「資料」就等同於科技界的新能源,誰掌握的愈多、愈充份,誰就是這個世代的主宰者