作為當(dāng)今互聯(lián)網(wǎng)行業(yè)最為熱門的兩個(gè)詞匯,“云計(jì)算”與“大數(shù)據(jù)”是每位企業(yè)CIO都不會(huì)錯(cuò)過的。然而“大數(shù)據(jù)”并不是解決方案,在被合理利用之前,它更多指的是信息爆炸所導(dǎo)致的一類問題。真正能夠理解并運(yùn)用大數(shù)據(jù)以實(shí)現(xiàn)企業(yè)價(jià)值飛躍的,想必都是IT界的精英。而能夠?qū)⒃朴?jì)算與大數(shù)據(jù)完美結(jié)合以使企業(yè)獲利,則是每一位決策者至高的愿景。
云計(jì)算如何應(yīng)用于大數(shù)據(jù)分析
1. 云計(jì)算作為大數(shù)據(jù)的必備條件
關(guān)于大數(shù)據(jù),維基百科給出了如下的定義:“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集(data set)相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來察覺商業(yè)趨勢(shì)、判定研究質(zhì)量、避免疾病擴(kuò)散、打擊犯罪或測(cè)定實(shí)時(shí)交通路況等;這樣的用途正是大型數(shù)據(jù)集盛行的原因”。正是由于大數(shù)據(jù)本身所具有的商業(yè)價(jià)值,才使得它在我們這個(gè)時(shí)代變得如此火熱。如果提取、處理和利用數(shù)據(jù)的成本超過了數(shù)據(jù)價(jià)值本身,那么這項(xiàng)工作就是沒意義的。而隨著數(shù)據(jù)量的不斷增長(zhǎng)以及技術(shù)的不斷地發(fā)展,大部分企業(yè)都可以通過大數(shù)據(jù)獲得額外的利益。而強(qiáng)大的云計(jì)算能力,無論是建立在公有云、私有云還是混合云的基礎(chǔ)之上,則都是企業(yè)提取分析大數(shù)據(jù)所不可或缺的一個(gè)前提。
2. 收集數(shù)據(jù)以供分析
在海量的數(shù)據(jù)中,其實(shí)能為企業(yè)提供顯示經(jīng)濟(jì)利益的可用部分很少,因此有大量的數(shù)據(jù)需要過濾,以便建立關(guān)聯(lián)并存儲(chǔ)其有用性。對(duì)大量存儲(chǔ)著臨時(shí)信息的基礎(chǔ)設(shè)施而言,幾乎不存在任何投資的利益,因?yàn)檫@一臨時(shí)數(shù)據(jù)中的絕大部分最終都會(huì)被丟棄。另外,從公司防火墻外部轉(zhuǎn)移到公司內(nèi)部的網(wǎng)絡(luò)數(shù)據(jù)也很難產(chǎn)生多少有價(jià)值的信息。而云平臺(tái)的使用則能很好地解決這一問題。在收集過濾數(shù)據(jù)這一階段中,建立一個(gè)公有云平臺(tái)是最明智的選擇,它可以提供按需擴(kuò)展的計(jì)算和存儲(chǔ)資源。
3. 進(jìn)行數(shù)據(jù)分析
一旦數(shù)據(jù)轉(zhuǎn)化為可用的形式,那么就進(jìn)入到分析產(chǎn)生信息的階段。從長(zhǎng)遠(yuǎn)來看,提供給分析應(yīng)用的原始數(shù)據(jù)沒有必要一下保留,需要有效存儲(chǔ)是分析處理的結(jié)果。公有云和混合云技術(shù)可用在分析階段,在數(shù)據(jù)集處理階段可引入Hadoop或類似替代方案。在公有云用戶的情況下,原始分析階段可以在公有云基礎(chǔ)設(shè)施上執(zhí)行,然后使用私有云組件把處理過的、可用的信息拿到公司內(nèi)部。
4. 企業(yè)管理虛擬化
在這一階段,我們已經(jīng)擁有了足夠的可用信息,可以用來指導(dǎo)決策。但這還沒有結(jié)束,還要使這些信息可為用戶使用,還需要將其轉(zhuǎn)化并存儲(chǔ)到現(xiàn)有的系統(tǒng)中,如企業(yè)資源規(guī)劃(ERP)和客戶資源管理(CRM)系統(tǒng)。通過將軟件即服務(wù)(SAAS)應(yīng)用運(yùn)行在云平臺(tái)中,企業(yè)能夠充分利用之前幾個(gè)階段開發(fā)得來的數(shù)據(jù)信息,以強(qiáng)化集成管理模式,并合理規(guī)劃用戶間的相互協(xié)作。