大數(shù)據(jù),指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
近兩年來,“大數(shù)據(jù)”被廣泛應(yīng)用到各行各業(yè),而近階段又有著明顯的過熱跡象。從央視的春運遷徙圖到姚晨看到微博數(shù)據(jù)的驚呼;從兩會期間的兩會大數(shù)據(jù),到《星星》都叫獸的高低領(lǐng)毛衣,“大數(shù)據(jù)”被人們推到了一個前所未有的高度,同時也從一個高精尖的科研方向變成了一個世人皆知的營銷詞匯。
什么是大數(shù)據(jù)?
Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
“新處理模式”是一個很關(guān)鍵的詞匯,這也是我所理解的“大數(shù)據(jù)”區(qū)別于傳統(tǒng)統(tǒng)計分析等最關(guān)鍵的特征之一。這個所謂的“新處理模式”有兩層含義:
1、由于海量的數(shù)據(jù),需要更高效的存儲和處理技術(shù),Hadoop成為了大數(shù)據(jù)時代的標志;
2、如果你認為大數(shù)據(jù)就等于Hadoop,那就大錯特錯了。Hadoop只是大數(shù)據(jù)時代的一個必要條件,大數(shù)據(jù)還有一個明顯的標志是數(shù)據(jù)挖掘和人工智能的緊密結(jié)合。這也是我理解的“大數(shù)據(jù)”與現(xiàn)在很多所謂“大數(shù)據(jù)”項目最明顯的區(qū)別之一。我會在后面的案例中給大家展開。
除了上面的“新處理模式”上的區(qū)別,個人認為還有一個最主要的區(qū)別是:數(shù)據(jù)統(tǒng)計分析是基于已有數(shù)據(jù)的縱向歸類,而大數(shù)據(jù)是基于對已有海量數(shù)據(jù)的處理,對還未產(chǎn)生的數(shù)據(jù)作出預(yù)測和推薦。數(shù)據(jù)統(tǒng)計是已經(jīng)發(fā)生的事情,而大數(shù)據(jù)往往被用于還沒有發(fā)生的事情預(yù)測或者推薦中。
預(yù)測和推薦,是如何實現(xiàn)的?
目前主要的推薦算法大致可以分為兩類。一個是基于行為,一個是基于內(nèi)容。當然,針對不同的領(lǐng)域,不同的預(yù)測和推薦的對象,又會有十余種算法。這就不是本文展開的內(nèi)容了。
基于行為的分析,顧名思義,即對用戶在互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)留下的“痕跡”,即瀏覽、點擊、收藏、購買、二次購買的分析,得出未來會選擇購買的預(yù)測和推薦結(jié)果;谛袨榈姆治,屬于群體智慧,綜合利用群體用戶的行為偏好。用戶之間會相互影響,更加符合現(xiàn)實世界中的用戶行為。
基于內(nèi)容的分析,包括對文字、圖片、音頻、視頻等信息的分析,得出預(yù)測和推薦的結(jié)論。內(nèi)容的“基因”和用戶的偏好相匹配,最有代表的是潘多拉的音樂推薦項目,其將曲庫中所有歌曲都由400多位專家打上標簽,然后建立個人與音樂的聯(lián)系,從而完成音樂的推薦。內(nèi)容的分析只針對個人,與用戶之間關(guān)系無關(guān)。
大數(shù)據(jù)的應(yīng)用
簡單地來說,大數(shù)據(jù)可以幫我們解決決策和 選擇的問題。
天氣預(yù)報就是一個最古老而且眾所周知的預(yù)測。你可以根據(jù)預(yù)報來決定明天穿什么衣服,是否要帶雨傘,等等;
近兩年來,大數(shù)據(jù)被應(yīng)用到影視制片行業(yè),基于對觀眾偏好的分析,去預(yù)測、設(shè)計觀眾喜歡的劇情,找觀眾喜愛的演員出演相關(guān)的角色,甚至可以去預(yù)測票房。這些所有的預(yù)測都是基于數(shù)據(jù)的基礎(chǔ)上,經(jīng)過一定的模型處理,得到接近真實的結(jié)論。從某種程度上給決策者決策的依據(jù),比如《紙牌屋》和《星星》。
大數(shù)據(jù)還有一個重要的作用,就是解決人們的“選擇”問題。別笑,無論你的年齡、性別、教育背景,人們目前都面臨著前所未有的選擇問題。講的學術(shù)一些,這是由于“長尾效應(yīng)”導(dǎo)致的問題;講得通俗一些,就是由于日益增多的可選擇的對象和我們自身的處理能力之間的矛盾。
科技的進步讓人變得更懶,也就是我們自身的處理能力降低,無論是主觀的還是客觀的。而可被選擇的對象卻在日益增多。從紛繁復(fù)雜的商品(電商),到海量曲庫中的樂曲;從婚戀網(wǎng)站的男女朋友,到交通管理的信號燈。
基于人工智能下的大數(shù)據(jù),就是可以使人們“變懶”的一個手段。基于你的歷史行為,判斷出你可能的喜好,乃至需求,將最佳結(jié)果,推薦給你。這就是大數(shù)據(jù),她是你的貼心管家,或者說是最懂你的朋友。
一個最經(jīng)典的案例是沃爾瑪曾經(jīng)做過的“啤酒”和“尿布”調(diào)研:沃爾瑪在研究中發(fā)現(xiàn),一類顧客經(jīng)常在購買尿布的同時也購買啤酒。尿布跟啤酒自然是毫無關(guān)聯(lián)的兩個品類的商品,從個人經(jīng)驗上來看,根本想不到二者的聯(lián)系。后來發(fā)現(xiàn),這是一類社會現(xiàn)象所導(dǎo)致的。美國有很多年輕夫婦,尿布用完后,女主人在家?guī)Ш⒆,而男主人就去超市買尿布。買完尿布之后,男主人通常會順帶著買些啤酒。
上述例子說明,數(shù)據(jù)經(jīng)?梢宰屇惆l(fā)現(xiàn)看似不合理不合邏輯但卻存在,并且經(jīng)常發(fā)生的現(xiàn)象。
再舉個例子,北京的交通擁堵是地球人都知道的事情。尤其是早晚高峰,這已經(jīng)不需要預(yù)測了。但如果根據(jù)歷史交通數(shù)據(jù),再經(jīng)過數(shù)學模型,計算出一個全北京最佳的交通信號燈管理系統(tǒng),這就屬于大數(shù)據(jù)的范疇了。
大數(shù)據(jù)的誤區(qū):不是萬能的
大數(shù)據(jù)顯然不是萬能的。正因為如此,她才真實。大數(shù)據(jù)在有些領(lǐng)域由于種種原因,所帶來的價值并不如預(yù)期的那么高。導(dǎo)致這種現(xiàn)象最主要的問題有兩個,一個是由于數(shù)據(jù)本身的質(zhì)量或者數(shù)量不夠;另一個是算法不合適。
不要以為是海量數(shù)據(jù)就一定會有價值,在過往的工作中,我們經(jīng)常發(fā)現(xiàn)來自甲方的數(shù)據(jù)源有80-90%的數(shù)據(jù)都是無用的。只有10%-20%的數(shù)據(jù)才會產(chǎn)生一定的價值。這就又讓我想到MarryMeeker打的那