每個人都知道互聯網改變了企業經營、政府運作以及人們生活的方式。但是一種新的、不那么明顯的技術趨勢卻有著同樣巨大的變革能力,那就是“大數據”。大數據的趨勢發端于下面這個事實:如今到處傳播的信息比以往任何時候都多出了許多,而且這一趨勢正在應用于非同尋常的新用途。大數據與互聯網截然不同,雖然互聯網使數據的收集和共享方便了很多。大數據的意義并不僅僅是通信:其本質是我們可以從大量的信息中學習到從較少量的信息中無法獲取的東西。
將改變人類思考方式
早在公元前3世紀,亞歷山大圖書館被認為收藏了全部的人類知識。而如果把當今全世界的信息平分給每一個活著的人,那么每個人擁有的信息量將足足超過當年亞歷山大圖書館全部藏書的320倍。如果把所有這些信息刻到光盤上并且分五摞疊起來的話,那么這些光盤可以一直堆到月球。
這種數據爆炸是相對新鮮的現象。僅僅在2000年的時候,全世界全部的存儲信息中還只有四分之一是數字化的,其余的都保存在紙張、膠片和其他模擬介質上。但是由于數字數據數量的增長十分迅速——幾乎每三年就翻一番,這種情形很快發生了逆轉。如今,在所有存儲信息中只有不到2%是非數字化的。
鑒于如此懸殊的比例,人們免不了在理解大數據的時候僅僅從數量上進行考慮。然而這將會產生誤導。大數據的另一個特征是它能夠用數據來表現世界的眾多層面,而這些層面以往從來都沒有被量化過——這種特征可以被稱為“數據化”。例如,位置信息的數據化最早是由于經緯度的發明,而最近又有了GPS。當計算機對幾個世紀內的書籍進行取樣時,文字便成了被處理的數據。甚至連友誼和愛好也被數據化了——例如通過Facebook。
借助于廉價的電腦內存、高性能處理器、智能算法、聰明軟件以及從基本統計學中借鑒來的數學知識,這樣的一類數據正在被應用于難以置信的新用途中。這種新方法并不是試圖“教會”計算機去從事駕駛或翻譯這樣的事情,而是要向計算機輸入足夠多的信息,從而使它們能夠推斷概率,例如交通指示綠燈亮、紅燈不亮的概率,或者是在特定語境下“light”一詞意為“光”而不是“輕”的概率。
以這種方式對大量數據加以利用,要求人們在三個方面徹底改變對數據的態度。第一是收集和使用大量數據,而不是像統計學家們在過去100多年里所做的那樣,只滿足于少量的數據或樣本。第二是拋棄人們對有條理和純凈的數據的偏愛,轉而接受雜亂無章——在越來越多的情形下,少許的不精確是可以容忍的。第三,在許多場合,人們需要放棄對事情原委的追究,而代之以對相關性的接納。利用大數據,而不是試圖弄懂發動機拋錨或藥物副作用消失的確切原因,研究人員可以收集和分析大量有關此類事件的信息及一切相關素材,找出可能有助于預測未來事件發生的規律。大數據有助于回答是什么、而不是為什么的問題——通常有這樣的回答就足夠了。
互聯網重塑了人類交流的方式。大數據則不同:它標志著社會處理信息方式的變化。隨著時間的推移,大數據可能會改變人們思考世界的方式。隨著人們利用越來越多的數據來理解事情和作出決定,人們很可能會發現生活的許多層面是隨機的、而不是確定的。
從因果關系到相關性
人們看待數據的方式的兩個變化——從局部變為全部以及從純凈變為凌亂——催生了第三個變化:從因果關系到相關性。這代表著告別總是試圖了解世界運轉方式背后深層原因的態度,而走向僅僅需要弄清現象之間的聯系以及利用這些信息來解決問題。
加拿大的研究人員正在開發一種大數據手段,以便能在明顯癥狀出現之前發現早產嬰兒體內的感染。通過把包括心率、血壓、呼吸和血氧水平等16種生命體征轉化成每秒1000多個數據點的信息流,他們已經能夠找到極其輕微的變化與較為嚴重的問題之間的相關性。最終,這項技術將使醫生能夠提前采取行動,從而拯救生命。
大數據所產生的影響將遠遠超出醫學和消費品的范疇:它將深遠地改變政府的運作方式和政治的性質。在推動經濟增長、提供公共服務或進行戰爭等方面,那些能夠有效利用大數據的人將擁有勝過別人的巨大優勢。迄今為止,最令人興奮的成果出現在市級,在這個級別上獲取數據和利用這些信息進行實驗要容易一些。紐約市長邁克爾-布隆伯格(他本人就是靠著數據行業發家的)率先進行了一項努力:該市正在利用大數據改善公共服務和降低成本。其中一個例子就是新的火災預防策略。