我們通常用大數據(Bigdata)來形容數字化時代下創造出的大量非結構化和半結構化數據。大數據無疑是未來影響各行各業發展的最受矚目的技術之一。在2009年,全世界關于大數據的研究項目還非常有限,二從2011年開始,越來越多的管理者開始意識到,大數據將是未來發展不可規避的問題,到了2012年年底,世界財富500強企業中90%的企業都開展了大數據的項目。
那么,大數據為什么成為所有人關注的焦點?大數據帶來了什么樣的本質性改變?為此,我們與中國計算機學會大數據學術帶頭人、中國人民大學信息學院院長杜小勇教授進行了訪談。
大數據帶來了三大根本改變:第一、大數據讓人們脫離了對算法和模型的依賴,數據本身即可幫助人們貼近事情的真相;第二、大數據弱化了因果關系。大數據分析可以挖掘出不同要素之間的相關關系。人們不需要知道這些要素為什么相關就可以利用其結果,在信息復雜錯綜的現代社會,這樣的應用將大大提高效率;第三、與之前的數據庫相關技術相比,大數據可以處理半結構化或非結構化的數據。這將使計算機能夠分析的數據范圍迅速擴大。
計算機科學在大數據出現之前,非常依賴模型以及算法。人們如果想要得到精準的結論,需要建立模型來描述問題,同時,需要理順邏輯,理解因果,設計精妙的算法來得出接近現實的結論。因此,一個問題,能否得到最好的解決,取決于建模是否合理,各種算法的比拼成為決定成敗的關鍵。然而,大數據的出現徹底改變了人們對于建模和算法的依賴。舉例來說,假設解決某一問題有算法A和算法B。在小量數據中運行時,算法A的結果明顯優于算法B。也就是說,就算法本身而言,算法A能夠帶來更好的結果;然而,人們發現,當數據量不斷增大時,算法B在大量數據中運行的結果優于算法A在小量數據中運行的結果。這一發現給計算機學科及計算機衍生學科都帶來了里程碑式的啟示:當數據越來越大時,數據本身(而不是研究數據所使用的算法和模型)保證了數據分析結果的有效性。即便缺乏精準的算法,只要擁有足夠多的數據,也能得到接近事實的結論。數據因此而被譽為新的生產力。
由于能夠處理多種數據結構,大數據能夠在最大程度上利用互聯網上記錄的人類行為數據進行分析。大數據出現之前,計算機所能夠處理的數據都需要前期進行結構化處理,并記錄在相應的數據庫中。但大數據技術對于數據的結構的要求大大降低,互聯網上人們留下的社交信息、地理位置信息、行為習慣信息、偏好信息等各種維度的信息都可以實時處理,立體完整地勾勒出每一個個體的各種特征。
當數據足夠多的時候,不需要了解具體的因果關系就能夠得出結論。例如,Google在幫助用戶翻譯時,并不是設定各種語法和翻譯規則。而是利用 Google數據庫中收集的所有用戶的用詞習慣進行比較推薦。Google檢查所有用戶的寫作習慣,將最常用、出現頻率最高的翻譯方式推薦給用戶。在這一過程中,計算機可以并不了解問題的邏輯,但是當用戶行為的記錄數據越來越多時,計算機就可以在不了解問題邏輯的情況之下,提供最為可靠的結果。可見,海量數據和處理這些數據的分析工具,為理解世界提供了一條完整的新途徑。