隨著互聯網的飛速發展及計算機技術的日益進步,人們的日常生活越來越依賴于互聯網。即時通訊、網絡購物、社交網站以及微博、微信等典型的互聯網應用已成為了人們日常生活中不可或缺的一部分,既滿足了人們情感交流的需要,又給人們的物質生活帶來了極大的便利。反過來,人們對于互聯網的廣泛使用也給網絡留下了越來越龐大的數據。這些數據包括:用戶上傳的各類文字、照片、視頻以及用戶在各類網站留下的日志記錄等。這類數據的規模變得日益龐大,例如,百度一家公司擁有的數據量就高達數百PB(1 PB = 1,024 TB)。歸納起來,這類數據具有4V特征:Volume(數據量大)、Variety(數據種類多)、Value(價值密度低)、Velocity(處理速度要快)。近幾年來,互聯網應用及網絡接入帶寬都獲得了長足發展,毫無疑問,大數據時代已經來臨。
大數據的興起給網絡領域的科學研究和工程實踐帶來了革命性的變化,這也是這幾年來大數據一直為專家學者及工程師們在各類場合所“津津樂道”的原因。總結起來,大數據所帶來的變化主要體現在以下幾點:
1、當前,數據的發展演進已由DB(Data Base)走向BD(Big Data)。BD和DB存在著很大的不同。與DB相比,BD的體積大得多,處于TB級,乃至PB級,甚至更高。但DB中的數據是高質量的,干凈的,數據價值密度高;而BD中的數據卻與之相反,單位密度的數據價值很低,是非結構化的。如何在BD數據的高存儲及計算成本與低密度價值之間尋找到最佳平衡將是大數據研究的一項長期課題。
2、大數據研究的側重點在于相關性而不是因果性。傳統的科學研究講究因果關系,強調的是精確性;但在大數據里面,相關性成為了研究的焦點。顯然,在相關性這個范疇內,對事物的預測就不能做到絕對精確,而只能在一定的置信區間內對未來做出一定的判斷。事物間存在較強相關性的例子很多,比如,Google通過分析用戶對感冒相關癥狀的搜索頻度能預測流感;阿里巴巴通過對電子商務交易量的下降能預測金融危機。上述所列舉的相關性例子易于被理解,其實,令人費解的例子也不少。例如,有專家發現:人的增重與房屋租賃存在著很強的相關性,這就不容易被理解了,但二者之間卻存在著很強的相關性,可以為我們所用,盡管二者之間并沒有直接的因果關系。總的來講,大數據分析側重于挖掘不同事物間的相關性并以此作為作出各類判斷的依據。
3、大數據使運算更依賴于數據而不是算法。運算可以抽象成簡單的表達式:Y=F(X),F()代表的是算法;而X代表的是數據;Y代表我們希望得到的結果。在大數據時代,F()的重要性下降了,而X的重要性大幅增加,因為較多的數據對于結果的影響要好于較好的模型。
總之,隨著互聯網的飛速發展,大數據時代已經來臨。大數據的特征也日益清晰,大數據的價值是顯而易見的。圍繞著大數據這座“數字寶藏”,越來越多的專家學者以及工程師正在不斷地加入“數據礦工”的行列,正在用他們的智慧去挖掘“數字寶藏”中蘊含的彌可珍貴的“數字金礦”。互聯網的飛速發展產生了巨量的“數字寶藏”,而“數字寶藏”的開發利用必將反過來促進互聯網的進一步發展,催生新的互聯網殺手锏應用,最終造福于廣大網民。