什麼叫大數據?

“大數據”是“數據化”趨勢下的必然產物!數據化最核心的理念是:“一切都被記錄,一切都被数字化”,它帶來了兩個重大的變化:一是數據量的爆炸性 劇增,最近2年所產生的數據量等同於2010年以前整個人類文明產生的數據量總和;二是數據來源的極大豐富,形成了多源異構的數據形態,其中非結構化數據 (包括語音、視頻、圖像等)所佔比例逐年增大。

牛津大學互聯網研究所維克托·邁爾-舍恩伯格教授指出,“大數據”所代表的是當今社會所獨有的一種新型的能力——以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見①。

這種“前所未有的”巨大價值和深刻洞見,並不僅僅來自於單一數據集量上的變化,而且是不同領域數據集之間深度的交叉關聯,可稱之為“跨域關聯”。譬 如微博上的內容和社交關係,Flickr上的圖片共享,手機通訊關係,淘寶上的購物記錄等數據通過同一個用戶關聯起來;又如移動手機定位的移動軌跡,車載 GPS的移動數據,街旁上的簽到數據,順豐物流的遞送數據,智慧城市中的文本描述等數據通過同一個地點關聯起來。跨域關聯是數據量增大后從量變到質變的飛 躍,是大數據巨大價值的基礎。

大數據會給整個社會帶來從生活到思維上革命性的變化:企業和政府的管理人員在進行決策的時候,會出現從“經驗即決策”到“數據輔助決策”再到“數據 即決策”的變化;人們所接受的服務,將以数字化和個性化的方式呈現,藉助3D打印技術和生物基因工程,零售業和醫療業亦將實現数字化和個性化的服務;以小 規模實驗、定性或半定量分析為主要手段的科學分支,如社會學、心理學、管理學等,將會向大規模定量化數據分析轉型;將會出現數據運營商和數據市場,以數據 和數據產品為對象,通過加工和交易數據獲取商業價值;人類將在哲學層面上重新思考諸如“物質和信息誰更基礎”“生命的本質是什麼”“生命存在的最終形態是 什麼”等本體論問題……

綜上,大數據不是數據量的簡單刻畫,也不是特定算法、技術或商業模式上的發展,而是從數據量、數據形態和數據分析處理方式,到理念和形態上重大變革 的總和——大數據是基於多源異構、跨域關聯的海量數據分析所產生的決策流程、商業模式、科學範式、生活方式和觀念形態上的顛覆性變化的總和。

大數據的戰略地位

大數據被認為是繼信息化和互聯網后整個信息革命的又一次高峰。雲計算和大數據共同引領以數據為材料,計算為能源的又一次生產力的大解放,甚至可以與以蒸汽機的使用和電氣的使用為代表的第一次工業革命和第二次工業革命相媲美。

與提升國家競爭力及國民幸福程度密切相關的重大戰略都與大數據的分析和利用息息相關,包括與國家安全社會穩定相關的尖端武器製造與性能模擬實驗,群 體事件和謠言的預警和干預;與國家科技能力相關的等離子即高能粒子實驗分析,納米材料及生物基因工程;與國民經濟繁榮相關的經濟金融態勢感知與失穩預測, 精準營銷與智能物流倉儲;與環境問題相關的全球氣候及生態系統的分析,局部天氣及空氣質量預測;與醫療衛生相關的個性化健康監護及醫療方案,大規模流行病 趨勢預測和防控策略;與人民幸福生活相關的個性化保險理財方案,智能交通系統等等。數據儲備和數據分析能力將成為未來新型國家最重要的核心戰略能力。

2012年3月29日,美國政府宣布了“大數據研究和發展倡議”,來推進從大量的、複雜的數據集合中獲取知識和洞見的能力。該倡議涉及聯邦政府的6 個部門(國家科學基金委、國家衛生研究院、能源部、國防部、國防部高級研究計劃局和地質勘探局)。這些部門將投資總共超過兩億美元,來大力推動和改善與大 數據相關的收集、組織和分析工具及技術。

2012年5月,我國召開第424次香山科學會議,這是我國第一個以大數據為主題的重大科學工作會議。中國計算機學會、通信學會等於2012年分別 成立了“大數據專家委員會”。2012年9月13日,北京航空航天大學聯合英國愛丁堡大學、英國利茲大學、香港科技大學、美國賓夕法尼亞大學、美國亞利桑 那州立大學、加拿大渥太華大學等共同組建大數據科學與工程國際研究中心。

2012年12月13日,在“中關村大數據日”活動會上,由寬帶資本、百度、用友、中國聯通、聯想集團、北京大學、北京航空航天大學、阿里巴巴、騰 訊等企業、高校共同發起成立了大數據產業聯盟,並在中關村雲基地揭牌成立大數據實驗室,該實驗室以大數據產業孵化基金形態成立,致力於推動學術界大數據創 新科技成果產業化以及為相關產業引導注入大數據科技元素。

自然科學基金委於2013年3月5日~7日,在上海同濟大學舉辦了第89屆“雙清”論壇,論壇的主題是“大數據技術與應用中的挑戰性科學問題”,與會的有近十名院士。2013年6月30日,中國信息化百人會以“大數據:挑戰與機遇”為主題,在上海召開第四次專題研討會。

大數據商業革命

傳統的商務智能已經應用了數據倉庫和數據挖掘的技術,對企業自身的數據進行存儲、清洗、索引和分析,並能夠提供包括客戶價值評價、客戶滿意度評價、 服務質量評價、營銷效果評價、市場需求評估等各種基於簡單統計和關聯挖掘的報表——這些統計結果對於企業自身評估和決策起到了重要的作用。

在商務智能時代積累起來的和數據打交道的經驗既是大數據新商業模式技術和理念的基礎,又有可能束縛大數據商業革命,因為有經驗的商務智能人士會不自覺地把大數據分析庸俗化,認為只是傳統商務智能針對更大規模數據集的一種平凡推廣。

大數據商業模式也可以粗略地分為1.0版本,2.0版本和3.0版本。

大數據1.0追求從數據到分析,從分析到更多更好的數據,再到更深入分析這樣的正向循環。它是指企業自身的產品和服務產生了大量的數據,通過對這些數據進行深入的挖掘分析,改進自身業務,改進后的業務吸引更多用戶或客戶,產生更大量的數據,形成正向的循環。

亞馬遜是一個典型的例子,他們利用以“基於商品的協同過濾”為主要代表的一系列推薦算法②,幫助用戶找到他們可能喜歡的商品。百分點科技從事類似的 數據分析,但他們不是分析自己的銷售數據,而是整合了五百多家电子商務網站和一百多家資訊網站的數據,從用戶的瀏覽、收藏、點擊行為中猜測用戶意圖,推薦 用戶感興趣的商品和資訊③。

這些精準的個性化服務的背後,是非常複雜的算法和實時大數據處理能力④。個性化推薦算法大大提高了用戶的黏度和企業的銷售額,從而產生了更多有價值的數據,這些數據又幫助亞馬遜和百分點把分析做得更深入,進一步提高自身或客戶的訪問和銷售量,產生更多高質量的數據。

大數據2.0強調的是數據的外部性。它是指企業用自身業務產生的數據,去解決主營業務以外的其他問題,獲得重大的價值;或者引入非企業自身業務的外 部數據,來解決企業自己遇到的問題。谷歌(Google)曾利用網頁搜索詞的記錄,來預測流感爆發后隨時間變化的新增病例數以及實時電價⑤。

顯然,預測流感趨勢和實時電價這些需求並不包含在記錄網頁搜索詞的初衷中。ZestFinance有一個口號,就是一切數據都是信用數據,實際上,他們大量採集用戶在社會媒體上留下的數據,從這些數據中對用戶的信用進行判斷,特別地,預測用戶拖延還貸的概率。

ZestFinance通過這種分析,能夠在低於行業平均拖延還貸率的條件下,進行更快更低成本的貸款發放。顯然,用戶在社交媒體上產生的數據,並 不是ZestFinance自身產生的,但是一樣可以服務於ZestFinance的業務。同樣,自身業務產生的數據可以用來服務於其他行業,產生重大價 值。譬如淘寶的銷售記錄可以用來估計消費價格指數(CPI),手機移動軌跡數據可以用於交通預報和交通規劃,等等。

大數據3.0是一個尚在探索中的商業形態。它首先要求政府和行業,對數據質量、價值、權益、隱私、安全等產生充分認識,出台量化與保障措施。在此基 礎上,數據運營商出現,提供集成數據和存儲、計算的平台。在此基礎上,形成了以加工粗數據和已有數據產品,產生新的數據產品為主要活動的數據客 (Dacker)。

個人、團隊和企業通過數據API接口或其他方式付費使用數據產品,數據客、運營商和被加工原料所有者共同分享數據產品的利益。數據市場也可能應運而 生,數據和數據產品有可能像今天淘寶集市上的商品被售賣交換。於是,一種以數據/數據產品為輸入,數據/數據產品為輸出的新商業模式誕生,這種模式不同於 2B(to business)和2C(to customer)的模式——譬如一款精確位置告知實時空氣質量的API接口(應用程序接口),既可能被企業和政府使用,也可能被個人使用。為了區分,我 們稱這種模式為2D(to data)的商業模式⑥。新商業模式的直接後果,就是促進學術團體、企業和政府通過大量異質數據和數據產品產生科學、社會、經濟等方面的新價值。

大數據科學革命

科學界實際上比產業界更早意識到了大數據的巨大影響,英國的《自然》雜誌在2008年9月就推出了名為“大數據”的封面專欄,講述了數據在數學、物 理、生物、工程及社會經濟等多學科扮演的愈加重要的角色。越來越多的數據本身,在以數據為準繩的研究理念指導以及愈發強大的計算能力支撐下,正在驅動一次 科學研究方法論上的革命。

以前基於實驗室小規模控制實驗的半定量甚至以定性為主的學科分支將走向基於大規模非控制數據分析的定量科學,其中社會學、心理學和管理學首當其沖。 通過數據分析,我們可以在數千萬甚至上億樣本的規模下研究宗教問題、亞文化問題、信息傳播軌跡、社會流動性問題等,而這在以前的社會科學中是絕對不可想象 的。

首先,數據給我們提供了一個解釋現象的新穎視角。我們可能都記得道金斯在其飽受爭議的名著《自私的基因》中講很多自然和社會現象都歸結於一種將自己 基因在生物界中最大可能傳播的內在驅動力。這類演化生物學的假設很難再高等生命中獲得直接的驗證——難道你會承認一段段刻骨銘心的愛情背後僅僅是出於繁殖 的目的嗎?最近的一項研究另闢蹊徑⑦,科學家分析了320萬手機用戶4.89億條短信和19.5億條通話記錄,根據通信頻繁程度,找出了每個人的第一好 友、第二好友等。

統計显示,男性和女性從青春期直到四十多歲,第一好友往往都是一個同齡異性,女性覺醒更早,對異性的高關注度保持的時間比男性長——這個第一好友, 不言而喻,就是所愛之人。而到了50歲左右的時間,男性的第一好友往往還是一個同齡的女性(他的太太),第二好友是一個或男或女的20歲左右的年輕人(他 的子女),而女性的第一好友往往都是她的子女。這體現了女子很明顯地將自己的社會資本從配偶轉移到了子代。

有趣的是,男性儘管在30多歲的時候表現出對同齡異性特定高關注度的快速下降,但是在進入中老年後對配偶的依賴性遠遠高於女性。這樣的研究當然不能嚴格證明任何演化生物學的假說,但是卻給出了一種研究這類問題的有趣而新穎的視角。

類似地,2010年科學家通過對全英32482個行政區6500萬人口通話關係的研究發現,電話聯繫人多樣性越強的行政區,其經濟社會發展水平也越 高,從一個側面證明了社會資本等價於經濟資本⑧。我們最近和印第安納大學合作,通過對8498份菜譜的分析,證明了地理文化因素比氣候因素對於飲食結構的 形成作用更大,挑戰了“氣候決定飲食結構”這一廣泛為人們接受的常識。

其次,數據給我們提供了一個繞開理論直接走嚮應用的新途徑。Google分析了5000萬搜索詞,從中找到所有和流感傳播趨勢有關的搜索詞,又通過其中相關性最強的45個詞,利用線性回歸模型,預測流感的染病人數⑨。

Google的預測非常準確,並且能夠比疾控中心早一周對實時染病情況進行預報。我們最近分析了包括亞馬遜和Netflix在內的4個網站上數百萬 用戶對各種商品的評分數據,發現用戶的評分存在明顯的錨定效應⑩,也就是說,用戶在給出一個高分之後,下一次評分也偏高,在給出一個低分之後,下一次評分 也偏低。

這和我們常識中看過一部爛片之後下一部片子無論如何都不錯正好相反——我們甚至可以推論,如果你的前任是極品,你的現任恐怕要受前任連累,而不是從 中獲益,當然,這還需要大數據科學的驗證。我們進一步的研究显示,如果去除掉這些心理的偏差,我們對於用戶的評分預測和推薦會變得更加精確。可以看 到,Google並沒有給出從搜索詞到疾病預測之間的某種嚴謹的理論,我們也沒有對人們評分的心理行為給出任何理論解釋,但是通過海量數據分析得到的這些 研究結果已經可以應用於實際了。

大數據帶來了很多新的重要的科學問題,其中最重要的是預測。預測問題主要可以分為兩類,一是趨勢預測,二是缺失信息預測。趨勢預測是指通過事物的一些基本屬性信息和早期的態勢分析,預測事物發展的軌跡和最終影響力。

譬如通過分析社交網絡中註冊一個月的用戶的行為以及這些用戶與其他用戶的互動,預測哪些用戶將來會成為很有影響力的用戶;通過用戶-商品兩部分圖中 產品的早期表現,例如一首新歌或一個新歌手上線一周的情況,來預測這首歌或者這個歌手有沒有可能走紅;通過一條信息早期數小時在微博網絡上的傳播情況,來 預測這條信息最終的影響力等等。

缺失信息預測假設我們觀察到的信息只是全部真實信息的一部分,在這個基礎上探討如何利用當前信息去預測未觀察到得信息。譬如我們現在通過實驗所知道 的蛋白質之間的相關作用關係只是全部關係中很小的一部分,但是實驗驗證費用昂貴,通過預測,預先判斷哪些蛋白質之間可能有相互作用並以此指導實驗,能夠大 大節省實驗成本。

又比如,新浪微博上的關注對象推薦是一種典型的缺失信息預測,因為做出推薦的基本假設是“某甲應該關注某乙,只不過現在還沒有關注”。在可預期的未來,絕大部分深入的大數據應用,都可以轉化為某種預測問題。

文章來自:199it