2011年的時候,大家開始才講大數據,有人說這個是大數據,有人說那個是大數據。2012年的時候大家都在嘗試用大數據。而今年很奇怪,我們去美國研討大數據的時候,發現大部分人已經開始停止講大這個詞了,開始說Data。這個詞是非常有意思的,我們把數據工程化,裏面必須要有一個標準要出現,而且在有標準要出現之後,還有一些樓層要出現。

那麼Data我自己的想法是什麼呢?我們這個Data要泛化更多的人要用,更多的人去用上數據,就好象20年前我們讓每一個人用上科技,那今天的數據就是要給更多的人用。

現在我們擁有很大量的數據,我們以前要做一個決定,可能要花很多的錢去投進去要細想,但是今天我們擁有一些大數據的時候,我們以前一些非常難做的決策,相對來說今天很容易做到,其實也是一個很重要的拐點。這個就是當我們能使用數據去去判斷去一個問題的時候,我們就用數據化解決問題。

大數據已經從4個V的年代,Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)延展至三個維度,可實時性、可解釋性、數據準確/穩定性。這三個維度是我們現在到底數據能不能用上的很重要的三個維度。

我們現在整個數據裏面的問題是什麼呢?整個數據的問題是,業務的人不知道數據怎麼用?做數據的人不知道別人怎麼用?所以裏面是有一個很大的障礙在中間的,所以這是大數據鋪普遍存在的一個現象。如果今天我們有很多的大數據,我們不是認為有一個問題說要找數據來解決一個問題,而是我們運營數據,我們搜集很多數據的數據可以幫我們解決很多未來的問題,這個才叫大數據。

過去阿里大數據做了兩個循環,一個循環是在怎麼用數據,一個循環在下面是說我們怎樣養數據,怎麼改善數據,兩個循環不斷的走動,所以我們在兩個循環裏面不斷的進步,所以數據是練出來的。

三年前,阿里巴巴的大數據不僅可以看,還是可以用的。但是今天走到一個地方是不僅僅讓你用,而且讓別人用。這一次的圈,當我們要做讓別人用的時候,第二個圈就比以前那個圈更困難了,更注重精準性。我們整個數據運營來講,會發現從整個運營裏面產生了一些價值,同時,我們整個東西裏面我們找出很多新的數據跟新的工具。我們最近就在解決這些問題,數據的產生、人才的不匹配、數據冗餘、工具不統一,安全、質量,這些都是我們做數據必須保障的,否則就不容易產生數據的價值。

其實兩年前,我是寫了一個大數據十誡,是講到我們在做數據的時候要關注的幾個問題,我說一切從問題開始,從實踐中提煉數據,讓數據的體驗變得超級簡單,讓數據跟着人走,然後顛覆性來自分類跟重組等等。現在在兩年後,我覺得要改變一下,所以數據質量不敢保證是不敢用的,另外大安全不是監管,監管不了的。因為大數據本身有太大,你需要更多的人來用,但是用監控的方法來監管一個大數據,沒有辦法監管起來。

  

利用數據拿到更有用的數據這個很重要,以後建立數據的數據才有進步,因為我們拚命的做很多模板,但是既然是沒有去保證今天的模板的數據質量,今天的大數據做得好,如果連衡量自己大數據做得好不好都不知道?我們怎麼繼續做好大數據呢?所以我們要建立數據的數據才有進步。

最後有一點很重要的是,我們要讓人做人擅長做的事,機器做機器擅長的事。千萬不要倒過來,人做了機器擅長的事,以及機器做了人擅長的事,這樣效率就會降低。

  本文作者車品覺