很難得的機會,在炎熱的午後,與昔日老師和一群學術菁英們,聆聽【學術志業】與【大數據】兩個主題。
【學術】這回事,依據我的信念:是無私奉獻與分享。人類的文明與進步,也是基於這種【利他】精神,才能不斷往前走。至於是否利用學術謀生餬口,這就涉及個人價值觀,不置可否,不便評論。
【大數據】無所不在,從Google、Yahoo、Twitter、Facebook到阿里巴巴、鴻海…
過幾天,可能你家巷口早餐店老闆,也會暢談他的【大數據】心得……
哦!不要笑,這真的已經發生過了。
我在前文【大數據(Big Data)的我見我思與反思】當中,
描述的重點,是希望強調大數據的【延續】(Continuity)特性。
君不見當下各大型企業體、學術機構,甚至電商,近來不斷地投入龐大資金,
建構所謂大數據、巨量(海量)資料研究中心,試圖擴大版圖,激化市場。
例如鴻海,耗資逾十億在中國大陸貴州設立【鴻海貴州綠色隧道數據中心】,
垂涎的利基在於:我們能不能除了把【資料】變成有價值的【資產】?還可永續掌握資料的【來源】?
這個【來源】的概念,包括【延續】(Continuity)與【活力】(Vitality)兩個意涵;
【活力】代表資料是活的,不是死的、靜止的、封閉的。
基本上,大數據的相關工作,其實也可以粗略區分三大階段:
一是【導入】(Import),二是【分析】(Analysis),三是【解釋】(Explanation)。
在還沒有【大數據】名詞出現以前,計量分析若無法進行普測(查),最好的方法就是抽樣,
以適合的樣本分析結果,來推估母群體的參數、結構、分布情形。
因此,統計學及其相關應用知識與技能,便主導了計量分析成果的優劣成敗。
過去以推論統計知識領銜的計量分析方法,對於當前的大數據處理,適合嗎?
答案當然是肯定的!
處理大數據,必定要用上統計學、資料學、資訊科技等專業知識和技能;
但是,有兩個問題無法迴避:
第一、這些巨量資料的分布,是否仍如統計教科書所云:呈現【吊鐘形】的常態分配(假設)?
第二、僅一次性擷取分析【巨量】資料,結果就能斷定為真?甚至因果關係?
於此,我更想強調的是:【大數據】應該是一種【視域】。
平心而論,大數據不算甚麼新玩意兒,也不像【神奇海螺】般有問必答;
它算是人們面對又大又活,千變萬化的資料,一種在方法論層面的視域。
舉例而言:各類型的開放資料,讓有志於大數據分析的學習者,有了很好的操練對象,
可如果它僅是【一筆】資料,就算把它玩得出神入化,
把教科書所有的統計方法全部給做過一遍,拒絕了千百個虛無假設,
就像池塘釣魚,釣上來的,永遠只是【池中之物】;
若想捕獲【七海蛟龍】,那得到大海裡去找。
統計是可以解決後端分析的問題;倘若想要常保大數據來源的【延續】與【活力】,
勢必要設法【導入】源源不絕的資料;這資料也許大到可怕,大到足以排除不確定性。
在過去,可能是有甚麼資料,做甚麼分析;而現在,應該是【做甚麼分析,找甚麼資料】。
另外,也包括必須具備可在茫茫資料大海當中,慧眼識珠般的【資料洞察力】,
那麼,透過有價值的資料,找到寶藏的機率,才會大增;
否則,就只是GIGO(Garbage-In-Garbage-Out)而已了。
學習如何【導入】資料,讓資料充滿【活力】與【價值】,重要性比起【分析】資料,
毫不遜色。
#大數據 #統計分析 #搜尋引擎 #big data #data analysis #facebook #google #yahoo #search engines