未來已來 |數據金礦時代
幾年前,曾經有人發豪語預測「巨量資料」、「大數據」、「Big Data」名詞將在2020消失,取而代之的是眾人習以為常的「資料(Data)」。然而,2020年大數據並沒有消失,相反的是人類對「大」的定義更大了,已儲存容量來說已經來到 Peta byte(10的15次方位元,相當於一台數位單眼相機5年內拍下的所有照片量),而且持續增加。事實是即便是大數據這個名詞還沒出現之前,大數據就一直存在的我們周遭,只是我們還沒有能力去感測、蒐集與解讀罷了。然而,為什麼我們常常會聽到數據就是本世紀的金礦呢?讓我們用幾個例子來說明,大數據分析能力為何在未來扮演重要的角色。
巨量資料的前世今生
讓我們先回到過去,在還無法應用巨量資料的年代。其實自從科學發展以來,科學家一直被迫在有限的資料情境做推論,由於影響的結果的變數非常多,因此,為了能夠加強推論的準確度,科學家就必須透過實驗仔細控制可能的變因,建立理想的實驗環境,來推導出事件的因果關係。舉個簡單例子說明:某個熱帶國家想要觀察國內的整體林業價值,過去作法需要出動負責做田野調查的專家,到不同森林產區小規模實地踏查、採樣與紀錄不同樹木的數目,進而估計出有價值數目的約略密度,再用估計的結果,去估算大範圍林地面積的價值;對比現在的作法,會透過空拍機進行大規模而完整森林產區空拍紀錄、分析再做出精確的估算。
運用空拍技術與影像辨識技術作為大數據應用
在這個例子裡,可以看到幾個明顯對比:首先,空拍機實際走訪每個林地的上空紀錄林地密度的方式,再將因為估計產生的誤差降低與真實間的差距減少,更貼近出產區的真實性。再來,使用空拍機協助則加速取得森林資料的時間,在時間上取得比較高的效率。最後,透過空拍機拍攝會產出是產生影像紀錄資料、飛行高度、飛行速度、風向,而影像也可能再包涵紅外線、紫外線影影像等,而過去的產出的結果是估計的文字的描述與面積、密度等數字,相較之下資料的種類更多樣化(也可能包含更多具有價值的潛力訊息),而從照片與圖表進階到每秒幾十幀的影響紀錄,資料量明顯大增。
大數據的五種特性
從上面的例子的對比,我們可以看出(大)數據處理與過去不同的五大性質:大量(Volume)、快速(Velocity)、多樣(Varity)、真實(Veracity)與價值(Value),對我們解讀、分析、判斷與決策的方式造成不小的影響。而我們也可以將大數據蒐集的方式與分析技術應用至各種產業。這些資訊可以用來分析過去「發生了什麼事?」知道怎麼發生之後,可以用來進步解釋「為什麼發生?」再向下挖掘可以用來「預測是否會發生?」甚至運用這些資料探討「如何讓這些事發生?」
再舉一個時事做為案例說明。快速散佈的的病毒,讓世界醫療體系措手不及,旅客成為最大量而不容易控管的對象,如果沒有辦法有效追蹤到源頭的帶原者,以及來自哪裡?那就沒有辦法從源頭防堵。今年初一位台灣婦人在埃及產生病症,埃及懷疑是台灣的病毒傳入,危害埃及。然而,美國台裔旅美頂尖科學家林清詠創辦的圖策智能(Graphen),在研究來自30個國家,數百個武漢肺炎病毒的基因資料,比對每個病毒裡3萬個基因後,運用病毒的基因變化,終於完成全球第一個武漢肺炎擴散路徑圖。呈現這種病毒如何在短短3個多月竄出中國,還演化出亞型病毒,撲向世界的歷程。據該團隊推測歐洲可能因國境相連,病毒流竄快速,至三月為止,出現三組主要病毒組與多個小支線,從義大利、荷蘭與英國威爾斯回報的三隻病毒,經過變異後一支傳到瑞士,另一支則北上到芬蘭、盧森堡;還有一隻病毒則原本來自澳洲,傳遍整個歐洲,最後使去埃及旅遊的台灣婦人遭感染。也可證實,埃及認為是婦人將台灣病毒傳入埃及,其實是婦人在當地感染了歐洲株病毒。在這個緊張的時間裡,透過大量而有效的資訊取得,協助前線醫療單位突破國家與病例來源的限制看清楚「正在發生什麼事情?」以釐清真正問題的所在、難度避免誤判與不必要的錯誤。(詳細說明:https://futurecity.cw.com.tw/article/1319)
圖策智能(Graphen)以基因序量分析追蹤病毒變異與散佈(圖片來源:https://futurecity.cw.com.tw/article/1319)
數據成為金礦
我們的世界本來就被巨量資料覆蓋,只是過去我們還沒有能力消化這些資訊。巨量資料與大數據時代的到來,讓科技幫我們打開能夠接收與存取這些大量資訊,每個人身邊的手機、聊天軟體、遊戲APP、公車APP、美食APP、運動手環等各種不同的載具隨時都在接受我們發出的訊號,並收納為每個單位的資料。這些龐大的資料背後就需要熟悉巨量資料處理的人才,經過適當的整理,資料可反應興趣與喜好,喜好則代表價值;在21世紀裡,相較價值固定而有限的自然資源,這些源源不斷並且具有潛在價值的數據資料,自然而然變成為人們眼中的金礦了。