當大數據充斥各種場合,從馬雲到釋昭慧都侃侃而談,你還能不懂什麼是大數據嗎?你也許已經聽過無數的大數據神話,但對於大數據仍停留在一知半解階段,《數位時代》專訪各大大數據專家,整理出你最應該知道的大數據十問。
Q:大數據從哪來?
A:任何地方。隨著物聯網興起,任何以前不可能產生資料的東西或地方都可能「資料化」。天睿資訊(Teradata)首席技術長寶立明認為大數據的發展可以分成三階段,正說明了大數據的來源多樣化:.com時期、社群網路時期和物聯網時期。
早在2000年初網路熱潮興起,人們就已經開始研究log資料,蒐集使用者的cookie和搜尋行為等。而社群網路如Facebook或Twitter將人們的互動關係數據化,這些社群數據創造了大量的商業價值。而第三階段物聯網時期,可能是最有趣的階段,無論是機器還是人都開始被數據解構,數據可能來自手錶、鞋墊甚至皮帶,這些物聯網數據將是接下來重要的數據分析對象。
Q:大數據有什麼風險?
A:傳統商業分析會有的風險,大數據也都會有,這並非大數據才有的問題,「個資安全問題」一直都存在,只是隨著資料來源越來越多且資料量越來越大,資安問題更顯迫切罷了。市場研究機構Gartner研究副總裁布萊恩(Brian Prentice)指出,大數據本身並沒有資安問題,問題在企業應用資料的方式,Gartner預測2018年,企業違反商業倫理的案件中,有近50%都來自不當的大數據應用。
另一值得關切的是大數據可能帶來的「資料獨裁問題」,根據大數據領域權威麥爾苟伯格(Viktor Mayer-Schönberger)的說法,資料獨裁指的是任由資料來管控我們,盲目受到分析結果的制約,導致濫用或誤用資料。例如根據數據分析將人群分類,其實有可能會把個體給標籤化,甚至污名化某些族群,想像未來若我們用數據預先打擊犯罪,那會是什麼情景?
Q:Big Data和Open Data有什麼不一樣?
A:開放資料(Open Data)是大數據的一種,但大數據不等同於開放資料。開放資料是指將原本受私人組織或公部門管理的原始資料無條件地開放出來,供任何人使用。近年來討論度較高的是公部門的原始資料,許多民間團體主張公部門資料本為民眾所有,除非涉及個人隱私,否則公部門應無條件開放資料,讓民間可以介接資料,除了瀏覽,還可以加值應用。
對新創企業而言,開放資料是非常好的資源,當創新遇上開放資料,很可能激起無盡想像。例如李慕約有限公司創辦人李慕約就利用政府開放的農產品即時價值資料,設計出果菜花終端機,用視覺化的圖表呈現農糧署累積近20年的資料。
Q:什麼產業特別需要大數據解決方案?
A:根據Gartner的報告,媒體傳播業、銀行業和服務業最早導入大數據,保險業、零售業和醫療照護業預計在兩年內導入,但阿里巴巴副總裁車品覺指出,以後任何一種產品或服務都潛藏著巨大的「數據化」潛力,企業需要加強對數據的重視,更加注重數據的蒐集和整理工作。
根據《大數據@工作力》一書作者湯瑪斯.戴文波特(Thomas H. Davenport)的說法,他根據資料量、所有權和資料應用程度,將產業分成高成就者、資料劣勢者和低成就者。高成就者是那些擁有大量數據,而且已經展現出優異的數據分析成果的企業,例如消費性商品、保險業者、互聯網公司、旅遊、運輸和信用卡公司。
在所有互聯網公司中,又以電子商務業者對數據的應用最直接和強烈。以全球最大的電商平台阿里巴巴為例,阿里巴巴假貨問題向來猖獗,但透過分析商品文字、圖片描述、權利人投訴,甚至是社交媒體等16種維度的數據,結合大數據打假貨,現在阿里巴巴有90%以上的下架商品都是大數據系統主動出擊發現的。
而低成就者是坐擁大量資料,但因法規限制或思維僵化等原因,還沒利用數據變現的產業,如媒體、電信、銀行和零售,但其中仍不乏已開始使用數據的例子。例如大型零售業者卡特琳娜行銷集團(Catalina Marketing)就藉由分析超過1億人的消費紀錄,結合旗下5萬5千家零售店舖的POS機資料,交叉比對顧客的消費紀錄,針對顧客的消費喜好發送優惠券,提高行銷效率。
資料劣勢者則是手邊資料不多,或是雖有足夠資料,卻缺乏完整結構的業者,也較缺乏資料分析能力,例如許多B2B公司沒有辦法接觸到第一線的消費者,而是提供服務給下游廠商,致其先天上就沒有第一手資料。值得注意的是,醫藥機構雖然被戴文波特列為資料劣勢者,但這是因為美國的病歷電子化程度低,不若台灣擁有全世界最完整的國民健保資料庫,因此台灣的醫療機構應是低成就者,而非資料劣勢者。
Q:大數據的商業模式是什麼?
A:大數據的商業模式大概可分成幾種:一、從既有數據變現;二、以數據提升企業競爭力;三、以數據做為服務的基礎與核心,用數據顛覆傳統行業。
模式一,數據本身即為產品或根據數據制定行銷策略、改善產品。例如美國運通讓持卡人與自己的Facebook帳號連結,持卡人成為美國運通粉絲團粉絲後,美國運通會依據會員在Facebook上的活動,提供相應的優惠措施,結合社交數據和會員資料,就是為了提升消費者辦美國運通卡的誘因。
模式二是藉由數據提升競爭力,這類的大數據專案成效較無法直接反映在營收上,而是反映在提升內部工作效率或降低決策成本上。例如許多人都知道LinkedIn透過數據精準推薦職場人脈給用戶,卻不知道LinkedIn在公司內部推出數百款數據分析產品,幫助內部員工提升工作效率,其中Voices就是一款能將LinkedIn客服內容,在1分鐘內快速生成分析報告的數據分析工具。
無論是模式一還是模式二,其實都有掌握過去、預測未來和防患於未然的共同點,只是一個應用層面是對外,一個對內,這兩種模式常見於既有的企業。但模式三,也就是以數據做為業務核心的公司,這些公司生來就是要來顛覆傳統行業,它們打從開業的第一天起就把數據當做業務核心,叫車App Uber和防詐騙電話App Whoscall是最好的例子。
(轉自 《數位時代》第251期 )
Comments