交點高雄vol.3 - 宗斌 - big data

22
海量資料 ( Big Data) 蘇宗斌 [email protected]

Post on 27-Jun-2015

540 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 交點高雄Vol.3 - 宗斌 - Big Data

海量資料 ( Big Data)

蘇宗斌 [email protected]

Page 2: 交點高雄Vol.3 - 宗斌 - Big Data

企業轉型三大關鍵

}  2013天下經濟論壇

人才

研發

海量資料分析

Page 3: 交點高雄Vol.3 - 宗斌 - Big Data

資料有多少?

}  美國總統歐巴馬的科學技術顧問 }  過去3年裡全世界產生的資料量,

}  比以往4萬年的總和還要多。

}  世界第一大儲存設備廠EMC「數位宇宙研究」 }  2009年地球上所有的資料總共0.8ZB(1021)。

}  而地球上所有的沙加起來相當於1ZB。

}  2011年,全球創造與複製的資料量已經暴增到1.8ZB }  得用575億部32GB的iPad才能裝完。

}  全台灣所有的人連續36萬246年,每人每分鐘在噗浪發表3篇文章。

}  這等於一個人每天24小時不停觀看現今世上超過2千億部的2小時HD電影,必須花上4700萬年才能看完。

Page 4: 交點高雄Vol.3 - 宗斌 - Big Data

海量資料那裡來?

}  海量資料的暴增,主要來自近年崛起的社群媒體如臉書、推特的po文與照片、影片分享。

}  大量鋪設的感測器、監視器,加上GPS、醫療成像、智慧電網等等。

}  海量資料不單指文字及數字等「結構性資料」,也包含了照片、影像,還有座標、聲音、心電圖、X光片等「非結構資料」。

Page 5: 交點高雄Vol.3 - 宗斌 - Big Data

尿布 與 啤酒

}  倫敦金融時報(1996/02/07) }  數據挖掘可以實現經常被引用的例子是美國Wal-Mart超市

}  美國的研究學者發現-只要在超級盃舉行期間,尿布與啤酒的銷售量總是會一起攀升。

}  若以傳統眼光來看,兩者可能會被以為是巧合,而加以忽略。

}  但是,研究發現了兩者的微妙關係:因為美國當地男人在看球賽時會習於喝啤酒,所以啤酒的銷售量上升可以理解。而在去購買啤酒時,也會因為妻子的要求下,順便購買了尿布等家用產品。

}  至此之後,就有業者於超級盃舉行期間,特意地將兩樣商品擺在相近的選購位置,果然使得銷售量更較以往出色。

Page 6: 交點高雄Vol.3 - 宗斌 - Big Data

超市比爸爸還早知道女兒懷孕了… }  美國的Target連鎖超市分析大量的顧客消費紀錄,佐以其

他個資,能推算哪些女客很可能懷孕了,然後針對她們做個人化行銷。���有次,一位男子怒氣沖沖跑到店裡,責問超市,他說:「她還在讀高中,你送她的優惠券,有嬰兒服裝和嬰兒床?難道你想鼓勵她懷孕嗎?」

}  但幾天後,本來要求超市道歉的他,卻反過來道歉了,因為和女兒懇談後,他才知女兒真的懷孕了-超市比他早知道。

}  Target連鎖超市分析銷售資料,其中有25種產品,可以分析出購物者的“懷孕預測”分數。更重要的是,他也能估計出她的預產期,所以可以即時送優惠券給客戶。

}  紐約時報 2012/02/19��� http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html

Page 7: 交點高雄Vol.3 - 宗斌 - Big Data

1996~2012 16年了.. 為什麼現在才在講Big Data?

}  以前 }  除了Yahoo、Google、WalMart..等世界級大企業外…⋯

}  幾千萬美元的設備及顧問費..有幾家公司用的起?

}  因為 }  Google、FB及大量技術人員..

}  Hadoop ( HDFS + MapReduce )

}  現在 }  不到十萬就可以開始。

}  Big Data 大家開始敢談了..

Page 8: 交點高雄Vol.3 - 宗斌 - Big Data

用海量數據治理城市

}  天下雜誌-用海量數據治理城市 }  http://www.cw.com.tw/article/articleLogin.action?id=5048769&login=true&page=1

}  紐約市政府的首席數據分析師就發現,只要某個房產因屋主欠稅,而被列為查封補稅的物件,則發生火災的機率,是一般建築物的九倍。

}  芝加哥精算出,只要有民眾打電話抱怨,某地區垃圾桶清運不力,一週之後必有鼠患通報。

Page 9: 交點高雄Vol.3 - 宗斌 - Big Data

罪犯更難逃…

}  他們想知道你的一切~巨量資料時代的省思 }  http://pnn.pts.org.tw/main/2013/04/29/%E4%BB%96%E5%80%91%E6%83%B3%E7%9F

%A5%E9%81%93%E4%BD%A0%E7%9A%84%E4%B8%80%E5%88%87%EF%BD%9E%E5%B7%A8%E9%87%8F%E8%B3%87%E6%96%99%E6%99%82%E4%BB%A3%E7%9A%84%E7%9C%81%E6%80%9D/

}  新北市警方在全市已架設1萬8880架監視攝影機,���目標是2萬3609架。

}  新北市警局與中華電信合作,在今年1月啟用「e化天眼監錄系統」。新聞稿中說,該局「運用高科技整合了監視器、車牌辨識系統、地理資訊、警車衛星定位及報案等八大系統,今年起這套系統更加入行車軌跡紀錄追蹤、智慧影像搜尋功能,透過雲端監控大量快速運算,可協助快速篩選調閱監視器畫面」。

}  若監視系統的智能提升…⋯

}  警察要找一個「穿紅衣服」的嫌犯,只要將紅衣這條件輸入電腦,就能迅速在全市的監視系統中搜尋出條件相符的影像。

}  警察要查一台車,只要輸入車牌或車子顏色特徵,就可以找到。

Page 10: 交點高雄Vol.3 - 宗斌 - Big Data

人越來越好認…

}  臉部辨識系統5秒鐘通關 開拓東南亞大商機 }  http://mag.udn.com/mag/newsstand/storypage.jsp?

f_ART_ID=444749

}  演藝界的雙胞胎組合「2moro」郭彥甫、郭彥均兄弟相似度99%,一般人很難分辨這對雙胞胎究竟誰是誰?有回他們倆在機場開玩笑地交換護照通關,以為能瞞天過海,沒想到卻被自動通關系統「抓包」了。「海關可能都認不出他們倆的差別,但卻騙不了機器,」內政部移民署系統設計科科長陳英傑指出。

}  Google的臉部辨識專利公開了 }  http://synergytek.com.tw/blog/2011/03/09/google

%E5%85%AC%E4%BD%88%E8%87%89%E9%83%A8%E8%BE%A8%E8%AD%98%E5%B0%88%E5%88%A9/

Page 11: 交點高雄Vol.3 - 宗斌 - Big Data

宅男,他們也能知道你的一切了… }  美國的雷神國防公司

}  英國《衛報》今年2月報導,美國的雷神(Raytheon)國防公司發展出一套稱為RIOT的軟體,它可以透過監視人們在臉書、推特、Foursquare等社交網站上的活動,追蹤他們的生活。它可以抓出目標人物貼上的所有照片、蒐集打卡紀錄跟照片中包含的經緯座標等、分析朋友間的通訊密度。根據這些,RIOT輕輕一點就可以畫出目標人物的社交網絡圖,找出他的空間移動模式,甚至預測他的行為。

}  他們知道…⋯ }  你最好的朋友是誰,有那些朋友。 }  你在什麼時間去過什麼地方,和那些朋友去。 }  你預計在什麼時間,去參加什麼活動。

}  還好…⋯現在Facebook不會提供資料給他們。 }  但是,只要按讚,資料就會被拿走。你按了幾個讚? }  未來呢??????

Page 12: 交點高雄Vol.3 - 宗斌 - Big Data

Google早兩星期知道疫情

}  2003年嚴重急性呼吸道症候群(SARS)爆發時,2個美國谷歌(Google)的工程師就從巨量資訊的關鍵字搜尋中,預測出可能爆發疫情的地區。

}  當時美國疾病控制預防中心(Centers for Disease Control and Prevention,CDC)很好奇,為什麼工程師能比他們快2個星期,預測到疫情?

}  原來是,當人們出現疑似感染症狀之後,不一定馬上去找醫生,一旦真去找醫生,檢驗也不一定驗得出,但是,患者一定會上網去搜尋自己的種種症狀,這就在資訊世界留下痕跡。工程師只要有夠大的資訊量,去分析、比對各種模式,就可以算出可能會出現疫情的地區。

Page 13: 交點高雄Vol.3 - 宗斌 - Big Data

Google Trends (谷歌趨勢) }  http://www.google.com/trends/

}  Google 流感趨勢 }  http://www.google.org/flutrends/intl/zh_tw/about/how.html

}  根據我們的觀察,搜尋流感相關主題的使用者數量與實際出現流感症狀的人數有著密切關聯。

}  當然,搜尋「流感」的使用者不一定是流感患者,但我們將所有與流感相關的搜尋關鍵字統整後,發現其中存有一個特定模式。

}  我們將查詢次數與傳統流感監控系統資料進行比較,發現某些搜尋關鍵字在流感季節特別熱門。因此,只要統計使用者搜尋這些關鍵字的次數,便能預測全球各個國家及地區的流感疫情發展。

}  肝癌, 肺癌, 心臟病

Page 14: 交點高雄Vol.3 - 宗斌 - Big Data

Google Trends 更多應用

}  Google趨勢預測奧斯卡,六大獎命中四項 }  利用了搜尋趨勢,來預測今年的六大獎項:影片、導演、男/女

主角、男/女配角,可能的得主,而最後結果命中四項, }  http://www.bnext.com.tw/article/view/cid/103/id/26690

}  投資人看過來:如何用Google預測經濟數據? }  顯示「二胎貸款」和幾週後公佈的「再融資」數據幾乎亦步亦趨。 }  http://www.bnext.com.tw/article/view/cid/0/id/21605

}  利用Google 地球來預測 H7N9 的擴散模式 }  以每個確診病例為中心,方圓 50 公里內居住 1.31億人、2.41億

隻雞、4700 萬隻鴨和 2200 隻豬 ,並以此來預測下一個案例 的可能擴散地。

}  http://rain-reader.blogspot.tw/2013/04/google-h7n9.html

Page 15: 交點高雄Vol.3 - 宗斌 - Big Data

投資怎麼增加成功率? }  電影公司投資 10 部,賣 10 部的成功關鍵:Big Data!

}  http://techorange.com/2013/04/24/big-data-x-hollywood-movies/ }  預告片播出後立即分析結果…⋯

}  當《復仇者聯盟》預告片在電視上播出,社群媒體上立即出現了以下類似訊息:「我很喜歡復仇者聯盟的預告,但黑寡婦的手槍也太遜了吧,鋼鐵人的槍可是咻咻咻,雷神的鎚子更不用講了!」「復仇者聯盟的卡司實在很糟,尤其是史嘉蕊嬌韓森!」

}  依照結果,調整預告片…⋯ }  這些文字被擷取下來之後,首先會進行分類、統計,再與觀眾性別、職業、

是否為常上電影院或愛看漫畫等個人特質作交叉分析。分析結果顯示,18% 的網友對《復仇者聯盟》正向情緒,預告播出後甚至達到 35% 的高峰,一段時間以後也一直維持在 18% 的水準,顯示這將近兩成的人有意願觀賞這部電影。此外,《復仇者聯盟》相關討論多半集中在預告片上,且壓倒性地給予正面評價,這意味著預告片拍得好,廣告的播出十分有效。

}  創造世界票房排行榜第三名…⋯ }  果然,《復仇者聯盟》2012 年 5 月上片以後,美國本土首週票房就達到兩億

美金,幾乎追平製作成本;截至同年 9 月為止,總票房達到 6 億 2 千多萬美金,成為世界電影史票房排行榜第三名,僅次於《阿凡達》、《鐵達尼號》。

Page 16: 交點高雄Vol.3 - 宗斌 - Big Data

創業怎麼增加成功率?

}  Google Trends 找趨勢 }  早餐店, 飲料店, 早午餐

}  那一種店最多人找?

¨  期間熱門度變化

}  在那一個地方找?

¨  地區熱門度

}  找地點 }  早午餐高雄, 早午餐台南, 早午餐屏東

}  找加盟 }  麥味登, 美而美, 拉亞, 摩斯漢堡, 美芝城

Page 17: 交點高雄Vol.3 - 宗斌 - Big Data

公車到站資訊

}  高雄市公車動態資訊 }  如何使用?

}  http://maps.google.com.tw/

}  http://122.146.229.210/bus/Dybus.aspx

}  加值.. }  依公車行駛時間,判斷該路段是否有塞車。

}  Big Data }  由程式自動搜集資料。

}  統計每天最容易塞車的時段及路段。

}  開車族就可以在該時段避開該路段。

}  商機: }  提供給宅配公司、貨運行或是計程車行。

Page 18: 交點高雄Vol.3 - 宗斌 - Big Data

App 台灣公車通

Page 19: 交點高雄Vol.3 - 宗斌 - Big Data

線上幫你掌握全球航班的即時飛行動態

}  http://planefinder.net/

}  可以看到全球地圖上布滿密密麻麻的飛機圖示。

}  右下角會顯示目前可視區域內正在飛行的飛機數量。

}  利用滑鼠點選任一飛機圖示,便會顯示飛機飛行路線、班機編號、目前高度...等等資訊。

Page 20: 交點高雄Vol.3 - 宗斌 - Big Data

Big Data 後的未來人性世界 }  萬芳醫學中心 潘建志醫師

}  http://www.slideshare.net/billypan/big-data-20011230

}  全民健保資料庫 }  肝癌病人開刀切除,5年內,超過一半的人,還是會再復發, }  518位B型肝炎+肝癌術後接受口服核苷抗病毒藥物(AZT)治療組 }  4051位B型肝炎+肝癌術後沒有該藥物治療的對照組 }  治療組復發機會減少3分之1

}  分析資料花了多少時間? }  搜集資料:2003-2010年共七年。 }  分析、統計、撰寫、審核、出版-2012再花2年。 }  現有的Data,我們可以減少1/3的肝癌復發,但花了9年。

}  如果Big Data早出現..少死1/3的人.. }  全世界約有100萬人罹患肝癌,50至100萬人因肝癌而死亡。 }  台灣地區肝癌的發生率為每10萬人有74.3人罹患肝癌 }  每年約有3700位患者因罹患肝癌而往生。

Page 21: 交點高雄Vol.3 - 宗斌 - Big Data

Big Data 未來

}  全民健保資料庫.. }  還可以救多少人?

}  Google Trends }  疾病預測…⋯ }  經營趨勢…⋯

}  流行趨勢…⋯

}  Big Data 大數據 大商機 大未來 }  http://mmdays.com/2012/12/22/big-data-

%E5%A4%A7%E8%B3%87%E6%96%99-%E5%A4%A7%E5%95%86%E6%A9%9F/

}  等待各位創業者去發掘…⋯

Page 22: 交點高雄Vol.3 - 宗斌 - Big Data

End

蘇宗斌 [email protected]