honey's data dinner#8 資料科學實用技術、工具與實例分享

53
Honey's Data Dinner #8 資料科學實用技術、工具與實例分享 吳君孝(Shaw Wu) [email protected] 2016/07/13

Upload: beehivedata

Post on 07-Apr-2017

287 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Honey's Data Dinner #8

資料科學實用技術、工具與實例分享

吳君孝(Shaw Wu)

[email protected]

2016/07/13

Page 2: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

大綱

資料科學

架構

分析工具

視覺工具

生活應用

Page 3: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

資料科學三構面

工程 分析

領域

Page 4: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Beehive的資料科學三構面

Page 5: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

架構-解決方案通常有整合式架構或是解決方案的都要錢… 還不見得好用…

Page 6: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

EMC的Pivotal HD

Page 7: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

IBM System G

資料來源:Shaw Wu整理,2015年

Page 8: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

ORACLE的ENDECA資料來源:Shaw Wu整理,2015年

Page 9: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Google Fusion Table

資料來源:Shaw Wu整理,2015年

Page 10: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

MicroStrategy

10 資料來源:Shaw Wu整理,2015年

Page 11: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Tableau

Tableau 將是未來資料視覺化軟體的第一把交椅

但是 Tableau 絕對不是資料分析軟體!

資料來源:Shaw Wu整理,2015年

Page 12: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

問卷分析的視覺化也可以用Tableau

資料來源:Shaw Wu,2016年

Page 13: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

分析軟體• Weka• Python• Google Cloud Vision• R

Page 14: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Weka

Copyright: Martin Kramer ([email protected])

WEKA的全名是懷卡托智慧分析環境(Waikato Environment for Knowledge Analysis),有趣的是,該軟體的縮寫WEKA也是紐西蘭獨有的一種鳥名,而WEKA的主要開發者同時恰好來自紐西蘭的the University of Waikato

• WEKA作為一個公開的資料採擷工作平台,集合了大量能承擔資料採擷任務的機器學習演算法,包括對資料進行預處理、分類、回歸、聚類、關聯規則以及在新的互動式介面上的視覺化。

• 免費,非商業化• 基於JAVA環境下open source的機器學習(Machine

learning)以及資料探勘(Data Mining)軟體• 它和它的原始程式碼可在官方網站下載

資料來源:Shaw Wu整理,2016年

Page 15: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

2015 NBA Shot也可以用Python分析

資料來源:Shaw Wu整理,2015年

Page 16: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

2016 NBA Shot也可以用Tableua畫圖

Page 17: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Google雲端視覺分析服務Cloud Vision

Cloud Vision以機器學習模型理解圖片內容,快速將圖片歸類,並偵測每張圖片中的物件與人臉,或是讀取照片中的文字,開發者可藉由Cloud Vision API將視覺分析功能整合在各種應用中。服務收費已出爐,2016年3月推出正式服務。

連結網址↑

資料來源:Shaw Wu整理,ithome,2016年

Page 18: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Google雲端視覺分析服務Cloud Vision

資料來源:Shaw Wu,2016年

您的免費試用額度還有 $300.00,免費試用期還剩下 60 天。

申請完後結果:(這是要收費的~)

Page 19: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Google Cloud Vision API 使用流程

先搞到一張圖片

轉成Base-64

呼叫API支援JAVA、Python

回傳結果取得判斷以標籤結果回傳

資料來源:Shaw Wu,2016年

Page 20: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Google Cloud Vision的實驗Label Detection

我挑了張我老婆跟草尼瑪的合照

我期望能夠由照片中辨識出:• 我老婆(pretty woman)

• 草尼瑪(alpaca)

結果

1.mammal(哺乳動物) 相似度:0.952.animal(動物) 相似度:0.933.alpaca(羊駝) 相似度:0.924.camel like mammal(駱駝像哺乳動物) 相似度:0.915.vertebrate(脊椎動物) 相似度:0.88

資料來源:Shaw Wu,2016年3月23日

Page 21: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

R 與 R Studio

資料來源:Shaw Wu整理,2015年

Page 22: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

• 這個FACEBOOK社團都在聊些甚麼?

一個簡單的範例引導

Page 23: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

從一個簡單的需求開始…

如果我想知道五月天的FaceBook社團都在聊些甚麼?

我可以

一篇一篇慢慢看透過文本分析

快速給我一些關鍵字概況

資料來源:Shaw Wu,2015年

Page 24: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

資料收集:尋找你的資料來源

Example:Facebook Graph API

Your Analysis Data

資料來源:Shaw Wu,2015年

Page 25: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

資料處理:清洗與轉置你的資料

資料來源:Shaw Wu,2015年

Page 26: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

資料分析:R的文本分析示範

資料來源:Shaw Wu,2015年

Page 27: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

資料視覺化:美與醜

資料來源:Shaw Wu,2015年

Page 28: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

調校分析模型的重要性

調校前,可能錯把五月天當成五月(花)

調校後,原來五月天就是五月天無誤

資料來源:Shaw Wu,2015年

Page 29: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

視覺工具• Data Visualization套件大集合• AMCHARTS• HighCharts• Plotly• D3.js

Page 30: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Data Visualization套件大集合

很好的視覺化想法來源,但不要妄想可以直接拿來無縫套用…

資料來源:Shaw Wu整理,2015年

Page 31: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

線上視覺化圖表工具:AMCHARTS• 雖然我都自己寫程式畫圖• 但最起碼它不用錢,還不用寫程式,參考看看

資料來源:Shaw Wu整理,2015年

Page 32: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

如果你是工程師,這東西絕對超棒的!

資料來源:Shaw Wu整理,2015年

Page 33: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

寶寶成長變化自己動手做

厭倦了,一成不變的圖表嗎?單純的折線互動圖表加上生動活潑的照片後,也是有一番不同的風味呢!

資料來源:Shaw Wu,2016年

Page 34: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

可與多種語言串接的視覺化平台:plotly

• 提供了R、Python、Matlab等程式語言串接圖表方式• 強大的圖表互動效果,實在是太開心了

講者推薦

資料來源:Shaw Wu整理,2015年

Page 35: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

資料科學案例-河川水質汙染預測

運用行政院環保署環境水質監測數據,採

河川測站22年(since 1993)的數據資料,

進行分析研究

以過去水質汙染指數資料,採時間序

列分析方法,dive and conquer自

我回歸模型,建立水質汙染預測模型

採資料科學方法論,以分析驅動設計,

並運用先進HTML5等相關技術,打

造視覺化分析結果與可互動之模型

未來一年預測結果:夏季河川水質汙染指

數較高;冬季河川汙染指數較低;未來可

做為決策判斷、預警、資源配置相關參考

資料來源

分析模型

圖資互動

專家闡釋

Page 36: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

越來越熱門的D3.js

資料來源:Shaw Wu整理,2015年

Page 37: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

線上也可以動手做D3.js

資料來源:Shaw Wu整理,2015年

Page 38: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

總統辯論統計 一張圖看朱蔡互咬次數

首場總統候選人電視辯論會27日登場,三黨總統候選人激烈交鋒,尤其朱蔡兩人攻防火花四射。我們統計整場辯論會中,三位候選人提及對手及其他政治人物名字的次數,以蔡英文被提及65次最多,其中54次是由朱立倫提到,顯示朱對蔡攻擊最猛烈,不斷對蔡提出反詰。

Page 39: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

心血來潮就用D3.js也來畫一張當時一個簡單的想法:

三位候選人的討論情況與各政治要角的被討論次數,運用和弦圖(Chord Chart)的畫法來表達是不是會感到比較簡潔有力呢?

畫完後的發現:(1)被討論次數最多的是蔡英文(2)朱蔡互相交火的次數之頻繁(3)宋楚瑜的邊緣化(4)陳水扁其他兩黨被抓出來鞭屍(5)蔡英文愛提馬英九(6)只有朱立倫在提李登輝

Page 40: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

資料科學生活應用• 顧問服務也是可以善用資料科學來協助計畫發展的• 婚禮也是可以很資料科學的

Page 41: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

作計劃也是可以善用資料科學的

41

計畫發展專用的質化評估分析工具

Page 42: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

42

© Shaw Wu ,2015

婚禮撥放器的資料科學生活化應用

為了能夠拉近與賓客間的距離讓婚禮不再是只有新郎與新娘

而是創造出有大家共同回憶的空間

一個空間共同體的概念

Page 43: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

43

© Shaw Wu ,2015

婚禮撥放器的資料科學生活化應用

除了文青

更要資科

婚禮撥放器

Page 44: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

44

© Shaw Wu ,2015

婚禮撥放器的資料科學生活化應用

Page 45: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

45

© Shaw Wu ,2015

婚禮撥放器的資料科學生活化應用

• 你可能會覺得要拿到這些圖片很簡單?• 從我自己的電腦裡一張一張整理去對應?• 還是我會有他們所有的社群大頭照?

別忘了,除了我的,還有我老婆的…

Page 46: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

46

© Shaw Wu ,2015

可是瑞凡… 我只有這個ㄟ…

姓名 暱稱 與新人關係 類別 祝福留言

溫瑞凡 瑞凡 男方 誰知道 祝你幸福...

Google問卷調查的資料

?網路上哪張照片是你?

Page 47: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

47

© Shaw Wu ,2015

所以我做了兩件事情

• 最起碼要能判斷留言者的性別,給予圖像• 連結起虛實關係,建立出真實人類與虛擬

帳號的對應,找到最有可能的圖像

Page 48: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

48

© Shaw Wu ,2015

由姓名學出發建立性別判斷模型

這是文本分析的再應用

吳君孝吳君如

50%50%

50%50% 100%

100%

訓練字詞庫

未知性別姓名丟入 性別分類

結果圖像

Page 49: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

49

© Shaw Wu ,2015

從有限資料建立虛實帳號對應關係

真實世界人類溫瑞凡

將真實世界有限資料,如姓名、暱稱等,丟入虛擬帳號關係建構模型

政治大學

交談紀錄

找出最有可能的帳號

取得虛擬帳號大頭照連結

只是同名依然存在有無法達到的限制性

但已經可以幫我Cover到45%的賓客剩下的再用工人智慧就輕鬆多了

Page 50: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

50

© Shaw Wu ,2015

婚禮網站當然也要來分析一下

行動版

網頁版

Page 51: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Beehive Data Group蜂巢數據科技

產業推手

研究社群

學術單位

資料科學聯盟

臉書社團:

粉絲專頁:

Page 52: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享
Page 53: Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

Q & AThanks For Your Listening