honey's data dinner#8 資料科學實用技術、工具與實例分享
TRANSCRIPT
大綱
資料科學
架構
分析工具
視覺工具
生活應用
資料科學三構面
工程 分析
領域
Beehive的資料科學三構面
架構-解決方案通常有整合式架構或是解決方案的都要錢… 還不見得好用…
EMC的Pivotal HD
IBM System G
資料來源:Shaw Wu整理,2015年
ORACLE的ENDECA資料來源:Shaw Wu整理,2015年
Google Fusion Table
資料來源:Shaw Wu整理,2015年
MicroStrategy
10 資料來源:Shaw Wu整理,2015年
Tableau
Tableau 將是未來資料視覺化軟體的第一把交椅
但是 Tableau 絕對不是資料分析軟體!
資料來源:Shaw Wu整理,2015年
問卷分析的視覺化也可以用Tableau
資料來源:Shaw Wu,2016年
分析軟體• Weka• Python• Google Cloud Vision• R
Weka
Copyright: Martin Kramer ([email protected])
WEKA的全名是懷卡托智慧分析環境(Waikato Environment for Knowledge Analysis),有趣的是,該軟體的縮寫WEKA也是紐西蘭獨有的一種鳥名,而WEKA的主要開發者同時恰好來自紐西蘭的the University of Waikato
• WEKA作為一個公開的資料採擷工作平台,集合了大量能承擔資料採擷任務的機器學習演算法,包括對資料進行預處理、分類、回歸、聚類、關聯規則以及在新的互動式介面上的視覺化。
• 免費,非商業化• 基於JAVA環境下open source的機器學習(Machine
learning)以及資料探勘(Data Mining)軟體• 它和它的原始程式碼可在官方網站下載
資料來源:Shaw Wu整理,2016年
2015 NBA Shot也可以用Python分析
資料來源:Shaw Wu整理,2015年
2016 NBA Shot也可以用Tableua畫圖
Google雲端視覺分析服務Cloud Vision
Cloud Vision以機器學習模型理解圖片內容,快速將圖片歸類,並偵測每張圖片中的物件與人臉,或是讀取照片中的文字,開發者可藉由Cloud Vision API將視覺分析功能整合在各種應用中。服務收費已出爐,2016年3月推出正式服務。
連結網址↑
資料來源:Shaw Wu整理,ithome,2016年
Google雲端視覺分析服務Cloud Vision
資料來源:Shaw Wu,2016年
您的免費試用額度還有 $300.00,免費試用期還剩下 60 天。
申請完後結果:(這是要收費的~)
Google Cloud Vision API 使用流程
先搞到一張圖片
轉成Base-64
呼叫API支援JAVA、Python
回傳結果取得判斷以標籤結果回傳
資料來源:Shaw Wu,2016年
Google Cloud Vision的實驗Label Detection
我挑了張我老婆跟草尼瑪的合照
我期望能夠由照片中辨識出:• 我老婆(pretty woman)
• 草尼瑪(alpaca)
結果
1.mammal(哺乳動物) 相似度:0.952.animal(動物) 相似度:0.933.alpaca(羊駝) 相似度:0.924.camel like mammal(駱駝像哺乳動物) 相似度:0.915.vertebrate(脊椎動物) 相似度:0.88
資料來源:Shaw Wu,2016年3月23日
R 與 R Studio
資料來源:Shaw Wu整理,2015年
• 這個FACEBOOK社團都在聊些甚麼?
一個簡單的範例引導
從一個簡單的需求開始…
如果我想知道五月天的FaceBook社團都在聊些甚麼?
我可以
一篇一篇慢慢看透過文本分析
快速給我一些關鍵字概況
資料來源:Shaw Wu,2015年
資料收集:尋找你的資料來源
Example:Facebook Graph API
Your Analysis Data
資料來源:Shaw Wu,2015年
資料處理:清洗與轉置你的資料
資料來源:Shaw Wu,2015年
資料分析:R的文本分析示範
資料來源:Shaw Wu,2015年
資料視覺化:美與醜
資料來源:Shaw Wu,2015年
調校分析模型的重要性
調校前,可能錯把五月天當成五月(花)
調校後,原來五月天就是五月天無誤
資料來源:Shaw Wu,2015年
視覺工具• Data Visualization套件大集合• AMCHARTS• HighCharts• Plotly• D3.js
Data Visualization套件大集合
很好的視覺化想法來源,但不要妄想可以直接拿來無縫套用…
資料來源:Shaw Wu整理,2015年
線上視覺化圖表工具:AMCHARTS• 雖然我都自己寫程式畫圖• 但最起碼它不用錢,還不用寫程式,參考看看
資料來源:Shaw Wu整理,2015年
如果你是工程師,這東西絕對超棒的!
資料來源:Shaw Wu整理,2015年
寶寶成長變化自己動手做
厭倦了,一成不變的圖表嗎?單純的折線互動圖表加上生動活潑的照片後,也是有一番不同的風味呢!
資料來源:Shaw Wu,2016年
可與多種語言串接的視覺化平台:plotly
• 提供了R、Python、Matlab等程式語言串接圖表方式• 強大的圖表互動效果,實在是太開心了
講者推薦
資料來源:Shaw Wu整理,2015年
資料科學案例-河川水質汙染預測
運用行政院環保署環境水質監測數據,採
河川測站22年(since 1993)的數據資料,
進行分析研究
以過去水質汙染指數資料,採時間序
列分析方法,dive and conquer自
我回歸模型,建立水質汙染預測模型
採資料科學方法論,以分析驅動設計,
並運用先進HTML5等相關技術,打
造視覺化分析結果與可互動之模型
未來一年預測結果:夏季河川水質汙染指
數較高;冬季河川汙染指數較低;未來可
做為決策判斷、預警、資源配置相關參考
資料來源
分析模型
圖資互動
專家闡釋
越來越熱門的D3.js
資料來源:Shaw Wu整理,2015年
線上也可以動手做D3.js
資料來源:Shaw Wu整理,2015年
總統辯論統計 一張圖看朱蔡互咬次數
首場總統候選人電視辯論會27日登場,三黨總統候選人激烈交鋒,尤其朱蔡兩人攻防火花四射。我們統計整場辯論會中,三位候選人提及對手及其他政治人物名字的次數,以蔡英文被提及65次最多,其中54次是由朱立倫提到,顯示朱對蔡攻擊最猛烈,不斷對蔡提出反詰。
心血來潮就用D3.js也來畫一張當時一個簡單的想法:
三位候選人的討論情況與各政治要角的被討論次數,運用和弦圖(Chord Chart)的畫法來表達是不是會感到比較簡潔有力呢?
畫完後的發現:(1)被討論次數最多的是蔡英文(2)朱蔡互相交火的次數之頻繁(3)宋楚瑜的邊緣化(4)陳水扁其他兩黨被抓出來鞭屍(5)蔡英文愛提馬英九(6)只有朱立倫在提李登輝
資料科學生活應用• 顧問服務也是可以善用資料科學來協助計畫發展的• 婚禮也是可以很資料科學的
作計劃也是可以善用資料科學的
41
計畫發展專用的質化評估分析工具
42
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
為了能夠拉近與賓客間的距離讓婚禮不再是只有新郎與新娘
而是創造出有大家共同回憶的空間
一個空間共同體的概念
43
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
除了文青
更要資科
婚禮撥放器
44
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
45
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
• 你可能會覺得要拿到這些圖片很簡單?• 從我自己的電腦裡一張一張整理去對應?• 還是我會有他們所有的社群大頭照?
別忘了,除了我的,還有我老婆的…
46
© Shaw Wu ,2015
可是瑞凡… 我只有這個ㄟ…
姓名 暱稱 與新人關係 類別 祝福留言
溫瑞凡 瑞凡 男方 誰知道 祝你幸福...
Google問卷調查的資料
?網路上哪張照片是你?
47
© Shaw Wu ,2015
所以我做了兩件事情
• 最起碼要能判斷留言者的性別,給予圖像• 連結起虛實關係,建立出真實人類與虛擬
帳號的對應,找到最有可能的圖像
48
© Shaw Wu ,2015
由姓名學出發建立性別判斷模型
這是文本分析的再應用
吳君孝吳君如
男
女
50%50%
50%50% 100%
100%
訓練字詞庫
未知性別姓名丟入 性別分類
結果圖像
49
© Shaw Wu ,2015
從有限資料建立虛實帳號對應關係
真實世界人類溫瑞凡
將真實世界有限資料,如姓名、暱稱等,丟入虛擬帳號關係建構模型
政治大學
交談紀錄
找出最有可能的帳號
取得虛擬帳號大頭照連結
只是同名依然存在有無法達到的限制性
但已經可以幫我Cover到45%的賓客剩下的再用工人智慧就輕鬆多了
50
© Shaw Wu ,2015
婚禮網站當然也要來分析一下
行動版
網頁版
Beehive Data Group蜂巢數據科技
產業推手
研究社群
學術單位
資料科學聯盟
臉書社團:
粉絲專頁:
Q & AThanks For Your Listening