2013調查報導工作坊 - 資料搜尋與處理

61
資資資資資 資資資資 & 青青青青青青 / 青青青 – 2013/07/21

Upload: whisky-chang

Post on 06-May-2015

756 views

Category:

News & Politics


1 download

TRANSCRIPT

Page 1: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 資料搜尋 & 處理青平台基金會 / 張維志 – 2013/07/21

Page 2: 2013調查報導工作坊 - 資料搜尋與處理

青平台 / 張維志

Contact me :

• http://fb.me/opendata.tw

• http://www.opendata.tw

• http://www.opencampus.tw

• http://fb.me/groups/Open.Campus/

[email protected]

• Twitter : @opentaiwan

Page 3: 2013調查報導工作坊 - 資料搜尋與處理

重點摘要• 資料新聞學 – 先談一下• 資料新聞學 – 工作流程

• 資料收集• 資料清理• 資料解讀• 資料整合• 說出故事

• 團隊與角色 – 找出你的定位

Page 4: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學

是什麼?與,為什麼?

Page 5: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 是什麼

Data + Journalism

資料 + 新聞(學) ?

Page 6: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 是什麼

Data Driven Journalism

從資料中找出故事,用資料來說故事 #DDJ

Page 7: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 為什麼

為什麼忽然 (2009)

大家都在談資料新聞學?

Page 8: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 為什麼

Page 9: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 為什麼

因為,這是一個「數位時代」,「資訊時代」!

Page 10: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 為什麼

生活越來越仰賴資訊的流通與解讀

資料來源更多資料產量更大

工具與技術能力更強

Page 11: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學

如何做?

Page 12: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 如何做

Page 13: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 如何做

這是新聞報導…不是論文寫作…

Page 14: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程目的 – 當然是寫出一篇新聞(報導) XD

一切都從這開始:

我有個問題,想找答案我有組資料集 (dataset) 我想看看能「挖掘」出什麼

Page 15: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程我們要的是:從資料下載 -

Html / CSV /

SQL / KML…

• 2010.07.25• 91,731 份文件

到…

http://mirror.wikileaks.info/wiki/Afghan_War_Diary,_2004-2010/

Page 16: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程到… 一篇報導

Page 17: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程

Page 18: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程

Simon ROGERS

“Before a dataset results in a data journalism story, there’s a whole process of sifting and finessing and generally sorting the data out. The split is roughly 70% tidying up the data, 30% doing the fun stuff of visualising and presenting it.”

Page 19: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程

• 資料匯整• 資料清理• 資料解讀• 資料整合

• 說出故事

Page 20: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程

Page 21: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 把資料找出來

• 網路搜尋• 政府部門與政府資訊公開法• 開放資料與網路資料庫• NPO / NGO 與倡議組織• 鄉民 (SNS) 與駭客

Page 22: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 網路搜尋

網路搜尋 = Use Google?

Page 23: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 網路搜尋• Google 以外的選擇 ( 為什麼 ? )

• MS Bing• Yandex ( 俄羅斯 )• DuckDuckGo – 尊重個人隱私• Blippex – 其他的搜尋計算公式• Wolfram Alpha – 人工智慧的表現• Pipl – 找人(但是應該沒台灣人,不支援中文搜尋)

http://www.bbc.co.uk/news/technology-23318889

Page 24: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 網路搜尋成為 Google 搜尋的 power user!

• 使用進階功能 http://mashable.com/2011/11/24/google-search-infographic/

• Site:• Author:• Filetype:• Related“:

http://www.googleguide.com/advanced_operators.html

Page 25: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 網路搜尋成為 Google 搜尋的 power user!

• 關鍵字的運用• 越詳細找到的東西越符合我們的期待• 不知道要期待什麼,就打簡單的幾個字,加上 “ ~” =

related• 從搜尋結果中再篩選• 搭配搜尋指令使用

Page 26: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 政府部門與政府資訊公開法

政府資訊公開法 – 人民有知的權利12 類需主動公開的資料:

• 五、施政計畫、業務統計及研究報告。• 六、 ( 一 ) 公務 - 預算及決算書。• 八、書面之公共工程及採購契約。

Page 27: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 政府部門與政府資訊公開法

但是… 政府一般不太情願把資料丟出來。那怎麼辦?

• 寫信去所屬機關跟他們要• 還是不給,找很多人一起去要!• 就是不給,打行政訴訟!

Page 28: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 政府部門與政府資訊公開法

http://www.kickstarter.com/projects/cir/foia-machine

Page 29: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 政府部門與政府資訊公開法

不過,請先找對機關,問清楚對口單位 XDD

( 這沒有想像中簡單啊 .. )

Page 30: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 開放資料與網路資料庫

開放資料 : 資料可被自由使用,不限制使用資格,使用方法,使用範圍。(授權,技術格式,最低收費)

開放資料運動帶來更大量資料的釋出:• 世界銀行 - http://data.worldbank.org/

• 各國政府開放資料平台 – http://data.gov.tw/

• 搜尋 : open data portal / open data catalog

Page 31: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 開放資料與網路資料庫

Page 32: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – NPO / NGO 與其他倡議組織

不管大大小小議題,其實都有人在關心…所以,或許可以先把他們找出來 ..

問題是,這些 NGO/NPO 一般都對資料很無感 XDDD

Page 33: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 鄉民 (SNS) 與駭客

這不是鄉民的正義… .

• 鄉民 : Crowdsourcing 群眾外包• 駭客 : 有能力寫程式幫你處理問題

Page 34: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 鄉民 + Crowdsourcing

Page 35: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 鄉民 + SNS

Page 36: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 駭客 / 強大的能量!

Page 37: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料匯整 – 駭客 / 強大的能量!

不過這些人,用的語言不太一樣學會跟他們溝通

學會瞭解駭客的文化,技術學會參與

有個組織叫做 g0v

Page 38: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料清理 – 資料集的格式與內容• 將資料轉為程式(電腦)可讀可運算格式• 將資料中遺漏,缺失,重複,錯誤格式等找

出並修復

Page 39: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料清理 – 程式可讀可運算的資料集

資料不是只是拿來給人看與閱讀資料是要拿來用程式跑過與處理

Page 40: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料清理 – 程式可讀可運算的資料集

開放資料格式的五星等級

PDF OCR 試算表

Page 41: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料清理 – 程式集的清洗

資料集 : dataset ,指的是一組彼此有關連的資料。

清洗的幾種方法• 移除重複的資料• 將欄位重新合併或是切割• 確定欄位內容格式是否一致 • 去除多餘的空白字元,縮寫是否一致• 檢查時間,數字,文字等格式設定

Page 42: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料清理 – 程式集的清洗

使用工具: • Google OpenRefine / http://openrefine.org/

• Data Wrangler / http://vis.stanford.edu/wrangler/

• 或是直接使用試算表程式 (excel, calc…)

Page 43: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料解讀 – 定義出資料的含意與可信度• 資料存在的原因• 資料內容與單位

Page 44: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料解讀 –資料存在的原因• 資料的存在有他的原因

• 回應的需求• 資料取得的方法• 何時,適用期限

不要對資料過度解讀!

Page 45: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料解讀 –資料內容與單位

資料使用的單位是最大的陷阱

Page 46: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料解讀 –資料內容與單位

檢驗取得的資料內容與要回答的問題之間的關係

Page 47: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集• 原始資料集的重新排序,切割,合併,簡化• 與其他資料集的混搭 – Mashup

• 從空間,時間,連結關係上開始

Page 48: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集• 原始資料集的重新排序,切割,合併,

簡化• 只使用資料備份版本• 定出問題與資料範圍• 只保留有用的資料

Page 49: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集• 與其他資料集的混搭 – Mashup

• 資料跟自己比較是沒有多大意義• 找出其他可能相關資料集• 建立資料集間的關係(共同 key )

Page 50: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集• 從空間,時間,連結關係上開始

• 從不同變數(空間,時間)開始建立基礎模型與呈現

• 將不同資料彙整在同一資料集內

Page 51: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集

Page 52: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程接下來?

問題有得到答案嗎?需要更多資料?

那就重新再跑一次吧

Page 53: 2013調查報導工作坊 - 資料搜尋與處理
Page 54: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 工作流程說出故事…

Page 55: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 團隊與角色

Want to build a data journalism team? You’ll need these three people

Page 56: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 團隊與角色Computer Assisted Reporter

– 電腦輔助報導人

News Applications developer

– 新聞應用程式開發者

Data visualization specialist

– 資料視覺化呈現專家

Page 57: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 團隊與角色你該學會的新把戲1. 基礎技能

( Fundamentals )2. 統計( Statistics )3. 程式設計

( Programming )4. 機器學習( Machine

Learning )5. 文字採礦 / 自然語言處理

( Text Mining / Natural Language Processing )

6. 資料視覺化( Data Visualization )

你該學會的新把戲 2

7. 大量資料( Big Data )8. Data Ingestion

9. Data Wrangling

10. 工具( Toolbox)

Page 58: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 團隊與角色不過至少…

對資料,統計,程式語言和網路工具… 想辦法多學一點

Page 59: 2013調查報導工作坊 - 資料搜尋與處理

資料新聞學 – 團隊與角色資料新聞學,

依然是新聞的一種

但這也是我們學習如何「發現」,「閱讀」,「述說」世界的一種方法

Page 60: 2013調查報導工作坊 - 資料搜尋與處理

重點摘要• 資料新聞學 – 先談一下• 資料新聞學 – 工作流程

• 資料收集• 資料清理• 資料解讀• 資料整合• 說出故事

• 團隊與角色 – 找出你的定位

Page 61: 2013調查報導工作坊 - 資料搜尋與處理

青平台 / 張維志

Contact me :

• http://fb.me/opendata.tw

• http://www.opendata.tw

• http://www.opencampus.tw

• http://fb.me/groups/Open.Campus/

[email protected]

• Twitter : @opentaiwan