data science and ecfa media analysis

68
資料科學媒體報導關聯性分析 以太陽花學運為例 清華統計所博後研究員 謝宗震 (Johnson) May 15 th 2014

Upload: johnson-hsieh

Post on 24-May-2015

1.810 views

Category:

Presentations & Public Speaking


5 download

DESCRIPTION

資料科學與媒體報導關聯性分析—以太陽花學運為例

TRANSCRIPT

Page 1: Data science and ECFA media analysis

資料科學與媒體報導關聯性分析—以太陽花學運為例

清華統計所博⼠士後研究員 謝宗震 (Johnson)!May 15th 2014

Page 2: Data science and ECFA media analysis

About Me學歷!

• 清華統計所博⼠士 (2009-2013)

現職!• 清華統計所博⼠士後研究員 • TW.R group Officer • Data Science Program 講師

擅⻑⾧長!• Statistics, biodiversity,

community ecology, population genetic, R programing

Blog • 讀數⼀一格 http://readata.org

Page 3: Data science and ECFA media analysis

我因為⼀一張圖⽽而來到這裡

Page 4: Data science and ECFA media analysis

http://readata.org/datasci/ecfa-and-data-science/

Page 5: Data science and ECFA media analysis

回到今天的第⼀一個主題

Page 6: Data science and ECFA media analysis

資料科學

Page 7: Data science and ECFA media analysis

什麼是資料科學?

資料科學可以解決什麼問題?

Page 8: Data science and ECFA media analysis

就我的觀察, 資料科學⾄至少可以解決幾種問題...

Page 9: Data science and ECFA media analysis

解決考卷上的問題

http://www.ics.uci.edu/~jutts/8/FinalExamAKey.pdf

Page 10: Data science and ECFA media analysis

解決發paper的問題

http://www.iscramlive.org/ISCRAM2011/proceedings/papers/119.pdf

Page 11: Data science and ECFA media analysis

解決⽣生活上的問題

http://www.sonypictures.com/movies/21/

http://archive.indianexpress.com/news/review-the-wolf-of-wall-street/1215087/

Page 12: Data science and ECFA media analysis

事實上,應該問的是 怎麼⽤用資料科學解決問題?

Page 13: Data science and ECFA media analysis

為了回答這個問題 先要了解資料科學的基本流程

Page 14: Data science and ECFA media analysis

資料科學的基本流程

產品導向的分析流程

Page 15: Data science and ECFA media analysis

資料科學的基本流程

http://columbiadatascience.com/2013/09/16/introduction-to-data-science-version-2-0/

資料導向的分析流程

Page 16: Data science and ECFA media analysis

真實流程遠⽐比以下複雜多了

Page 17: Data science and ECFA media analysis

學習路徑圖http://nirvacana.com/thoughts/becoming-a-data-scientist/

Page 18: Data science and ECFA media analysis

http://www.dataists.com/2010/09/the-data-science-venn-diagram/

The Data Science Venn Diagram

Page 19: Data science and ECFA media analysis

資料科學家好⽐比⼀一隻軍隊 現實⽣生活中 你需要的可能是 ⼀一隻資料科學團隊

http://media.edge-online.com/wp-content/uploads/edgeonline/2013/02/ArmyOfTwo2.jpg

http://www.themovieblog.com/archives/iron-man-post.jpg

Page 20: Data science and ECFA media analysis

可以講媒體關聯性分析了終於

?Question?

Page 21: Data science and ECFA media analysis

⾝身為⼀一位⽣生態統計學家 怎麼會牽扯到媒體關聯性?

Page 22: Data science and ECFA media analysis

故事從這裡說起...

Page 23: Data science and ECFA media analysis

http://juan.tw/?p=2269

Page 24: Data science and ECFA media analysis

http://g0v.today

Page 25: Data science and ECFA media analysis

⽂文播組沒說完的話:我們是⼀一群對程式幾乎⼀一無所知的⼈人,想做些事情,只是沒有平台、也不會這些技術。我們不曉得這個夢會不會太⼤大,但只是想整合資源,⽽而不想讓資料隨⾵風飄,然後就消失了......

還有就是想要把這個屬於台灣⼈人⾃自⼰己的歷史完完整整記錄下來,最完整的歷史記錄,留下後讓後⼈人⾃自⼰己來評論。https://g0v.hackpad.com/ep/pad/static/07KBjTxWEFS

Page 26: Data science and ECFA media analysis

我問⾃自⼰己⼀一個問題 現場⽂文播資料可以怎麼⽤用?

Page 27: Data science and ECFA media analysis

現場情況 V.S. 現場⽂文播

Page 28: Data science and ECFA media analysis

現場⽂文播 V.S. 新聞報導

Page 29: Data science and ECFA media analysis

有沒有辦法量化 新聞媒體報導的真實性?

基本上 沒有完美的辦法

Page 30: Data science and ECFA media analysis

不過 媒體的關聯性應該有辦法

Page 31: Data science and ECFA media analysis

怎麼量化關聯性? 先設想 你需要什麼 / 有什麼資料

Page 32: Data science and ECFA media analysis
Page 33: Data science and ECFA media analysis

怎麼獲取媒體報導資料?

Page 34: Data science and ECFA media analysis
Page 35: Data science and ECFA media analysis

除了堅毅不拔的複製 / 貼上之外...你還會什麼?

Page 36: Data science and ECFA media analysis
Page 37: Data science and ECFA media analysis

特別感謝

Page 38: Data science and ECFA media analysis

Ronny Wang and NewsDiff

Page 39: Data science and ECFA media analysis

我收到了三萬多筆學運相關報導的原始資料

Page 40: Data science and ECFA media analysis

怎麼量化關聯性? 接著問 這些資料可以怎麼⽤用?

Page 41: Data science and ECFA media analysis
Page 42: Data science and ECFA media analysis

使⽤用關鍵字頻作為基本量化元素

http://johnsonhsieh.github.io/study-area-statR/#49

Page 43: Data science and ECFA media analysis

這個過程⽤用了以下技術

Page 44: Data science and ECFA media analysis

Quick references

• Statistics with R (Johnson) • slide: http://johnsonhsieh.github.io/study-area-statR/#49

• vod : https://www.youtube.com/watch?v=XbNx-I9fLWQ

• Text Mining with R (Glen) • slide : https://docs.google.com/presentation/d/

1IP5vFmBlGPBp32bWDqSpGYLox5QVmenFAfPwcOseQhQ/edit#slide=id.p

• vod : https://www.youtube.com/watch?v=ALZaXnzXPg8

Page 45: Data science and ECFA media analysis

怎麼計算關聯性?

Page 46: Data science and ECFA media analysis

Pearson correlation coefficient

最廣為⼈人知的相關性指標

但是本案例中完全⽤用不上

Page 47: Data science and ECFA media analysis

觀察資料的結構 該怎麼計算關聯性?

Page 48: Data science and ECFA media analysis

Ref: Chao, A., Jost, L., Chiang, S. C. Jiang Y.- H. and Chazdon, R. (2008). A Two-stage probabilistic approach to multiple-community similarity indices.Biometrics 64, 1178-1186. (pdf file)

Page 49: Data science and ECFA media analysis
Page 50: Data science and ECFA media analysis

這個過程⽤用了以下技術

Page 51: Data science and ECFA media analysis

最後得到所謂的媒體關係圖

Page 52: Data science and ECFA media analysis

http://readata.org/datasci/ecfa-and-data-science/

Page 53: Data science and ECFA media analysis

Question?

Page 54: Data science and ECFA media analysis

– ⺩王中佾、戚宇賢、林秉儒

在進⾏行社群媒體上的內容分析時,需要列出「關鍵字」以進⾏行資料撈取,然⽽而,研究者該如何界定哪些是關鍵字、那些不是關鍵字?

idea: frequencies and weight

Page 55: Data science and ECFA media analysis

– 吳⾟辛夷、廖苡涵、謝佳佑

蒐集新聞資料時應以什麼樣的時間⻑⾧長度作為⼀一個單位? !由於現在各家媒體轉載、合作⽅方式多,如何區分各家媒體的資訊來源?

idea: published time, hyperlink, similarity

Page 56: Data science and ECFA media analysis

– 蕭奕凱、李欣穎、任喆鸝

想請教您有關「相似度指標」的細節。因為我們課 堂報告的題⺫⽬目是「區分⼤大量留⾔言的⽴立場」,需要將留⾔言辨別為「正⾯面的」、「負⾯面的」或「中⽴立持平的」。然後就⾯面臨了留⾔言的相似度與⽴立場辨別之間的問題。 !如果將您繪製的網絡再加上時間變數,隨著事件的發展與沉寂,網絡會漸漸變得越來越不⼀一樣嗎? !在得知蘋果⽇日報是服貿議題的新聞 散播中⼼心之後(根據您的發現:蘋果⽇日報與所有報導來源都有⾼高度的關聯性),運⽤用何種研究⽅方法可以釐清新聞後續的散播路徑與⽅方向?

idea: machine learning, time-varying covariate

Examples: 服貿東⻄西軍: http://ecfa.speaking.tw/imho.php News Nexus: https://www.facebook.com/387816094628136/posts/604071486335928

Page 57: Data science and ECFA media analysis

– 莊漢菱、沈威志、陳宣耀

在⺫⽬目前的服貿事件X資料科學中可以看到各種媒體與現場情況之間的關聯性,也知道蘋果⽇日報與所有報導來源都有相當⾼高度關聯,然⽽而不知道是否有任何研究⽅方式可以得知各個媒體或是報導來源的先後順序?也就是哪家媒體可能跟另⼀一個媒體互為資料上下游的關係?

idea: published time, time-varying covariate

Page 58: Data science and ECFA media analysis

– 林⾔言翰、韓凡霖、陳毓屏、彭 湘

以Hot Topic的概念來看,這次的太陽花學運的形成與之前的學運有什麼型態上的不⼀一樣?有哪些特徵值是需要特別注意的嗎? ⼜又,太陽花學運的興起是否與社群網路的興盛有關? !⺫⽬目前市⾯面上的分析⼯工具眾多,以R為分析⼯工具,與SPSS或者SAS等⼯工具相⽐比有什麼利基特⾊色或者使⽤用族群上的市場區隔呢?

idea: how to quantify?Ref: SAS, SPSS末路?: http://r4stats.com/2013/05/14/beginning-of-the-end-v2/ R for SAS and SPSS Users: http://r4stats.com/books/r4sas-spss/

Page 59: Data science and ECFA media analysis

如果沒⼈人想繼續提問 ⼜又還有時間我想再說⼀一個故事...

Page 60: Data science and ECFA media analysis

其實 web crawling & text mining 的技術 我只學了半天...

當時是在 pixnet hackathon (2014-03-22)

Page 61: Data science and ECFA media analysis

http://pixnethackathon2014.events.pixnet.net/

Page 62: Data science and ECFA media analysis

痞客邦 美⻝⾷食分類前1000名 部落格⽂文章標題分析

http://programmermagazine.github.io/201402/htm/article6.html

Ref: ⽤用 R 進⾏行中⽂文 text Mining (作者:陳嘉葳@Taiwan R User Group)

Page 63: Data science and ECFA media analysis

Data Science 相關資源

Page 64: Data science and ECFA media analysis

Data Science Program

http://datasci.co/

t

Page 65: Data science and ECFA media analysis

MLDM monday Taiwan R User Group

Free R Online Tutorials is coming !!!!Meetup: http://www.meetup.com/Taiwan-R/ YouTube: https://www.youtube.com/user/TWuseRGroup

Page 66: Data science and ECFA media analysis

台灣資料科學愛好者年會 20142014/8/30 (Sat) - 2014/8/31 (Sun) 中研院⼈人⽂文社會科學館國際會議廳

http://twconf.data-sci.org/

Page 67: Data science and ECFA media analysis

Follow my slideshare account http://www.slideshare.net/euler96

Page 68: Data science and ECFA media analysis

Thanks for listening

http://3.bp.blogspot.com/-wYuLfk1NGbY/UXaxv0-9prI/AAAAAAAAAaw/G8kQpHiA2No/s1600/ironman3_3.jpg