data science: memahami perilaku sosial masyarakat melalui medsos

60
Data Science: Memahami Perilaku Sosial Masyarakat Melalui Medsos Ismail Fahmi, PhD. Drone Emprit PT Media Kernels Indonesia [email protected] Seminar Dwimingguan Pusat Penelitian Informatika - LIPI, Bandung 21 Maret 2017

Upload: ismail-fahmi

Post on 06-Apr-2017

324 views

Category:

Internet


2 download

TRANSCRIPT

Data Science:Memahami Perilaku Sosial

Masyarakat Melalui MedsosIsmail Fahmi, PhD.Drone Emprit

PT Media Kernels Indonesia

[email protected]

Seminar DwimingguanPusat Penelitian Informatika - LIPI, Bandung

21 Maret 2017

2

1992 – 1997 S1, Teknik Elektro, ITB2003 – 2004 S2, Computational Linguistics, Universitas Groningen, Belanda2004 – 2009 S3, Computational Linguistics, Universitas Groningen, Belanda

2000 – 2003 Inisiator IndonesiaDLN (Digital Library Network pertama di Indonesia)Mengembangkan Ganesha Digital Library (GDL)Mendirikan Knowledge Management Research Group (KMRG) ITBMembangun Digital Library ITB

2009 – Sekarang Engineer di Weborama, Perusahaan berbasis big data (Paris/Amsterdam)2012 – Sekarang Co-Founder Awesometrics, Media Monitoring & Analytics Company2014 – Sekarang Founder PT. Media Kernels Indonesia, a Natural Language Processing Company2015 – Sekarang Konsultan Perpustakaan Nasional, Inisiator Indonesia OneSearch

Ismail Fahmi, PhD.Direktur PT Media Kernels IndonesiaInisiator Indonesia [email protected]

Agenda

• Tentang Drone Emprit (Media Kernels) • Virality dan SNA• Twitterology• Case Study #1• Case Study #2• Case Study #3• Riset: Penyebaran Fake News dan Solusi• Kesimpulan

3

Drone Emprit

4

5

Social Media

Twitter

Facebook

Instagram

YouTube

Sear

ch +

JSO

N

Detik (ID)

Reuters (EN)

Etc..RSS

+ H

TML

Gatra (ID)

Bloomberg (EN)

Etc..

HTM

L

Kaskus

Detik Forum

Etc..

HTM

L

Online News

Forums

Twitter Stream

JSO

N

Kompas

TEX

T

Warta Ekonomi

Etc..

Print

PUSH

JSO

NSubscriber

Projects Storage

Search + AccountCrawler

RSS + HTMLCrawler

HTML Crawler

HTML Crawler

SOLR NodesShard 1

SOLR NodesShard N

Index Servers

Redis Queue

Cache Manager

Mentions Storage

Keywords + Accounts Filters

deletes

Sentiment Analysis

Sentiment Models

Backtrack Filters

Sentiment Analysis

Analyses

Control Room Screens

Smart phones, tablets

Desktops

Client(s)

Converter

System Architecture

Network Architecture

6

Database &Main Server

Hot Master SOLR Server

Crawler & Analytics 1

Crawler & Analytics 2

Crawler & Redis Server

Hot ArchiveSOLR Server

Database &Backup Server

• MK Dashboard• Mysql DB

(OPTIONAL)• MK Dashboard (backup)• Mysql DB (backup)

• All Shards SOLR Server (fordashboard queries)

• Active Shard SOLR Server (master)

• Store & Replicationonly

• Active Shard SOLR Server (slave)

• Twitter Crawler (max400 keywords)

• Facebook Crawler• Analytics Engine

(OPTIONAL)• Active Shard SOLR

Server (slave)• Twitter Crawler (max

400 keywords)• Facebook Crawler• News Crawler• Analytics Engine

• Twitter Crawler (max400 keywords)

• Facebook Crawler• News Crawler• Instagram Crawler• Youtube Crawler• Redis server

A complete Media Kernerls implementation requires minimum 5 servers

Virality dan Social Network AnalysisMelihat Peta Percakapan, Aktor, Relasi, dan Agenda di Media Sosial

7

Virality dan Resonansi Isu

8

Twitter: Kanal Deteksi Isu

• Kondisi saat ini:• Hanya Twitter yang masih menyediakan fasilitas ‘search’ ke seluruh

status/twit yang dimilikinya.• Facebook dan Instagram hanya menyediakan akses terhadap Public

Page saja.• WhatsApp tidak dapat ditangkap percakapan di dalamnya.

• Namun, melihat pola virality dan resonansi antar platform media sosial, kita bisa menggunakan Twitter sebagai ‘proxy’ untuk mengetahui apa yang terjadi di sosial media.

9

SNA: Social Network Analysis

• SNA adalah pemetaan terhadap relasi antar orang, organisasi, topik, lokasi, dan entitas informasi lainnya.• Node atau titik di dalam

jaringan menggambarkan orang, organisasi, lokasi, atau entitas informasi.• Garis sambungan antar titik

menggambarkan relasi antar titik.

10

Twitterology

11

Anatomi Sebuah Twit

12

Anatomi Sebuah Twit

13

Relasi Retweet

14

Link Functions: Retweet / Mention

15

Post-truth

16

Di era post-truth, orang tidakmencari kebenaran, tetapimencari affirmasi, konfirmasi, dan dukungan terhadapkeyakinan yang dimilikinya.

Case Study #1:Isu 10 Juta Tenaga Kerja Cina IllegalHoax vs Propaganda

17

Isu 10 Juta Tenaga Kerja Cina

18

Klarifikasi

19

15September2016

Klarifikasi (2)

20

Tren: Bukan Sekedar Hoax

22

Publik mulai tidak percaya media mainstream?

24

Tindakan: Blokir, Tapi Tidak Efektif

25

DomainbaruDomaindiblokir

Case Study #2Jenazah Nenek HindunResonansi Media Online ßà Media Sosial

26

Hoax Seputar Jenazah Nenek Hindun

27

28

29

1 23

4

5

1

2

Arrahmahnews.com*Gara-gara Dukung Ahok, Jenazah Nenek 78 TahunDilarang Dishalatkan di Mushala*

3

4

5

Resonansi Isu dari Media Online ke Media Sosial10 – 11 Maret (dari jam ke jam)

Kumparan.comKesaksian Warga Setiabudi TentangJenazah Nenek Hindun yangDisalatkan

Tabloidbintang.comJenazah Nenek 78Tahun IniDilarang Dishalatkan diMushalaKarena Semasa Hidup MendukungAhok

30

12

3 4

1 Portal-islam.idBANTAHHOAXAHOKER,Kesaksian Warga Tentang JenazahNenek Hindun:Dishalatkan,Pemandi Mayat Malah dari PKS

2

3

Kumparan.comKeluarga:Jenazah NenekHindun Tetap Disalatkandan Diurus

4 Jawapos.comPolisi:Tidak Benar Warga TolakSalatkan Jenazah NenekHindun karena Dukung Ahok

Tirto.idSengkarut Pilkada DKIPadaJenazah Nenek Hindun

Resonansi Isu dari Media Online ke Media Sosial12 – 13 Maret (dari jam ke jam)

31

10-13 Maret

32

Media menjadi referensi utama dalam percakapan di medsos untuk mendukung klaim

33

Media menjadi sumber utama proses cross-checking di forum Anti Hoax.

Ini menandakan, peran media masih sangat penting:• Menjadi produser

hoax• Menjadi hoax

buster

34https://tirto.id/sengkarut-pilkada-dki-pada-jenazah-nenek-hindun-ckBb

Information Arbitrage

35

36

Information arbitrage: translateinformation across groups

Riset:Penyebaran fake news dan solusinya

37

HasilpenelitiandarisebuahTimdariUniversitasKolumbia:DiTwittersphere,titik ungu =orangyg menyebar berita hoax.Titik kuning =orangyangmengcounter.Ternyata:diclusterkanan (tanpa counter)hoaxmenyebar luar biasa,diclusterkiri (dg2counter)hoaxlebih sedikit disebar.

Penelitian Hoax Buster

Hoax Buster

Google + Facebook = CrossCheck

39

CrossCheck:• Bring together

expertise from media and technology industries

• To debunk hoaxes, rumors and false claims

• To report misleading or confusing stories accurately.

CrossCheck

40

Masyarakat lapor dan bertanya tentang kemungkinan hoax dari:• Link berita dari

sebuah situs• Konten dari media

sosial

Wartawan dari berbagai media, lokal dan nasional yang bergabung, melakukan crosscheck dengan berbagi:• Informasi• Sumber daya• Pengalaman

Masyarakat mencari dan membaca laporan hasil crosscheck

Portal CrossCheck

Wartawanmenggunakan laporan hasil crosscheck sebagai sumber berita di situs masing-masing.

SciCheck

41

Indonesia OneSearchhttp://onesearch.id

42

Road Map IOS

43

Tahap 1 (2015): OneSearch Portal

OneSearch Portal (Bibliografi)

• Software Indonesia OneSearch

• Harvesting data bibliografi• Protokol standard OAI-PMH• Repository: Katalog buku,

Jurnal Online, Repositoridigital

Tahap 2 (2016-2017): Text Analysis

Text Analysis (Full Teks)

• Crawling fullteks (PDF) TA, tesis, disertasi, laporan penelitin, danartikel jurnal dari Intitusi di Indonesia.

• Text analysis menggunakanteknologi NLP (Natural Language Processing)

• Information Extraction & Knowledge Mapping berbasisNLP

• Research Mapping antar Institusi

Tahap 3 (2018-2020): Layanan Anti PlagiarismNo Plagiarism (Services)

• Sistem dan LayananNoPlagiarism untuk karyaberbahasa Indonesia.

• Sumber: Wikipedia (Bahasa Indonesia), Online News, TA, Tesis, Disertasi, artikel jurnal, laporan penelitian (open access)

• Layanan online plagiarism checking untuk mahasiswa danpeneliti di Indonesia

Knowledge GraphText Analysis

44

Building Knowledge Graph

45

Everything is a Triple (RDF)

46

IOS Knowledge Explorerexplorer.onesearch.id

47

Teknologi NLP

• Segmentation• Part-Of-Speech (POS) Tagging• Automatic Term Recognition (ATR)• Named Entity Recognition (NER)• Term Relationship Extraction• Syntax Analysis (S-P-O)

48

Unstructured Text

49

KANZ PHILOSOPHIA, Volume 3, Number 2, December 2013 201

KEWALIAN DALAM TASAWUF NUSANTARA

Artikel ini mendiskusikan dokrin Kewalian (al-walāyah) yang mempunyai basis yang kuatdalam al-Qur’an dan hadis dan isu ini secara sistematis dibahas melalui ajaran Ibn ‘Arabiyang kompleks.

Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenalbersamaan dengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian, wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi darikekeramatan dan wali sebagai penguasa wilayah tertentu. Terlepas dari pengertian dancakupannya, ajaran kewalian yang sesungguhnya tidak lepas dari ajaran tentang kenabiandan kerasulan yang menyiratkan pesan bahwa dunia manusia bukan hanya dunia material yang identik dengan kenikmatan hedonis, tetapi di balik dunia fi sik terdapat dunia metafisik yang belum banyak diketahui manusia dan dari sanalah dunia fisik ini dikendalikan.

Kata-kata Kunci : wali, karamah, Nur Muhammad, kewalian, kenabian, penutup para waliFakultas Ushuluddin, UIN Syarif Hidayatullah. E-mail : [email protected]

Segmentation

50

=====page1=====-----------par----------KANZ PHILOSOPHIA, Volume 3, Number 2, December 2013 201-----------par----------KEWALIAN DALAM TASAWUF NUSANTARA-----------par----------Artikel ini mendiskusikan dokrin Kewalian (al-walāyah) yang mempunyai basis yang kuat dalam al-Qur’an dan hadis dan isu ini secara sistematis dibahas melalui ajaran Ibn ‘Arabi yang kompleks. -----------par----------Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal bersamaandengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian, wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi dari kekeramatan dan wali sebagaipenguasa wilayah tertentu. Terlepas dari pengertian dan cakupannya, ajaran kewalian yang sesungguhnya tidak lepas dariajaran tentang kenabian dan kerasulan yang menyiratkan pesan bahwa dunia manusia bukan hanyadunia material yang identik dengan kenikmatan hedonis, tetapi di balik dunia fi sik terdapat duniametafi sik yang belum banyak diketahui manusia dan dari sanalah dunia fi sik ini dikendalikan.-----------par----------Kata-kata Kunci : wali, karamah, Nur Muhammad, kewalian, kenabian, penutup para wali 1 FakultasUshuluddin, UIN Syarif Hidayatullah. E-mail : [email protected]

Part-of-Speech Tagging

51

----------- par ----------Sementara_SC dalam_IN kajian_NN tasawuf_VB di_IN Nusantara_NNP ,_Z sebutan_NNwali_NN ini_PR sudah_MD mulai_VB dikenal_VB bersamaan_VB dengan_IN masuknya_XIslam_NNP ke_IN negeri_NN ini_PR yang_SC mengacu_VB kepada_IN dua_CDpengertian_NN ,_Z wali_NN sebagai_IN orang_NN yang_SC memiliki_VB kesaktian-kesaktian_NN -LRB-_-LRB- occulties_FW -RRB-_-RRB- sebagai_IN implikasi_NN dari_INkekeramatan_NN dan_CC wali_NN sebagai_IN penguasa_NN wilayah_NN tertentu_PR ._Z

Terlepas_VB dari_IN pengertian_NN dan_CC cakupannya_NN ,_Z ajaran_NN kewalian_NNyang_SC sesungguhnya_RB tidak_NEG lepas_VB dari_IN ajaran_NN tentang_INkenabian_NN dan_CC kerasulan_NN yang_SC menyiratkan_VB pesan_NN bahwa_SCdunia_NN manusia_NN bukan_NEG hanya_RB dunia_NN material_NN yang_SC identik_JJdengan_SC kenikmatan_NN hedonis_JJ ,_Z tetapi_CC di_IN balik_NN dunia_NN fi_X sik_Xterdapat_VB dunia_NN metafi_VB sik_X yang_SC belum_NEG banyak_CD diketahui_VBmanusia_NN dan_CC dari_IN sanalah_NN dunia_NN fi_X sik_X ini_PR dikendalikan_VB ._Z

Contoh: Tesis dari UNDIP

52

Fullteks tesis: 112 halamanBahasa: Indonesia

53

S

P

O

Co-occurrence Analysis

54

Comparison Analysis

55

Tesis dari UNDIP Tesis dari UAJ

Co-occurrence Cluster Antar Repositori

56

Contoh Analisa Term Map

57

Evolusi Term Map

58

Kesimpulan

• Saat ini hanya Twitter yang bisa diambil datanya untuk mendapat gambaran umum perilaku netizen di media sosial.• Tren virality dan resonansi memungkinkan kita menggunakan Twitter

sebagai proxy untuk membaca pola perilaku netizen di media sosial.• SNA pada data Twitter dapat menggambarkan pola: agreement

(retweet) dan discussion (mention).• Beberapa contoh perilaku netizen terkait isu tertentu dapat

digambarkan oleh hasil analisis Drone Emprit.• Resonansi isu dari media online ke media sosial (dan sebaliknya) dapat

dilihat dari data Drone Emprit.• Penyebaran Fake News dapat ditahan dengan adanya hoax buster dan

situs fact check.

59

Terimakasih

60

Ismail Fahmi, PhDEmail: [email protected]: 0812 8908 3894