Transcript

Szövegbányászat

2015.12.04., Adatelemzés

Balogh Kitti – adatelemző, Precognox

Óra menete

»Szövegbányászat

» Szövegbányászat vs. tartalom-, diskurzuselemzés

» Alkalmazási területek

»Példa társadalomtudományi alkalmazásra

»Szövegbányászat R-ben

» Angol nyelvű Oz könyvek szerzőségének elemzése

» Orbán Viktor évértékelő beszédeinek elemzése

Szövegbányászat

»Szöveges elektronikus adatok feldolgozása és elemzése

»Adatok közötti eligazodás, keresés, rejtett összefüggések feltárása, kinyerése

»Egyre növekvő elektronikus adatmennyiség kb. 85% strukturálatlan adat (pl. emailek, hírek,

weboldalak, közösségi média tartalmak, videók)

Hagyományos szövegelemzés

»Tartalomelemzés» Szavak, nyelvi kategóriák gyakorisága, együttes megjelenése

» Kvantitatív elemzés

»Diskurzuselemzés» Több megközelítés, pl. narratívaelemzés (Propp), konverzációelemzés (Goffman, Garfinkel), kritikai diskurzuselemzés (van Dijk, Wodak, Fairclough)

» A szöveg formai, tartalmi elemzésével társadalmi, kulturális, politikai összefüggések feltárása

» Hagyományosan kvalitatív

Szövegbányászat és hagyományos

szövegelemzés

»Szövegbányászat vs. hagyományos szövegelemzés

» Nagy mennyiségű szöveg vs. kis mennyiségű szöveg

» Automatikus vs. sok emberi erőforrást, időt igénylő

» Szubjektivitás csökkentése vs. szubjektivitás veszélye

» Reprodukálhatóság javítása vs. Reprodukálhatóság nehézsége/lehetetlensége

Alkalmazási területek

» Szövegek osztályozása

» k-nearest neighbour, naive Bayes, decision trees, support vectorsmachine stb.

» Pl. spam szűrés, üzleti dokumentumok automatikus címkézése

» Szövegek klaszterezése

» K-means, hierarchikus klaszterezés, topik modellezés stb.

» Pl. cikkek csoportosítása

» Információkinyerés

» Pl. névelem-felismerés

» Szövegek kivonatolása, kulcsszavazás

» Tartalomkeresés webes dokumentumokban

» Anomália detekció

Társadalomtudományi példa

»A látens Dirichlet allokáció társadalomtudományi

alkalmazása

» Survey Statisztika MSc szakdolgozatom (2015)

»Kvantitatív diskurzuselemzés kvalitatív elemekkel

»Romaellenes beszéd, romareprezentációs vizsgálat

»Korpusz: kuruc.info szélsőjobboldali hírportál

Cigánybűnözés rovata

» 10.304 db cikk

» 2006-2015. február

A kuruc.info romaellenes témái

» Módszertan» „Cigánybűnözés” rovat cikkeinek begyűjtése, feldolgozása

» Cikkek szövegének legyűjtése

» Adatfeldolgozás, - tisztítás

» Cikkekhez tartozó időbélyeg kinyerése

» Cikkek témáinak kinyerése

» Látens Dirichlet allokáció (LDA)

» Input: dokumentumok szavai, témák száma

» Output: dokumentumok témaeloszlása, témák szóeloszlása

» Kapott témák összevetése a szakirodalommal és kiértékelés

» Témák időbeli változásának vizualizációja (később)

A kuruc.info romaellenes témái

»Elemzéshez használt eszközök

» MALLET – LDA

» Python – adatgyűjtés, adatfeldolgozás

» magyarlánc – nyelvi elemzés

» R – témák számának kiválasztása, témák időbeli

változása

A látens Dirichlet allokáció

»D. Blei, A. Y. Ng, and M. I. Jordan: LatentDirichlet Allocation, 2003

»Nagy mennyiségű szöveges adat látens tematikus struktúrájának kinyerése

»Topik modellek legegyszerűbb, leggyakrabban használt tagja

»Hierarchikus bayes-i modell

A látens Dirichlet allokáció

Forrás: Blei (2009)

P(𝑊, 𝑍, θ, ϕ|α, β) =

𝑘=1

𝐾

𝑃 𝜙𝑘 𝛽

𝑑=1

𝐷

𝑃 𝜃𝑑 𝛼

𝑛=1

𝑁

𝑃 𝑧𝑑,𝑛 𝜃𝑑 𝑃 (𝑤𝑑,𝑛|𝑧𝑑,𝑛, 𝜙𝑘)

1) Minden egyes ktopikhoz választunk egy 𝜙𝑘 polinomiális eloszlást a szavak felett Dir(𝛽)szerint, ahol Dir(𝛽) V-dim

2) Minden d dokumentumhoz véletlenül választunk egy 𝜃𝑑 polinomiális eloszlást a topikok felett Dir(α)szerint, ahol Dir(α) K-dim

3) Minden ddokumentum minden egyes w szavának esetében választunk egy 𝑧𝑑,𝑛=k topikot 𝜃𝑑eloszlásból

4) Választunk egy 𝑤𝑑,𝑛szót 𝜙𝑘 eloszlásból

A látens Dirichlet allokáció

»Közelítő algoritmusok pl. Gibbs mintavételezés

A kuruc.info romaellenes témái

»Cikkek legyűjtése

» URL-ek legenerálása

» HTML-ek megtisztított szövegének kinyerése

»Cikkek feldolgozása, tisztítása

» Karakterkódolás

» Magyarlánc (sztemmelés, POS tagek)

» Szófaji szűrés

» Stopszavazás

A kuruc.info romaellenes témái

»LDA illesztése

» Topikok optimális számának kiválasztása - 27

» Messing – Bernáth (1998, 2002,

2011)

» Harmonikus átlag módszere

» MALLET

»Konvergencia és illeszkedés ellenőrzés

» Minden téma megtalálható, kivéve:» Jogvédelem, kisebbségi jogok

» Gazdaság, vállalkozás

» Természeti katasztrófák

» Differenciáltabb témafelosztás:» Bűnözés

» Politika, közpolitika

» Diszkrimináció, előítéletek

» Külföldi romák

» Külpolitika, EU

» Kivándorlás

» Kiértékelés

» 600 cikk humán annotálása, 74%-os recall, 55% precesion

» Összevetés a szakirodalmi témastruktúrával, kiértékelés

A kuruc.info romaellenes témái

A kuruc.info romaellenes témái

»Témák időbeli változásának vizualizációja» 27 téma, nehéz áttekinthetőség

» Szűcs Krisztina - tervezőgrafikus, data visualization designer,

krisztinaszucs.com

» Interaktív adatvizualizáció

» Elérhető: labs.precognox.com/kurucinfo_adatviz/

A kuruc.info romaellenes témái

»Eredeti idősorok 1-9. téma:

A kuruc.info romaellenes témái

A kuruc.info romaellenes témái

A kuruc.info romaellenes témái

Gyakorlati példák R-ben

»Korpusz és kódok a coospace-en …

Bővebben: kereses.blog.hu

labs.precognox.com/kurucinfo_adatviz/

Kontakt: [email protected]


Top Related