Download - Balogh Kitti: Szövegbányászat
Óra menete
»Szövegbányászat
» Szövegbányászat vs. tartalom-, diskurzuselemzés
» Alkalmazási területek
»Példa társadalomtudományi alkalmazásra
»Szövegbányászat R-ben
» Angol nyelvű Oz könyvek szerzőségének elemzése
» Orbán Viktor évértékelő beszédeinek elemzése
Szövegbányászat
»Szöveges elektronikus adatok feldolgozása és elemzése
»Adatok közötti eligazodás, keresés, rejtett összefüggések feltárása, kinyerése
»Egyre növekvő elektronikus adatmennyiség kb. 85% strukturálatlan adat (pl. emailek, hírek,
weboldalak, közösségi média tartalmak, videók)
Hagyományos szövegelemzés
»Tartalomelemzés» Szavak, nyelvi kategóriák gyakorisága, együttes megjelenése
» Kvantitatív elemzés
»Diskurzuselemzés» Több megközelítés, pl. narratívaelemzés (Propp), konverzációelemzés (Goffman, Garfinkel), kritikai diskurzuselemzés (van Dijk, Wodak, Fairclough)
» A szöveg formai, tartalmi elemzésével társadalmi, kulturális, politikai összefüggések feltárása
» Hagyományosan kvalitatív
Szövegbányászat és hagyományos
szövegelemzés
»Szövegbányászat vs. hagyományos szövegelemzés
» Nagy mennyiségű szöveg vs. kis mennyiségű szöveg
» Automatikus vs. sok emberi erőforrást, időt igénylő
» Szubjektivitás csökkentése vs. szubjektivitás veszélye
» Reprodukálhatóság javítása vs. Reprodukálhatóság nehézsége/lehetetlensége
Alkalmazási területek
» Szövegek osztályozása
» k-nearest neighbour, naive Bayes, decision trees, support vectorsmachine stb.
» Pl. spam szűrés, üzleti dokumentumok automatikus címkézése
» Szövegek klaszterezése
» K-means, hierarchikus klaszterezés, topik modellezés stb.
» Pl. cikkek csoportosítása
» Információkinyerés
» Pl. névelem-felismerés
» Szövegek kivonatolása, kulcsszavazás
» Tartalomkeresés webes dokumentumokban
» Anomália detekció
Társadalomtudományi példa
»A látens Dirichlet allokáció társadalomtudományi
alkalmazása
» Survey Statisztika MSc szakdolgozatom (2015)
»Kvantitatív diskurzuselemzés kvalitatív elemekkel
»Romaellenes beszéd, romareprezentációs vizsgálat
»Korpusz: kuruc.info szélsőjobboldali hírportál
Cigánybűnözés rovata
» 10.304 db cikk
» 2006-2015. február
A kuruc.info romaellenes témái
» Módszertan» „Cigánybűnözés” rovat cikkeinek begyűjtése, feldolgozása
» Cikkek szövegének legyűjtése
» Adatfeldolgozás, - tisztítás
» Cikkekhez tartozó időbélyeg kinyerése
» Cikkek témáinak kinyerése
» Látens Dirichlet allokáció (LDA)
» Input: dokumentumok szavai, témák száma
» Output: dokumentumok témaeloszlása, témák szóeloszlása
» Kapott témák összevetése a szakirodalommal és kiértékelés
» Témák időbeli változásának vizualizációja (később)
A kuruc.info romaellenes témái
»Elemzéshez használt eszközök
» MALLET – LDA
» Python – adatgyűjtés, adatfeldolgozás
» magyarlánc – nyelvi elemzés
» R – témák számának kiválasztása, témák időbeli
változása
A látens Dirichlet allokáció
»D. Blei, A. Y. Ng, and M. I. Jordan: LatentDirichlet Allocation, 2003
»Nagy mennyiségű szöveges adat látens tematikus struktúrájának kinyerése
»Topik modellek legegyszerűbb, leggyakrabban használt tagja
»Hierarchikus bayes-i modell
Forrás: Blei (2009)
P(𝑊, 𝑍, θ, ϕ|α, β) =
𝑘=1
𝐾
𝑃 𝜙𝑘 𝛽
𝑑=1
𝐷
𝑃 𝜃𝑑 𝛼
𝑛=1
𝑁
𝑃 𝑧𝑑,𝑛 𝜃𝑑 𝑃 (𝑤𝑑,𝑛|𝑧𝑑,𝑛, 𝜙𝑘)
1) Minden egyes ktopikhoz választunk egy 𝜙𝑘 polinomiális eloszlást a szavak felett Dir(𝛽)szerint, ahol Dir(𝛽) V-dim
2) Minden d dokumentumhoz véletlenül választunk egy 𝜃𝑑 polinomiális eloszlást a topikok felett Dir(α)szerint, ahol Dir(α) K-dim
3) Minden ddokumentum minden egyes w szavának esetében választunk egy 𝑧𝑑,𝑛=k topikot 𝜃𝑑eloszlásból
4) Választunk egy 𝑤𝑑,𝑛szót 𝜙𝑘 eloszlásból
A kuruc.info romaellenes témái
»Cikkek legyűjtése
» URL-ek legenerálása
» HTML-ek megtisztított szövegének kinyerése
»Cikkek feldolgozása, tisztítása
» Karakterkódolás
» Magyarlánc (sztemmelés, POS tagek)
» Szófaji szűrés
» Stopszavazás
A kuruc.info romaellenes témái
»LDA illesztése
» Topikok optimális számának kiválasztása - 27
» Messing – Bernáth (1998, 2002,
2011)
» Harmonikus átlag módszere
» MALLET
»Konvergencia és illeszkedés ellenőrzés
» Minden téma megtalálható, kivéve:» Jogvédelem, kisebbségi jogok
» Gazdaság, vállalkozás
» Természeti katasztrófák
» Differenciáltabb témafelosztás:» Bűnözés
» Politika, közpolitika
» Diszkrimináció, előítéletek
» Külföldi romák
» Külpolitika, EU
» Kivándorlás
» Kiértékelés
» 600 cikk humán annotálása, 74%-os recall, 55% precesion
» Összevetés a szakirodalmi témastruktúrával, kiértékelés
A kuruc.info romaellenes témái
A kuruc.info romaellenes témái
»Témák időbeli változásának vizualizációja» 27 téma, nehéz áttekinthetőség
» Szűcs Krisztina - tervezőgrafikus, data visualization designer,
krisztinaszucs.com
» Interaktív adatvizualizáció
» Elérhető: labs.precognox.com/kurucinfo_adatviz/