balogh kitti: szövegbányászat

Download Balogh Kitti: Szövegbányászat

Post on 07-Feb-2017

2.854 views

Category:

Technology

0 download

Embed Size (px)

TRANSCRIPT

  • Szvegbnyszat

    2015.12.04., Adatelemzs

    Balogh Kitti adatelemz, Precognox

  • ra menete

    Szvegbnyszat

    Szvegbnyszat vs. tartalom-, diskurzuselemzs

    Alkalmazsi terletek

    Plda trsadalomtudomnyi alkalmazsra

    Szvegbnyszat R-ben

    Angol nyelv Oz knyvek szerzsgnek elemzse

    Orbn Viktor vrtkel beszdeinek elemzse

  • Szvegbnyszat

    Szveges elektronikus adatok feldolgozsa s elemzse

    Adatok kztti eligazods, keress, rejtett sszefggsek feltrsa, kinyerse

    Egyre nvekv elektronikus adatmennyisg kb. 85% strukturlatlan adat (pl. emailek, hrek,

    weboldalak, kzssgi mdia tartalmak, videk)

  • Hagyomnyos szvegelemzs

    Tartalomelemzs Szavak, nyelvi kategrik gyakorisga, egyttes megjelense

    Kvantitatv elemzs

    Diskurzuselemzs Tbb megkzelts, pl. narratvaelemzs (Propp), konverzcielemzs (Goffman, Garfinkel), kritikai diskurzuselemzs (van Dijk, Wodak, Fairclough)

    A szveg formai, tartalmi elemzsvel trsadalmi, kulturlis, politikai sszefggsek feltrsa

    Hagyomnyosan kvalitatv

  • Szvegbnyszat s hagyomnyos

    szvegelemzs

    Szvegbnyszat vs. hagyomnyos szvegelemzs

    Nagy mennyisg szveg vs. kis mennyisg szveg

    Automatikus vs. sok emberi erforrst, idt ignyl

    Szubjektivits cskkentse vs. szubjektivits veszlye

    Reproduklhatsg javtsa vs. Reproduklhatsg nehzsge/lehetetlensge

  • Alkalmazsi terletek

    Szvegek osztlyozsa k-nearest neighbour, naive Bayes, decision trees, support vectorsmachine stb.

    Pl. spam szrs, zleti dokumentumok automatikus cmkzse

    Szvegek klaszterezse K-means, hierarchikus klaszterezs, topik modellezs stb.

    Pl. cikkek csoportostsa

    Informcikinyers Pl. nvelem-felismers

    Szvegek kivonatolsa, kulcsszavazs

    Tartalomkeress webes dokumentumokban

    Anomlia detekci

  • Trsadalomtudomnyi plda

    A ltens Dirichlet allokci trsadalomtudomnyi alkalmazsa

    Survey Statisztika MSc szakdolgozatom (2015)

    Kvantitatv diskurzuselemzs kvalitatv elemekkel

    Romaellenes beszd, romareprezentcis vizsglat

    Korpusz: kuruc.info szlsjobboldali hrportl Cignybnzs rovata

    10.304 db cikk

    2006-2015. februr

  • A kuruc.info romaellenes tmi

    Mdszertan Cignybnzs rovat cikkeinek begyjtse, feldolgozsa

    Cikkek szvegnek legyjtse

    Adatfeldolgozs, - tisztts

    Cikkekhez tartoz idblyeg kinyerse

    Cikkek tminak kinyerse

    Ltens Dirichlet allokci (LDA)

    Input: dokumentumok szavai, tmk szma

    Output: dokumentumok tmaeloszlsa, tmk szeloszlsa

    Kapott tmk sszevetse a szakirodalommal s kirtkels

    Tmk idbeli vltozsnak vizualizcija (ksbb)

  • A kuruc.info romaellenes tmi

    Elemzshez hasznlt eszkzk

    MALLET LDA

    Python adatgyjts, adatfeldolgozs

    magyarlnc nyelvi elemzs

    R tmk szmnak kivlasztsa, tmk idbeli vltozsa

  • A ltens Dirichlet allokci

    D. Blei, A. Y. Ng, and M. I. Jordan: LatentDirichlet Allocation, 2003

    Nagy mennyisg szveges adat ltens tematikus struktrjnak kinyerse

    Topik modellek legegyszerbb, leggyakrabban hasznlt tagja

    Hierarchikus bayes-i modell

  • A ltens Dirichlet allokci

  • Forrs: Blei (2009)

    P(, , , |, ) =

    =1

    =1

    =1

    , (,|,, )

    1) Minden egyes ktopikhoz vlasztunk egy polinomilis eloszlst a szavak felett Dir()szerint, ahol Dir() V-dim

    2) Minden d dokumentumhoz vletlenl vlasztunk egy polinomilis eloszlst a topikok felett Dir()szerint, ahol Dir() K-dim

    3) Minden ddokumentum minden egyes w szavnak esetben vlasztunk egy ,=k topikot eloszlsbl

    4) Vlasztunk egy ,szt eloszlsbl

  • A ltens Dirichlet allokci

    Kzelt algoritmusok pl. Gibbs mintavtelezs

  • A kuruc.info romaellenes tmi

    Cikkek legyjtse

    URL-ek legenerlsa

    HTML-ek megtiszttott szvegnek kinyerse

    Cikkek feldolgozsa, tiszttsa

    Karakterkdols

    Magyarlnc (sztemmels, POS tagek)

    Szfaji szrs

    Stopszavazs

  • A kuruc.info romaellenes tmi

    LDA illesztse

    Topikok optimlis szmnak kivlasztsa - 27

    Messing Bernth (1998, 2002, 2011)

    Harmonikus tlag mdszere

    MALLET

    Konvergencia s illeszkeds ellenrzs

  • Minden tma megtallhat, kivve: Jogvdelem, kisebbsgi jogok Gazdasg, vllalkozs Termszeti katasztrfk

    Differenciltabb tmafeloszts: Bnzs Politika, kzpolitika Diszkriminci, eltletek Klfldi romk Klpolitika, EU Kivndorls

    Kirtkels 600 cikk humn annotlsa, 74%-os recall, 55% precesion

    sszevets a szakirodalmi tmastruktrval, kirtkels

    A kuruc.info romaellenes tmi

  • A kuruc.info romaellenes tmi

    Tmk idbeli vltozsnak vizualizcija 27 tma, nehz ttekinthetsg

    Szcs Krisztina - tervezgrafikus, data visualization designer, krisztinaszucs.com

    Interaktv adatvizualizci

    Elrhet: labs.precognox.com/kurucinfo_adatviz/

  • A kuruc.info romaellenes tmi

    Eredeti idsorok 1-9. tma:

  • A kuruc.info romaellenes tmi

  • A kuruc.info romaellenes tmi

  • A kuruc.info romaellenes tmi

  • Gyakorlati pldk R-ben

    Korpusz s kdok a coospace-en

  • Bvebben: kereses.blog.hu

    labs.precognox.com/kurucinfo_adatviz/

    Kontakt: kbalogh@precognox.com