miháltz márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken
DESCRIPTION
A novemberi NLP meetup diáiTRANSCRIPT
Miháltz Márton [email protected]
MTA NYTI Nyelvtechnológiai Osztály
! Input szöveg: tokenizált, morfológiailag elemzett (hunmorph), szófajcímkékkel ellátott (hunpos)
! Output: egyetlen szótő + morf.elemzés minden tokenhez
Elképesztő ADJ 5 elképesztő/ADJ elképeszt/VERB[IMPERF_PART]/ADJ el/PREV+képeszt/VERB[IMPERF_PART]/ADJ elképeszt/VERB[IMPERF_PART]/ADJ el/PREV+képeszt/VERB[IMPERF_PART]/ADJ
pofátlanság NOUN 6 pofátlan/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofátlan/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN
amit NOUN<CAS<ACC>> 5 ami/NOUN<CAS<ACC>> Am/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Am/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Ami/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Ami/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>>
! Hundisambig ◦ Rejtett Markov-modell, hunmorph kimenet használja ◦ Nincs forráskód, nincs dokumentáció ◦ Sokszor inkonzisztens, nehezen parse-olható output ◦ Összes képzőtől megfosztott tövet adja vissza
! Hunstem ◦ Heurisztikák: hunmorph szótő+elemzés kiválasztása hunpos
címke alapján ! Elemzések szűrése PoS-címkével ! Minimális összetételszám, képzésszám ! leghosszabb lemma; felszíni alakhoz leginkább hasonló kapitalizációjú lemma ! Lemma = lemma az elemzésből (összetételekkel) vagy felszíni alak ha nincs
◦ Kivételszótár: ismeretlen alak (% wildcard) => szótő; ! Trie implementációval
! Hunmorph morfológiai elemző (morpdb.hu lexikon) kiegészítése új, ismeretlen szavakkal ◦ Tetszőleges alakban felismerhetők legyenek ◦ Ne kelljen érteni morphdb.hu formalizmushoz
! Lista: ismeretlen szótő + ismert, analóg szótő (azonos paradigma, szófaj(ok)) ◦ Leíró feature-ök automatikus hozzárendelése:
új .lexicon fájl generálása ◦ Kompilálás (hunlex) korábbi + új .lexicon fájlok
=> .aff, .dic fájlok
! Huntoken kiegészítése, javítása ◦ Pl. adaptáció SM (Facebook) nyelvhasználathoz
! Huntoken + elő- és utófeldolgozó fv.-ek (python) ◦ Bővíthető listák: helyettesítések, reg.kif. v. exact match
! Ugyan+olyan => ugyanolyan ! Asszem=> azt+hiszem ! ejj+ => uj ◦ Python utasítások, pl.
! URL-ek felismerése és egyben tartása ! “egyik.másik” => [egyik, másik] ! egyik..... másik => [egyik, …, másik]
Eszközök elérhetők: github.com/mmihaltz/trendminer-hunlp
Köszönöm a figyelmet!