slovak sentiment lexicon induction under restricted conditions (master thesis presentation)
TRANSCRIPT
Author: Bc. Adam Okruhlica
Supervisor: RNDr. Martin Homola, PhD.
Comenius University, Bratislava, 2013.
Slovak sentiment lexicon induction
in absence of labeled data
(Thesis presentation)
• Ambícia budovať inteligentné systémy schopné
rozpoznávať nálady a emócie.
• Biznis sféra – kvantifikovanie spokojnosti
zákazníkov, sledovanie nálad cieľových skupín,…
• Predikčné úlohy – predpovedanie akciových
trhov podľa nálad, politické analýzy preferencii
v reálnom čase,...
Motivácia
• Využívajú sa slovníky sentimentu – DB slov s
priradenými charakteristikami sentimentu.
• Silne jazykovo špecifické a netriviálne rozsiahle.
Motivácia (2)
• Pripraviť skutočne využiteľný slovník sentimentu pre
slovenský jazyk.
• Sústrediť sa na prídavné mená a príslovky – čo
najväčšie pokrytie a kvalita.
• Umožniť rozvoj aplikácii na báze analýzy
sentimentu nad slovenskými textami.
Cieľ
• Slovenčina je silne flektívny jazyk (oproti napr. EN)
• Neexistencia (nedostupnosť) efektívnych nástrojov
na prácu so slovenským textom
• Značkovače slovných druhov
• Sémantické lexikóny
• Spoľahlivé lematizéry
• a.i.
Problémy
• Základná idea Hatzivassiloglou-McKeown (1997):
• Spojky v koordinatívnych klauzulách majú
využiteľný predikčný potenciál, pokiaľ ide o
rovnakosť/rôznosť sentimentu koordinovaných
slov.
Indukcia slovníka (1)
voňavý a chutný vs. dobrý ale pomalý
P(rovnaké_en) = 0.78 P(rovnaké_en) = 0.26
1. Manuálne ohodnoť malú množinu slov. (napr. 20)
2. Extrahuj koordinatívne klauzy z korpusu.
3. Pre každý výskyt dvojice “SLOVO1 x SLOVO2”
vyhodnoť, či sú slová rovnako, alebo rôzne
orientované (s využitím apriórnych pravdepodobností)
4. Vytvor graf nerovnakosti (dissimilarity graph).
• Vrchol – slovo
• Hrana (u,v) – jej cena určuje nerovnakosť dvoch
slov – c(u,v) je z intervalu (0, 1)
Indukcia slovníka (2)
Optimalizačný problém na grafe nerovnakosti P:
• Nájdi 2-rozklad grafu (P1,P2) = P taký, že
je minimálne.
• Toto zodpovedá minimalizácii nerovnakosti vrámci
partícii. Ide o analógiu max. hranového rezu.
Indukcia slovníka (4)
Riešime prostredníctvom multi-reštartovaného
horolezeckého algoritmu.
Lokálny krok optimalizácie: zámena partícii pre niektorý
z vrcholov v.
Počiatočný stav: Uniformné náhodné rozdelenie vrcholov
do partícii.
Efektivita: Teoreticky je stratégia konvergentná do
lokálneho minima. Naša prax ukazuje, že väčšina behov
končí v globálnom minime.
Indukcia slovníka (5)
Indukcia slovníka (6)
• Máme 2 partície. Čo teraz?
6. Môžeme povedať, ktorá z nich obsahuje pozitívne
slová, ktorá negatívne, na základe príslušnosti manuálne
ohodnotených slov.
• Realita: z ručne označených 20 slov -> 700 ozn. slov za
cca 10 minút.
Problémy (1)
• Negatívna partícia obsahuje množstvo neutrálnych
slov.
• Hatzivassiloglou-McKeown nereportujú podobný
problém.
• Využijeme spoľahlivosť pozitívnej partície.
Predpoklad: neutrálne slová nepreferujú jednu z
partícii pre niektorý typ hrany (rovnaké/rôzne).
Problémy (2)
• Negatívna partícia obsahuje množstvo neutrálnych
slov.
• Iná možnosť: využijeme automatický preklad a
existujúce anglické slovníky sentimentu na
vytriedenie neutrálnych slov.
Rozšírenia
• S využitím ďalších ad-hoc prístupov slovník ďalej
zväčšujeme:
1. Využitie synonymického slovníka – pridanie nových
slov z ohodnotených synonymických tried.
2. Doplnenie záznamov automatickým prekladom.
3. Manuálne skompletizovanie a revízia.
Výsledky (1)
• Slovenský slovník sentimentu s 3000+ prídavnými
menami a 3000+ príslovkami. Každý záznam obsahuje
aj všetky vyskloňované a stupňované formy. Hodnotenie
sentimentu na škále od -3 do 3.
Výsledky (2)
• Aplikácia na analýzu dejovosti a emocionality kníh.
Na časovom grafe s využitím s.l.s. vizualizuje priebeh
nálady vrámci diela.
J.G. Tajovský: Do konca