slovak sentiment lexicon induction under restricted conditions (master thesis presentation)

21
Author: Bc. Adam Okruhlica Supervisor: RNDr. Martin Homola, PhD. Comenius University, Bratislava, 2013. Slovak sentiment lexicon induction in absence of labeled data (Thesis presentation)

Upload: adam-okruhlica

Post on 18-Jul-2015

69 views

Category:

Technology


2 download

TRANSCRIPT

Author: Bc. Adam Okruhlica

Supervisor: RNDr. Martin Homola, PhD.

Comenius University, Bratislava, 2013.

Slovak sentiment lexicon induction

in absence of labeled data

(Thesis presentation)

• Ambícia budovať inteligentné systémy schopné

rozpoznávať nálady a emócie.

Motivácia

• Ambícia budovať inteligentné systémy schopné

rozpoznávať nálady a emócie.

• Biznis sféra – kvantifikovanie spokojnosti

zákazníkov, sledovanie nálad cieľových skupín,…

• Predikčné úlohy – predpovedanie akciových

trhov podľa nálad, politické analýzy preferencii

v reálnom čase,...

Motivácia

• Využívajú sa slovníky sentimentu – DB slov s

priradenými charakteristikami sentimentu.

• Silne jazykovo špecifické a netriviálne rozsiahle.

Motivácia (2)

• Pripraviť skutočne využiteľný slovník sentimentu pre

slovenský jazyk.

• Sústrediť sa na prídavné mená a príslovky – čo

najväčšie pokrytie a kvalita.

• Umožniť rozvoj aplikácii na báze analýzy

sentimentu nad slovenskými textami.

Cieľ

• Slovenčina je silne flektívny jazyk (oproti napr. EN)

• Neexistencia (nedostupnosť) efektívnych nástrojov

na prácu so slovenským textom

• Značkovače slovných druhov

• Sémantické lexikóny

• Spoľahlivé lematizéry

• a.i.

Problémy

Problémy (2)

• Cieľ aj metódy sú v SK jazykovej doméne nové

• Základná idea Hatzivassiloglou-McKeown (1997):

• Spojky v koordinatívnych klauzulách majú

využiteľný predikčný potenciál, pokiaľ ide o

rovnakosť/rôznosť sentimentu koordinovaných

slov.

Indukcia slovníka (1)

voňavý a chutný vs. dobrý ale pomalý

P(rovnaké_en) = 0.78 P(rovnaké_en) = 0.26

1. Manuálne ohodnoť malú množinu slov. (napr. 20)

2. Extrahuj koordinatívne klauzy z korpusu.

3. Pre každý výskyt dvojice “SLOVO1 x SLOVO2”

vyhodnoť, či sú slová rovnako, alebo rôzne

orientované (s využitím apriórnych pravdepodobností)

4. Vytvor graf nerovnakosti (dissimilarity graph).

• Vrchol – slovo

• Hrana (u,v) – jej cena určuje nerovnakosť dvoch

slov – c(u,v) je z intervalu (0, 1)

Indukcia slovníka (2)

Indukcia slovníka (3)

dobrý

(SO: +)

zlý

(SO: -)

šťastný

(SO: ?)

1.0

0.1

1.0

1.0

0.0

Optimalizačný problém na grafe nerovnakosti P:

• Nájdi 2-rozklad grafu (P1,P2) = P taký, že

je minimálne.

• Toto zodpovedá minimalizácii nerovnakosti vrámci

partícii. Ide o analógiu max. hranového rezu.

Indukcia slovníka (4)

Riešime prostredníctvom multi-reštartovaného

horolezeckého algoritmu.

Lokálny krok optimalizácie: zámena partícii pre niektorý

z vrcholov v.

Počiatočný stav: Uniformné náhodné rozdelenie vrcholov

do partícii.

Efektivita: Teoreticky je stratégia konvergentná do

lokálneho minima. Naša prax ukazuje, že väčšina behov

končí v globálnom minime.

Indukcia slovníka (5)

Indukcia slovníka (6)

• Máme 2 partície. Čo teraz?

6. Môžeme povedať, ktorá z nich obsahuje pozitívne

slová, ktorá negatívne, na základe príslušnosti manuálne

ohodnotených slov.

• Realita: z ručne označených 20 slov -> 700 ozn. slov za

cca 10 minút.

Výstup: pozitívna partícia

• Slová zo štartovacieho lexikónu sú podčiarknuté.

Problémy (1)

• Negatívna partícia obsahuje množstvo neutrálnych

slov.

• Hatzivassiloglou-McKeown nereportujú podobný

problém.

• Využijeme spoľahlivosť pozitívnej partície.

Predpoklad: neutrálne slová nepreferujú jednu z

partícii pre niektorý typ hrany (rovnaké/rôzne).

Problémy (2)

• Negatívna partícia obsahuje množstvo neutrálnych

slov.

• Iná možnosť: využijeme automatický preklad a

existujúce anglické slovníky sentimentu na

vytriedenie neutrálnych slov.

Rozšírenia

• S využitím ďalších ad-hoc prístupov slovník ďalej

zväčšujeme:

1. Využitie synonymického slovníka – pridanie nových

slov z ohodnotených synonymických tried.

2. Doplnenie záznamov automatickým prekladom.

3. Manuálne skompletizovanie a revízia.

Výsledky (1)

• Slovenský slovník sentimentu s 3000+ prídavnými

menami a 3000+ príslovkami. Každý záznam obsahuje

aj všetky vyskloňované a stupňované formy. Hodnotenie

sentimentu na škále od -3 do 3.

Výsledky (2)

• Aplikácia na analýzu dejovosti a emocionality kníh.

Na časovom grafe s využitím s.l.s. vizualizuje priebeh

nálady vrámci diela.

J.G. Tajovský: Do konca

Výsledky (3)

• Overenie konjunkčnej hypotézy pre slovenčinu.