geneticko programiranje susrece lingvistiku - racunalni...

45
Genetiˇ cko programiranje susre´ ce lingvistiku Raˇ cunalni postupci ekstrakcije kolokacija iz korpusa Jan ˇ Snajder Zavod za elektroniku, mikroelektroniku, raˇ cunalne i inteligentne sustave Fakultet elektrotehnike i raˇ cunarstva Sveuˇ ciliˇ ste u Zagrebu Zagrebaˇ cki lingvistiˇ cki krug 11. svibnja 2010. Jan ˇ Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 1 / 45

Upload: others

Post on 04-Sep-2019

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Geneticko programiranje susrece lingvistikuRacunalni postupci ekstrakcije kolokacija iz korpusa

Jan Snajder

Zavod za elektroniku, mikroelektroniku, racunalne i inteligentne sustaveFakultet elektrotehnike i racunarstva

Sveuciliste u Zagrebu

Zagrebacki lingvisticki krug11. svibnja 2010.

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 1 / 45

Page 2: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Racunalna obrada jezika

Obrada prirodnog jezika

Racunalna lingvistika

Pretrazivanje informacija (engl. information retrieval, IR)

Dubinska analiza teksta (engl. text mining)

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 2 / 45

Page 3: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Sadrzaj

1 Kolokacije i viserjecne jedinice

2 Ekstrakcija kolokacija iz korpusa

3 Vrednovanje ekstrakcije

4 Geneticko programiranja i ekstrakcija kolokacija

5 Alat TermeX

6 Zakljucak

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 3 / 45

Page 4: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Sadrzaj

1 Kolokacije i viserjecne jedinice

2 Ekstrakcija kolokacija iz korpusa

3 Vrednovanje ekstrakcije

4 Geneticko programiranja i ekstrakcija kolokacija

5 Alat TermeX

6 Zakljucak

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 4 / 45

Page 5: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Viserjecni izrazi (1)

Radna definicija (Evert, Baldwin):

Viserjecni izraz (engl. multiword expression, MWE) jest kombinacija oddvije ili vise (ne nuzno slijednih) rijeci cija semanticka, sintakticka ilistatisticka obiljezja nisu u potpunosti predvidiva, stoga takav izraz trebabiti naveden u leksikonu.

Npr. tajna policija, morski pas, biti u banani, plava kosa, ad hoc

“Word with spaces”

Karakteristicna svojstva (Manning & Schutze):

1 nekompozicionalnost (semanticka netransparentnost)

2 nezamjenjivost (leksicka okamenjenost)

3 nepromjenjivost (sintakticka rigidnost)

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 5 / 45

Page 6: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Viserjecni izrazi (2)

MWE obuhvacaju niz leksikaliziranih pojava:

Frazemi (rad na crno, crna ovca, biti u banani)

Vlastita imena (Zeljko Rohatinski, Zlatarevo zlato)

Strucno nazivlje (operacijski sustav, koronarna arterija)

Leksicke kolokacije (morski pas, javna tajna, tajna policija)

Ustaljene fraze i kliseji (plan i program, dobar dan)

. . .

Vazni za leksikografiju, prevodenje, ucenje jezika, . . .

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 6 / 45

Page 7: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Kolokacije

U literaturi susrecemo razne definicije. Mozemo ih razvrstati u tri grupe:

1 Kolokacije = MWE

Dvije ili vise rijeci koje odgovaraju uobicajenom nacinu da se nesto izrazi.(Manning & Schutze)

2 Frazeoloski/leksikografski pristup: Kolokacije ⊂ MWEI kombinacija rijeci koja je manje-vise nekompozicionalnaI leksicke kolokacije

3 Statisticki pristup: Kolokacije ↔ MWE

Niz od dvije ili vise rijeci koje se supojavljuju (statisticki znacajno) cesceno sto je to ocekivano. (Firth, Sinclair)

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 7 / 45

Page 8: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Kolokacije – nasa definicija

Nasa radna definicija:

Niz od dvije ili vise rijeci koje imaju tendenciju supojavljivanja(zato sto odgovaraju uobicajenom nacinu da se nesto izrazi).

Cestota supojavljivanja kao indikacija leksikalizacije

Kolokacija je empirijski pojam, dok je MWE teorijski pojam

U nacelu se preklapaju, no:I neke kolokacije nisu MWE (afera Brodosplit, kupovanje ispita)I neke MWE mozda (u danom korpusu) nisu kolokacije

Prema tome:I Kolokacije 6= MWEI Kolokacije 6= leksicke kolokacije ⊂ MWE

Interakcija izmedu lingvistike, statistike i racunalne lingvistike

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 8 / 45

Page 9: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Kolokacije – za sto ih trebamo?

Pretrazivanje informacija – indeksiranje (Vechtomova i dr.; Wacholder& Songi, 2003), prosirenje upita (Mandala i dr., 2000)

Parsanje (Baldwin, 2004)

Ekstrakcija informacija (Lin, 1998)

Strojno prevodenje (Gerber & Yang, 1997)

Generiranje prirodnog jezika (Smadja & McKeown, 1990)

Razrjesavanje viseznacnosti (Wu & Chang, 2004),

Ekstrakcija terminologije (Goldman & Wehrli, 2001)

Klasifikacija dokumenata (Scott & Matwin, 1999)

. . .

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 9 / 45

Page 10: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Kolokacije – pomoc pri rucnom indeksiranju

eCADIS – Indeksiranje deskriptorima EUROVOC (Kolar i dr., 2005)

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 10 / 45

Page 11: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Sadrzaj

1 Kolokacije i viserjecne jedinice

2 Ekstrakcija kolokacija iz korpusa

3 Vrednovanje ekstrakcije

4 Geneticko programiranja i ekstrakcija kolokacija

5 Alat TermeX

6 Zakljucak

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 11 / 45

Page 12: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Mjera leksicke asocijacije (1)

N-gram – slijed od dvije ili vise rijeci (bigram, trigram, tetragram)

Najjednostavniji pristup: ekstrakcija najfrekventnijih n-grama

Mjera leksicke asocijacije (engl. lexical association measure, AM)n-gramu pridjeljuje vrijednost koja ukazuje na jakost sveza rijeciunutar n-grama

Mjeri afinitet jedne rijeci naspram druge: pojavljuje li se n-gram ukorpusu cesce nego sto je ocekivano?

Primjer: Vjesnik (g. 1999–2009) – 56MW

f (morski) = 12364, f (pas) = 5741, f (morski pas) = 322f (zelen) = 8395, f (zvijezda) = 10672, f (zelena zvijezda) = 1

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 12 / 45

Page 13: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Mjere leksicke asocijacije (2)

1 Mjera medusobne informacije

MI (x , y) = logP(xy)

P(x)P(y)

2 Diceov koeficijent

Dice(x , y) =2f (xy)

f (x) + f (y)

3 χ2-test

χ2 =∑i ,j

(Oij − Eij)2

Eij

4 Log-vjerodostojnost (engl. log-likelihood)

G 2 = 2∑i ,j

Oij logOij

Eij

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 13 / 45

Page 14: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Primjer ekstrakcije

bigram AM

premijerom Racanom 26.5posljednje utakmice 6.2riblje juhe 31.0pripremnog razdoblja 1.7papa Ivan 22.1novi ministar 13.3najmanje pet 12.4cijene kruha 6.2kvalitete vode 11.0potrosacka kosarica 38.2sest kuna 8.2premjerovi satovi 43.3Andy Roddick 50.2velika prigoda 6.9

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 14 / 45

Page 15: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Primjer ekstrakcije

bigram AM

Andy Roddick 50.2premijerovi satovi 43.3potrosacka kosarica 38.2riblje juhe 31.0

premijerom Racanom 26.5papa Ivan 22.1novi ministar 13.3najmanje pet 12.4kvalitete vode 11.0sest kuna 8.2velika prigoda 6.9posljednje utakmice 6.2cijene kruha 6.2pripremnog razdoblja 1.7

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 15 / 45

Page 16: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Postupak ekstrakcije

Postupak ukratko:

1 Opojavnicenje korpusa2 Lematizacija pojavnica (flektivna morfoloska normalizacija)

I potrosackoj kosarici → potrosacki kosarica

3 Oznacavanje vrste rijeciI potrosacki kosarica → AN

4 Prebrojavanje pojavnica

5 Prebrojavanje n-grama6 Filtriranje n-grama prema uzorku vrsta rijeci

I AN, NN, ANN, AAN, NAN, NNN, . . .

7 Izracunavanje mjere asocijacije za svaki preostali n-gram

8 Ekstrakcija visoko rangiranih n-grama

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 16 / 45

Page 17: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Prosirenje na 3-grame, 4-grame, itd.

Osnovne asocijacijske mjere primjenjive su samo na bigrame

U literaturi su predlozena razna prosirenja za 3-grame i 4-grame

Npr.:

MI (xyz) = logP(xyz)

P(x)P(y)P(z)

Npr. (Da Silva & Lopes, 1999; Tadic & Sojat, 2003):

MI (xyz) = logMI (x , yz) + MI (xy , z)

2

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 17 / 45

Page 18: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Heuristicka mjera

Heuristicka asocijacijska mjera (Petrovic i dr., 2006):

MI (xyz) =

{2 log P(xyz)

P(x)P(z) ako stop(y)

MI (xyz) inace

Posebno tretira n-grame sa “zaustavnim rijecima” (prijedlozima iveznicima)

Npr. voda za pice, kruh i mlijeko

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 18 / 45

Page 19: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Uzorci prosirenja (1)

Uzorci prosirenja (Petrovic i dr., 2010):usustavljen pristup prosirenju bigramskih asocijacijskih mjera nan-grame proizvoljnih duljina

G1(g ,w1 · · ·wn) =g(w1,w2 · · ·wn) + g(w1 · · ·wn−1,wn)

2

G5(g ,w1 · · ·wn) =1

n − 1

n−1∑i=1

g(w1 · · ·wi ,wi+1 · · ·wn)

7 opcenitih uzoraka prosirenja

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 19 / 45

Page 20: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Uzorci prosirenja (2)

Dodatni uzorci za prosirenje 3-grama i 4-grama u ovisnosti o polozajuzaustavne rijeci (engl. stopword-sensitive patterns)

H3(g ,w41 ) =

α1G

∗0 (g ,w4

1 , {w2,w3}) ako stop(w2) ∧ stop(w3)

α2G∗0 (g ,w4

1 , {w2,w3}) ako stop(w2) ∧ ¬stop(w3)

α3G∗0 (g ,w4

1 , {w1,w3}) ako stop(w3) ∧ ¬stop(w2)

α4G∗6 (g ,w4

1 , ∅) inace

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 20 / 45

Page 21: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Sadrzaj

1 Kolokacije i viserjecne jedinice

2 Ekstrakcija kolokacija iz korpusa

3 Vrednovanje ekstrakcije

4 Geneticko programiranja i ekstrakcija kolokacija

5 Alat TermeX

6 Zakljucak

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 21 / 45

Page 22: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Nacini vrednovanja

Ne postoji usuglaseni nacin vrednovanja

Mogucnosti:1 Usporedba ekstrahiranih kolokacija s popisom (leksikon, WordNet)2 Rucno ocjenjivanje ekstrahiranih kolokacija3 Vrednovanje na uzorku

Evaluacijske mjere:

F1 =2PR

P + RAP =

1

N+

N∑r=1

P(r)rel(r)

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 22 / 45

Page 23: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Vrednovanje na uzorku (1)

zupanije u iznosu umirovljenika Ivana Matisevaodluku Upravnog vijeca tijelima lokalne upraveterora pasa lutalica lokaciju i gradnjaHrvatski filmski savez mjesto u sustavuveterani i kadeti operirano slijepo crijevolutkarstvo Umjetnicke akademije izbora u koalicijisustav oruzanih snaga groblju u Vinkovcimazemlje Srednjeg istoka cinjenje takvih djelakriteriji za dobivanje kuna za otkupneposrednoj blizini mjesta posao za drzavuakcijskog plana vlade klub od ispadanjabeljskog pogona Poljoprivreda obracuna potrosnje vodedrugoligasi i treceligasi Gradsko kazaliste Jozadrugih izvora financiranja predsjednik Uprave HT-azgrada nije etazirana stozer osjeckog prvoligasavrata do vrata inozemni trgovacki lancisredstva za opremanje nadogradnja i prenamjenadogradonacelnik Petar Mlinaric subote ili nedjelje

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 23 / 45

Page 24: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Vrednovanje na uzorku (1)

zupanije u iznosu umirovljenika Ivana Matisevaodluku Upravnog vijeca tijelima lokalne upraveterora pasa lutalica lokaciju i gradnjaHrvatski filmski savez mjesto u sustavuveterani i kadeti operirano slijepo crijevolutkarstvo Umjetnicke akademije izbora u koalicijisustav oruzanih snaga groblju u Vinkovcimazemlje Srednjeg istoka cinjenje takvih djelakriteriji za dobivanje kuna za otkupneposrednoj blizini mjesta posao za drzavuakcijskog plana vlade klub od ispadanjabeljskog pogona Poljoprivreda obracuna potrosnje vodedrugoligasi i treceligasi Gradsko kazaliste Jozadrugih izvora financiranja predsjednik Uprave HT-azgrada nije etazirana stozer osjeckog prvoligasavrata do vrata inozemni trgovacki lancisredstva za opremanje nadogradnja i prenamjenadogradonacelnik Petar Mlinaric subote ili nedjelje

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 24 / 45

Page 25: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Vrednovanje na uzorku (2)

Problem subjektivnosti

Oznacavanje treba provesti vise oznacivaca te je potrebno odreditimedusobno podudaranje (engl. inter-annotator agreement, IAA)

Npr. κ-koeficijent (Cohen, 1960):

κ =po − pc

1− pcκ ∈ [−1, 1]

Podudaranje se smatra zadovoljavajucim ako κ ≥ 0.67 (diskutabilno!)

(Petrovic i dr., 2010): κ = 0.729± 0.056 za trigrame iκ = 0.726± 0.062 za tetragrame

(Delac i dr., 2009): κ ovisi o vrsti MWE (najmanje podudaranje kodterminoloskih izraza, a najvece kod vlastitih imena)

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 25 / 45

Page 26: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Rezultati – bigrami

2 4 6 8 10 12 14 16

x 104

0

10

20

30

40

50

60

70

80

90

100

number of candidates

F 1 {%

}

F1 measure for digrams

DicePMILogLikeChi−squaredFrequency

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 26 / 45

Page 27: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Rezultati – trigrami

1 2 3 4 5 6 7 8 9 10

x 105

0

10

20

30

40

50

60

70

80

90

100

number of candidates

F 1 {%

}

F1 measure for trigrams

DicePMILogLikeChi−squared

HFrequency

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 27 / 45

Page 28: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Sadrzaj

1 Kolokacije i viserjecne jedinice

2 Ekstrakcija kolokacija iz korpusa

3 Vrednovanje ekstrakcije

4 Geneticko programiranja i ekstrakcija kolokacija

5 Alat TermeX

6 Zakljucak

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 28 / 45

Page 29: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Geneticko programiranje

Geneticki algoritam – racunalni postupak kojioponasa biolosku evoluciju u svrhu rjesavanja slozenihoptimizacijskih problema

I populacija rjesenjaI funkcija dobroteI selekcijaI krizanjeI mutacija

Stohasticko pretrazivanje prostora rjesenja

Geneticko programiranje – uporaba genetickihalgoritama za evoluiranje racunalnih programa

I racunalni programi prikazani stablastom podatkovnomstrukturom

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 29 / 45

Page 30: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Evoluiranje mjere leksicke asocijacije

Ideja: genetickim programiranjem evoluirati mjeru leksicke asocijacije(Snajder i dr., 2008)

Listovi stabla:I konstanteI frekvencije n-gramaI vrsta rijeci

Unutarnji cvorovi:I aritmeticki operatori:

+, -, logI operator grananja:

“i-ta rijec je vrste T”

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 30 / 45

Page 31: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Krizanje mjera

Razmjena genetickog materijala – eksploatacija rjesenja

Dvije mjere (roditelji) se kombiniraju i daju novu, trecu mjeru (dijete)

Razmjena dvaju slucajno odabranih podstabala roditelja

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 31 / 45

Page 32: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Mutacija mjera

Unosenje novog genetickog materijala – eksploracija rjesenja

Brisanje slucajno odabranog cvora (25% vjerojatnosti)

Umetanje cvora na slucajno odabranoj poziciji (75% vjerojatnosti)

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 32 / 45

Page 33: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Dobrota jedinke

Dobrota mjere leksicke asocijacije izrazena je mjerom F1

I mjereno na uzorku od 100 pozitivnih/100 negativnih primjeraI n-grami poredani prema mjeri leksicke asocijacijeI n prvorangiranih smatraju se pozitivnim, n = [1, 200]I najbolja vrijednost F1 uzeta kao mjera dobrote

Parsimonijski pritisakI sprjecava neograniceni rast stabla

fitness(j) = F1(j) + ηLmax − L(j)

Lmax

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 33 / 45

Page 34: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Zaustavljanje evolucije

dostizanje k iteracija bez poboljsanja dobrote na uzorku za provjeru

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 34 / 45

Page 35: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Eksperiment (1)

Cilj: evoluirati 3-gramske mjere asocijacije za ekstrakciju kolokacija izkorpusa pravnih propisa

Korpus: 7008 dokumenata Narodnih novinaI opojavnicen, lematiziran, oznacene vrste rijeci

Rucno oznaceni uzorci n-gramaI vrednovanje: 100 pozitivnih/100 negativnihI provjera: 100 pozitivnih/100 negativnihI pozitivni: leksicke kolokacije, terminoloski izrazi, vlastita imena

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 35 / 45

Page 36: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Eksperiment (2)

Pocetna populacija:

50 – 50,000 slucajno generiranih rjesenja (stabala)

poznate mjere imaju 50% vjerojatnosti da budu ukljucene:I medusobna informacijaI Diceov koeficijentI heuristicka mjera H (Petrovic i dr., 2006):

H(a, b, c) =

{2 log f (abc)

f (a)f (c) ako stop(b),

log f (abc)f (a)f (b)f (c) inace.

Parametri:

troturnirska selekcija, parsimonija η: [0, 0.05]

vjerojatnost mutacije: [0.0001, 0.3],

800 pokretanja sa slucajno odabranim vrijednostima parametara

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 36 / 45

Page 37: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Rezultati

20% mjera ima dobrotu F1 > 80%I 23% ako se poznate mjere ukljuce u pocetnu populaciju, 13% ako ih se

ne ukljuci

Ukupno najbolja: F1 = 88.4% s 205 cvorova

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 37 / 45

Page 38: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Mjera M205

f(abc) f(a) f(c) * / f(abc) f(ab) f(c) - f(c) f(bc) f(b)-f(abc) + / + / N * f(b) + * ln f(c) f(b) * * N f(a) *f(abc) f(a) f(abc) f(a) f(c) * / f(bc) * f(bc) f(b) + /f(a) N IF(vr(b)={X}) * (-14.426000) f(b) + / N * f(bc) f(b)-(2.000000) * ln ln / f(a) f(c) * (2.000000) * ln ln / N *ln * / f(bc) * f(bc) f(b) + / N * (-14.426000) f(b) + / N *f(abc) N f(a) * f(a) f(abc) f(a) f(c) * / f(bc) * f(abc)f(b) + / N * (-14.426000) f(b) + / N * f(b) f(c) * ln ln /f(abc) f(a) f(c) * / f(c) * ln ln (2.000000) * ln ln / N */ N * / N * ln f(c) * / f(a) f(b) + * ln ln f(abc) f(abc)f(a) f(a) N IF(vr(b)={X}) (-14.426000) f(b) + * / N * / N *ln f(c) * / f(a) f(b) + * ln ln * ln ln / f(abc) f(a) f(c)* / f(a) f(b) + * ln ln (2.000000) * ln ln / N * ln lnIF(vr(c)={X}) N * IF(vr(b)={X})

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 38 / 45

Page 39: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Rezultati (1)

20% mjera ima dobrotu F1 > 80%I 23% ako se poznate mjere ukljuce u pocetnu populaciju, 13% ako ih se

ne ukljuci

Ukupno najbolja: F1 = 88.4% s 205 cvorova

Jedno od optimalnih rjesenja s manje od 30 cvorova:

M13(a, b, c) =

{−0.423 f (a)f (c)

f 2(abc)ako stop(b)

1− f (b)f (abc) inace

I mjera M13 je evolvirala a da mjera H nije bila ukljucena upocetnu populaciju!

I 96/100 visoko rangiranih mjera slicne su strukture

potvrduje tezu da trigrame sa zaustavnim rijecima treba tretiratidrugacije (Petrovic i dr., 2006)

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 39 / 45

Page 40: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Rezultati (2)

1 2 3 4 5 6 7 8 9 100

10

20

30

40

50

60

70

80

90

100

Number of n−grams (× 105)

F1 s

core

DicePMIHM

13M

205

Mjere M13 i M205 nadmasuju preostale tri mjere leksicke asocijacije

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 40 / 45

Page 41: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Sadrzaj

1 Kolokacije i viserjecne jedinice

2 Ekstrakcija kolokacija iz korpusa

3 Vrednovanje ekstrakcije

4 Geneticko programiranja i ekstrakcija kolokacija

5 Alat TermeX

6 Zakljucak

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 41 / 45

Page 42: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

TermeX – Terminology Extraction Tool

(Delac i dr., 2009) http://ktlab.fer.hr/termex/

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 42 / 45

Page 43: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Sadrzaj

1 Kolokacije i viserjecne jedinice

2 Ekstrakcija kolokacija iz korpusa

3 Vrednovanje ekstrakcije

4 Geneticko programiranja i ekstrakcija kolokacija

5 Alat TermeX

6 Zakljucak

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 43 / 45

Page 44: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Zakljucak

Viserjecni izrazi bitni su za NLP/IR/TM

Viserjecne izraze moguce je identificirati na temelju statisticke analizesupojavljivanja – kolokacije

Mjere leksicke asocijacije mogu se upotrijebiti za ekstrahiranjekolokacija iz korpusa

Za izraze s vise od dvije rijeci potrebna su prosirenja uobicajenihmjera asocijacije

Vrednovanje postupka u obzir mora uzeti subjektivnost

Geneticko programiranje moze se upotrijebiti za evoluiranje novihmjera asocijacije

Nastavak istrazivanja: kolokacije u TM/IR, sintakticke znacajke,semanticki modeli kolokacija,. . .

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 44 / 45

Page 45: Geneticko programiranje susrece lingvistiku - Racunalni ...bib.irb.hr/datoteka/471394.Snajder_EkstrakcijaKolokacija.pdf · Viˇserjeˇcni izrazi (2) MWE obuhva´caju niz leksikaliziranih

Reference(Potpuniji popis referenci moze pronaci u navedenim clancima)

Delac, D., Krleza, Z., Dalbelo Basic, B., Snajder, J., Saric, F. TermeX: A Tool for

Collocation Extraction. (2009) Lecture Notes in Computer Science

(Computational Linguistics and Intelligent Text Processing). 5449, 149–157.

Kolar, M., Vukmirovic, I., Dalbelo Basic, B., Snajder, J. (2005). Computer-Aided

Document Indexing System. Journal of Computing and Information Technology,

13(4), 299–305.

Petrovic, S., Snajder, J., Dalbelo Basic, B. (2010). Extending lexical association

measures for collocation extraction. Computer Speech and Language 24(2),

383–394.

Petrovic, S., Snajder, J., Dalbelo Basic, B., Kolar, M. (2006). Comparison of

Collocation Extraction Measures for Document Indexing. Journal of Computing

and Information Technology, 14(4), 321–327.

Snajder, J., Dalbelo Basic, B., Petrovic, S., Sikiric, I. (2008). Evolving New

Lexical Association Measures Using Genetic Programming. Proceedings of

ACL-08: HLT, Short Papers, 181–184.

Jan Snajder (KTLab – FER) Ekstrakcija kolokacija iz korpusa ZLK, 11. svibnja 2010. 45 / 45