kvantitativna metoda za poravnanje reči dvojezičkog korpusa

21
Kvantitativna metoda Kvantitativna metoda za poravnanje reči za poravnanje reči dvojezičkog korpusa dvojezičkog korpusa Aljoša Obuljen Aljoša Obuljen Dr Ivan Obradović Dr Ivan Obradović

Upload: jens

Post on 11-Jan-2016

30 views

Category:

Documents


0 download

DESCRIPTION

Kvantitativna metoda za poravnanje reči dvojezičkog korpusa. Aljoša Obuljen Dr Ivan Obradović. Uvod. Problem: za reč izvornog jezika w s , pronaći najbolji prevod u ciljnom jeziku – w e . Šire: za reč izvornog jezika, naći semantički bliske reči ciljnog jezika. Pristup problemu. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Kvantitativna metoda za Kvantitativna metoda za poravnanje reči dvojezičkog poravnanje reči dvojezičkog

korpusakorpusa

Aljoša ObuljenAljoša Obuljen

Dr Ivan ObradovićDr Ivan Obradović

Page 2: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

UvodUvod

Problem: za reč izvornog jezika wProblem: za reč izvornog jezika wss, , pronaći najbolji prevod u ciljnom pronaći najbolji prevod u ciljnom jeziku – wjeziku – wee..

Šire: za reč izvornog jezika, naći Šire: za reč izvornog jezika, naći semantički bliske reči ciljnog jezika.semantički bliske reči ciljnog jezika.

Page 3: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Pristup problemuPristup problemu

Potrebno je imati poravnat korpus Potrebno je imati poravnat korpus (SE-INTERA)(SE-INTERA)

Preći na leme (srpski obeležen, Preći na leme (srpski obeležen, TreeTagger za engleski)TreeTagger za engleski)

Za svaku srpsku lemu sortirati Za svaku srpsku lemu sortirati engleske reči po rangu.engleske reči po rangu.

Cilj: prvorangirana reč je prevod Cilj: prvorangirana reč je prevod srpske reči.srpske reči.

Page 4: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Priprema podatakaPriprema podataka

Formirati 2 tekstualna dokumenta – Formirati 2 tekstualna dokumenta – svaki red jedna rečenica, tj. lista svaki red jedna rečenica, tj. lista lema u toj rečenici.lema u toj rečenici.

Dokumenti su poravnati – dve Dokumenti su poravnati – dve rečenice na istoj poziciji su prevodni rečenice na istoj poziciji su prevodni ekvivalenti (ili dovoljno blizu).ekvivalenti (ili dovoljno blizu).

Page 5: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Statistike nad rečimaStatistike nad rečima Da bi se formirao rang, za svaku reč Da bi se formirao rang, za svaku reč

izvornog jezika, nalaze se njene rečenice.izvornog jezika, nalaze se njene rečenice. Formira se lista prevodnih ekvivalenata Formira se lista prevodnih ekvivalenata

ovih rečenica.ovih rečenica. Broji se pojavljivanje svake reči ciljnog Broji se pojavljivanje svake reči ciljnog

jezika među prevedenim rečenicama – jezika među prevedenim rečenicama – C(xC(x|y),|y), gde je gde je x neka rex neka reč ciljnog jezika, a y č ciljnog jezika, a y fiksirana izvorna reč.fiksirana izvorna reč.

Takođe, za svaku reč ciljnog jezika x se Takođe, za svaku reč ciljnog jezika x se računa C(x) – broj pojavljivanja reči x u računa C(x) – broj pojavljivanja reči x u celom korpusu.celom korpusu.

Page 6: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Rangiranje - 1Rangiranje - 1 Rangiranje se, za fiksirano y, može vršiti sortiranjem po C(xRangiranje se, za fiksirano y, može vršiti sortiranjem po C(x|y|y) u očekivanju ) u očekivanju

da najbrojnija reč ciljnog jezika ujedno predstavlja i prevod.da najbrojnija reč ciljnog jezika ujedno predstavlja i prevod.

Problem: česte reči ciljnog jezika (veznici, članovi, predlozi itd) dolaze na Problem: česte reči ciljnog jezika (veznici, članovi, predlozi itd) dolaze na vrh.vrh.

Primer, ako traPrimer, ako tražimo prevod engleske reči žimo prevod engleske reči crime, crime, kandidati su (podskup kandidati su (podskup INTER-a):INTER-a):

• , (75 pojavljivanja), (75 pojavljivanja)• Jesam (57)Jesam (57)• . (50). (50)• U (41)U (41)• I ( 39)I ( 39)• Da (35)Da (35)• Zločin (34)Zločin (34)• ......

Vidimo da najčešće reči (i interpunkcija) zauzimaju visoka mesta, ali i Vidimo da najčešće reči (i interpunkcija) zauzimaju visoka mesta, ali i korektan prevod.korektan prevod.

Page 7: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Rangiranje - 2Rangiranje - 2 Može se rangirati i po proporciji pojavljivanja – Može se rangirati i po proporciji pojavljivanja –

C(C(x|y) / C(x).x|y) / C(x).

Interpretacija: ako reč najveći deo svojih Interpretacija: ako reč najveći deo svojih pojavljivanja “provodi” u prevodnim pojavljivanja “provodi” u prevodnim ekvivalentima, to je dobra indikacija da je ekvivalentima, to je dobra indikacija da je povezana sa y.povezana sa y.

Problem: Vrlo retke reči ciljnog jezika koje su se Problem: Vrlo retke reči ciljnog jezika koje su se slučajno našle u prevodnim ekvivalentima slučajno našle u prevodnim ekvivalentima dobijaju visok rang. Reči sa jednim pojavljivanjem dobijaju visok rang. Reči sa jednim pojavljivanjem dobijaju najviši rang.dobijaju najviši rang.

Page 8: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Primer – rangiranjePrimer – rangiranje Za rangiranje po proporciji pojavljivanja na Za rangiranje po proporciji pojavljivanja na

istom podskupu INTERA-e imamo za istom podskupu INTERA-e imamo za crimecrime::• Post (1/1)Post (1/1)• Preovlađivati (1/1)Preovlađivati (1/1)• Ponašati (1/1)Ponašati (1/1)• ......• Počiniti (3/4)Počiniti (3/4)• Zločin (34/50)Zločin (34/50)• ......

U ovom slučaju, korektan prevod ima još U ovom slučaju, korektan prevod ima još manji rang, ali iz drugačijih razloga.manji rang, ali iz drugačijih razloga.

Page 9: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Rangiranje - 3Rangiranje - 3

Ipak treba uzeti u obzir i proporcionalnu Ipak treba uzeti u obzir i proporcionalnu zastupljenost među “relevantnim” rečima, tj. zastupljenost među “relevantnim” rečima, tj. rečima koje se pojavljuju u prevodnim rečima koje se pojavljuju u prevodnim ekvivalentima.ekvivalentima.

Time bi se ponovo aktivirao prvobitni Time bi se ponovo aktivirao prvobitni problem čestih reči, pa se vrši kombinacija problem čestih reči, pa se vrši kombinacija dva faktora.dva faktora.

)(

)|(

)|(

)|()(

xC

yxC

yiC

yxCxrank

tVi

y

Page 10: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

RangiranjeRangiranje)(

)|(

)|(

)|()(

xC

yxC

yiC

yxCxrank

tVi

y

•Rang se može posmatrati i probabilistički.

•Rt – slučajan događaj da je, odabirom iz celog korpusa ciljnog jezika, odabrana “relevantna” reč za fiksiranu reč izvornog jezika y, tj. neka od reči za koju važi C(x|y) > 0.

•x – slučajan događaj da je, odabirom iz celog korpusa ciljnog jezika, odabrana reč x.

•Ako posmatramo verovatnoće P(x|Rt) i P(Rt|x), primećujemo da se one ocenjuju upravo prvim, odnosno drugim razlomkom u rangiranju za x, redom.

•Proizvod ove dve verovatnoće na neki način meri koliko odabir relevantne reči implicira da je to baš x, a koliko odabir baš reči x implicira da je u pitanju relevantna reč za izvornu reč y.

Page 11: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Primer – naprednije rangiranjePrimer – naprednije rangiranje Za reč Za reč crimecrime, prema ovakvom rangiranju, lista najboljih , prema ovakvom rangiranju, lista najboljih

kandidata izgleda kao:kandidata izgleda kao:• Zločin, rang=0,0143Zločin, rang=0,0143• Ratni, rang=0,0086Ratni, rang=0,0086• Suđenje, rang=0,004Suđenje, rang=0,004• Počinjen, rang=0,004Počinjen, rang=0,004• Vojni, rang=0,003Vojni, rang=0,003• Civilni, rang=0,002Civilni, rang=0,002

Lista ponuđenih prevodnih ekvivalenata ovaj put ima vidna Lista ponuđenih prevodnih ekvivalenata ovaj put ima vidna poboljšanja, sa korektnim prevodom na prvom mestu i poboljšanja, sa korektnim prevodom na prvom mestu i jakom semantičkom vezom sa ostalim ponuđenim jakom semantičkom vezom sa ostalim ponuđenim kandidatima.kandidatima.

Napomena: Rezultati su iz malog podskupa INTERA Napomena: Rezultati su iz malog podskupa INTERA korpusa, koji je korišćen za preliminarno istraživanje korpusa, koji je korišćen za preliminarno istraživanje uspešnosti ovakve metode.uspešnosti ovakve metode.

Page 12: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Posle rangiranjaPosle rangiranja

U opštem slučaju, rangiranje sortira sve U opštem slučaju, rangiranje sortira sve ciljne reči u odnosu na rang, za zadato y iz ciljne reči u odnosu na rang, za zadato y iz izvornog korpusa.izvornog korpusa.

U našem pristupu, izdvajamo samo prvih 5 U našem pristupu, izdvajamo samo prvih 5 kandidata.kandidata.

Dalja poboljšanja su moguća – da li bilo Dalja poboljšanja su moguća – da li bilo koji od tih 5 kandidata kroz svoje koji od tih 5 kandidata kroz svoje kandidate (menjajući smer ciljnog i kandidate (menjajući smer ciljnog i izvornog jezika) vodi nazad na reč yizvornog jezika) vodi nazad na reč y??

Page 13: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Posle rangiranja - 2Posle rangiranja - 2 Vidno poboljšanje samog rangiranja je da se pored liste 5 najboljih Vidno poboljšanje samog rangiranja je da se pored liste 5 najboljih

kandidata (tkandidata (t11, t, t22, ..., t, ..., t55) za svakog od njih formira lista njihovih ) za svakog od njih formira lista njihovih najboljih 5 kandidata (snajboljih 5 kandidata (s1111, s, s1212, ..., s, ..., s1515, s, s2121, s, s2222, ..., s, ..., s5151, s, s5252, ..., s, ..., s5555).).

Pretpostavimo dalje da sPretpostavimo dalje da s1313, s, s3232 i s i s5252 odgovaraju polaznoj reči odgovaraju polaznoj reči izvornog jezika. izvornog jezika.

U našem pristupu, reči 2 i 4 u ovom slučaju odbacujemo, a U našem pristupu, reči 2 i 4 u ovom slučaju odbacujemo, a menjamo rang između 1, 3 i 5, dovodeći t3 na prvo mesto, pošto menjamo rang između 1, 3 i 5, dovodeći t3 na prvo mesto, pošto se ona svojim drugim najboljim kandidatom vraća na izvornu reč se ona svojim drugim najboljim kandidatom vraća na izvornu reč y.y. Kandidati 1 i 5 zadržavaju poredak, zbog toga što vode nazad Kandidati 1 i 5 zadržavaju poredak, zbog toga što vode nazad kroz svoje kandidate istog ranga, a prvobitno je 1 imala veći rang kroz svoje kandidate istog ranga, a prvobitno je 1 imala veći rang od 5.od 5.

Ovaj korak eliminacije i permutacije nije kvantitativno zasnovan, Ovaj korak eliminacije i permutacije nije kvantitativno zasnovan, već je na lingvističkoj osnovi – ako za neku reč srpskog imamo reč već je na lingvističkoj osnovi – ako za neku reč srpskog imamo reč engleskog za koju pretpostavljamo da je dobar prevod, a pritom engleskog za koju pretpostavljamo da je dobar prevod, a pritom istom metodom ustanovimo da je ista ta reč dobar prevod te istom metodom ustanovimo da je ista ta reč dobar prevod te engleske reči, imamo jače uverenje u kvalitet prevoda.engleske reči, imamo jače uverenje u kvalitet prevoda.

Page 14: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Obrada rezultataObrada rezultata Posmatrali smo samo prvorangirane kandidate Posmatrali smo samo prvorangirane kandidate

prema opisanoj metodi.prema opisanoj metodi. Ručno su obeležene sve reči srpskog sa Ručno su obeležene sve reči srpskog sa

pojavljivanjem od 50 i više puta (2009 reči).pojavljivanjem od 50 i više puta (2009 reči). Od preostalih reči, odabrano je po 500 iz sledećih Od preostalih reči, odabrano je po 500 iz sledećih

grupa:grupa:• 1 pojavljivanje1 pojavljivanje• 2-5 pojavljivanja2-5 pojavljivanja• 6-20 pojavljivanja6-20 pojavljivanja• 21-49 pojavljivanja21-49 pojavljivanja

Ocene koje su dodeljivane su OK/NOK (korektan Ocene koje su dodeljivane su OK/NOK (korektan prevod, nije korektan prevod).prevod, nije korektan prevod).

Page 15: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Neki rezultatiNeki rezultati

Za najfrekventnije srpske reči, 83,08% Za najfrekventnije srpske reči, 83,08% dobilo je, prema našoj oceni, adekvatan dobilo je, prema našoj oceni, adekvatan prevod. Reči koje se pojavljuju 50 i više prevod. Reči koje se pojavljuju 50 i više puta čine 87,92% celog korpusa.puta čine 87,92% celog korpusa.

Reči koje se pojavljuju 6-20 puta na svom Reči koje se pojavljuju 6-20 puta na svom uzorku od 500 reči imale su 52,4% uzorku od 500 reči imale su 52,4% adekvatnih prevoda.adekvatnih prevoda.

Reči koje se pojavljuju 21-49 puta imale su Reči koje se pojavljuju 21-49 puta imale su 61,8% adekvatnih prevoda.61,8% adekvatnih prevoda.

Page 16: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Rezultati - nastavakRezultati - nastavak Reči sa manjim brojem pojavljivanja dobile su 5 Reči sa manjim brojem pojavljivanja dobile su 5

mogućih ocena koje nisu svođene na OK/NOK mogućih ocena koje nisu svođene na OK/NOK zbog male zastupljenosti u korpusu.zbog male zastupljenosti u korpusu.

Ocene: OK / DOK / D / DNOK / NOKOcene: OK / DOK / D / DNOK / NOK Ocena D obeležava diskutabilnu situaciju, gde Ocena D obeležava diskutabilnu situaciju, gde

DOK i DNOK odražavaju ličnu preferencu, uz DOK i DNOK odražavaju ličnu preferencu, uz diskusiju.diskusiju.

Neke statistike:Neke statistike:

• Za reči sa jednim pojavljivanjem: 19,6% OK, 4,4% DOK, Za reči sa jednim pojavljivanjem: 19,6% OK, 4,4% DOK, 0,8% D, 2,8% DNOK, 72,4% NOK.0,8% D, 2,8% DNOK, 72,4% NOK.

• Za reči sa 2-5 pojavljivajna: 31,2% OK, 3,8% DOK, 4,4% Za reči sa 2-5 pojavljivajna: 31,2% OK, 3,8% DOK, 4,4% D, 1% DNOK, 59,6% NOK.D, 1% DNOK, 59,6% NOK.

Page 17: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Rezultati - nastavakRezultati - nastavak U prvih 2009 reči bilo je 340 NOK rezultata, koji U prvih 2009 reči bilo je 340 NOK rezultata, koji

su obeleženi sa semantičkim ocenama S1-S4, gde su obeleženi sa semantičkim ocenama S1-S4, gde je S1 vrlo jaka semantička veza (nedovoljna za je S1 vrlo jaka semantička veza (nedovoljna za OK), S4 nepostojeća semantička veza.OK), S4 nepostojeća semantička veza.

S1 i S2 uglavnom se odnose na delove fraza, S1 i S2 uglavnom se odnose na delove fraza, česte prideve i ostale semantički bliske reči.česte prideve i ostale semantički bliske reči.

S3 označava parove koji imaju neku vidljivu S3 označava parove koji imaju neku vidljivu semantičku vezu.semantičku vezu.

Statistike za semantički skor:Statistike za semantički skor:• S1: 17/340 ili 5% S1: 17/340 ili 5% • S2: 103/340 ili 30,03%S2: 103/340 ili 30,03%• S3: 57/340 ili 16,76%S3: 57/340 ili 16,76%• S4: 163/340 ili 47,94%S4: 163/340 ili 47,94%

Page 18: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

ZaključciZaključci

Više od 80% korpusa je pokriveno Više od 80% korpusa je pokriveno adekvatnim prevodima.adekvatnim prevodima.

Skoro 90% korpusa je u nekoj Skoro 90% korpusa je u nekoj opipljivoj semantičkoj vezi sa opipljivoj semantičkoj vezi sa najboljim predloženim kandidatom.najboljim predloženim kandidatom.

Imajući u vidu jednostavnost metode, Imajući u vidu jednostavnost metode, obećavajući rezultati.obećavajući rezultati.

Page 19: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Dalji radDalji rad Modifikacija rangiranja – proizvod dva Modifikacija rangiranja – proizvod dva

faktora je zapravo kvadrat njihove faktora je zapravo kvadrat njihove geometrijske sredine – probati druge geometrijske sredine – probati druge sredine, tipa harmonijsku, težinsku sredine, tipa harmonijsku, težinsku harmonijsku i sl.harmonijsku i sl.

Iskoristiti poravnanje u kompletnim Iskoristiti poravnanje u kompletnim paketima za statističko mašinsko paketima za statističko mašinsko prevođenje, tipa Moses, i videti da li prevođenje, tipa Moses, i videti da li poboljšavaju rezultate.poboljšavaju rezultate.

Semantička analiza na osnovu dobijenog Semantička analiza na osnovu dobijenog poravnanja.poravnanja.

......

Page 20: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

ZanimljivostiZanimljivosti Prilikom obrade rezultata, uočeno je da Prilikom obrade rezultata, uočeno je da

imenovani entiteti uglavnom korespondiraju sa imenovani entiteti uglavnom korespondiraju sa svojom transkripcijom na ciljni jezik, npr:svojom transkripcijom na ciljni jezik, npr:• Bošnjak – Bosniaks (ali loša lema, množina na ciljnom Bošnjak – Bosniaks (ali loša lema, množina na ciljnom

jeziku)jeziku)• Službeni – Sluzxbeni (od Službeni glasnik)Službeni – Sluzxbeni (od Službeni glasnik)• Momčilović – MomcyilovicxMomčilović – Momcyilovicx

Takođe, možda još korisnije, skraćenice:Takođe, možda još korisnije, skraćenice:• PDV – VATPDV – VAT• MOR – ILO (International Labour Organisation, MOR – ILO (International Labour Organisation,

Međunarodna Organizacija Rada/radnika)Međunarodna Organizacija Rada/radnika)• ......

Page 21: Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Pitanja i odgovoriPitanja i odgovori