ozna čevanje korpusa ah l ib

17
Ozna Ozna čevanje čevanje korpusa korpusa Ah Ah l l ib ib Tomaž Erjavec Tomaž Erjavec Odsek za Odsek za tehnologije tehnologije znanja znanja Institut Institut Jožef Jožef Stefan Stefan http://nl.ijs.si http://nl.ijs.si /et/ /et/

Upload: lilah-schroeder

Post on 02-Jan-2016

38 views

Category:

Documents


5 download

DESCRIPTION

Ozna čevanje korpusa Ah l ib. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” http://nl.ijs.si/et/ Gra dec , 200 7 -0 2 - 23. Uvod. ozadje postopek pretvorbe pretvorba v HTML lematizacija neznanih besed lematizacija vseh besed. Cilji. Korpus naj bi bil : - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Ozna čevanje korpusa  Ah l ib

OznaOznačevanje čevanje korpusa korpusa AhAhllibib

Tomaž ErjavecTomaž ErjavecOdsek za Odsek za tehnologije znanjatehnologije znanja

InstitutInstitut “ “Jožef Jožef StefanStefan””

http://nl.ijs.si/et/http://nl.ijs.si/et/

GraGradecdec, 200, 20077-0-022--2323

Page 2: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

UvodUvod

1.1. ozadjeozadje

2.2. postopek pretvorbepostopek pretvorbe

3.3. pretvorba v HTMLpretvorba v HTML

4.4. lematizacija neznanih besedlematizacija neznanih besed

5.5. lematizacija vseh besedlematizacija vseh besed

Page 3: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

CiljiCilji

Korpus naj bi bilKorpus naj bi bil::

1.1. zapisan v zapisan v standardni standardni oblikiobliki--> XML/TEI--> XML/TEI

2.2. dostopdostopeenn preko konkordančnikapreko konkordančnika--> --> lematizacijalematizacija

3.3. primerprimereen za internetno branjen za internetno branje--> --> avtomatsko iz XMLavtomatsko iz XML

Page 4: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

MetodaMetoda

ročne korekture, s sprotnim avtomatskim ročne korekture, s sprotnim avtomatskim preverjanjempreverjanjem

http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/ ahlib - 0grskaahlib - 0grska

– pošlji datotekepošlji datoteke– izberi tip pretvorbeizberi tip pretvorbe– poberi rezultatpoberi rezultat

cikličen procescikličen proces več (prepletenih) stopenj: več (prepletenih) stopenj:

1.1. korekture besedilakorekture besedila2.2. ““prelom”prelom”3.3. lematizacijalematizacija: neznane besede - dopolnjevanje leksikona: neznane besede - dopolnjevanje leksikona4.4. lematizacija: celotna besedila – lematizacija lematizacija: celotna besedila – lematizacija

posameznega besedilaposameznega besedila

Page 5: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Shema pretvorbeShema pretvorbe

ročne korekcije se izvajajo na lastnem ročne korekcije se izvajajo na lastnem računalniku v orodjih računalniku v orodjih MS Word, MS ExcelMS Word, MS Excel

te datoteke se te datoteke se avtomatskavtomatskoo pretvo pretvorijo v XML in rijo v XML in HTML HTML preko spletnega vmesnika Ahlib preko spletnega vmesnika Ahlib http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/

vmesnik pričakuje datoteko vmesnik pričakuje datoteko z z (največ) eno (največ) eno knjigoknjigo

vrne obdelano besedilovrne obdelano besedilo isto besedilo lahko obdelujemo poljubnokrat, isto besedilo lahko obdelujemo poljubnokrat,

da preverimo uspešnost korekcijda preverimo uspešnost korekcij vrnjeno besedilo na koncu(?) deponiramo v vrnjeno besedilo na koncu(?) deponiramo v

glavno bazo projektaglavno bazo projekta

Page 6: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Koraki avtomatske Koraki avtomatske obdelaveobdelaveOsnovniOsnovni1.1. pretvorba RTF v TEIpretvorba RTF v TEI2.2. pretvorba TEI v HTMLpretvorba TEI v HTMLJezikoslovniJezikoslovni1.1. lematizacija (in zapis nazaj v TEI)lematizacija (in zapis nazaj v TEI)2.2. pretvorba TEI v HTMLpretvorba TEI v HTML3.3. generiranje konkordanc neznanih generiranje konkordanc neznanih

besedbesed(z upoštevanjem že pregledanih)(z upoštevanjem že pregledanih)

4.4. generiranje polnih konkordancgeneriranje polnih konkordanc(z upoštevanjem že pregledanih)(z upoštevanjem že pregledanih)

Page 7: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Koraki v ročni Koraki v ročni korekturikorekturi1.1. WordWord: :

korektura RTF, da dobimo pravilno korektura RTF, da dobimo pravilno strukturno označeni TEI (HTML)strukturno označeni TEI (HTML)

2.2. ExcelExcel/Word/Word: : korekcija lem iz konkordanc neznanih korekcija lem iz konkordanc neznanih besed besed – dopolnjevanje leksikona– dopolnjevanje leksikona/ nadaljn/ nadaljnjje korekturee korekture besedila besedila

3.3. ExcelExcel: : korekcija lem iz polnih konkordanckorekcija lem iz polnih konkordanc – – korekcija posameznega besedilakorekcija posameznega besedila

Page 8: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

1. Pretvorba iz RTF v 1. Pretvorba iz RTF v TEITEI RTF služi RTF služi samosamo kot vsebinska in oblikovna kot vsebinska in oblikovna

predloga za zapis TEI: ne diplomatični, predloga za zapis TEI: ne diplomatični, temveč kritični prepis!temveč kritični prepis!

ime datoteke je pomembno, saj služi za ime datoteke je pomembno, saj služi za povezovanje s faksimili povezovanje s faksimili

RTF mora vsebovati RTF mora vsebovati – besedilobesedilo– sloge definirane v predlogisloge definirane v predlogi– prelome strani za poravnavo s faksimilomprelome strani za poravnavo s faksimilom

na tej osnovi se v TEI zapišejo ustrezni na tej osnovi se v TEI zapišejo ustrezni elementi, npr. elementi, npr. <p>, <note>, <foreign><p>, <note>, <foreign>

Page 9: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Pretvorba iz TEI v Pretvorba iz TEI v HTMLHTML oblika HTML primerna za branjeoblika HTML primerna za branje posamezni elementi barvno posamezni elementi barvno

označenioznačeni avtomatsko generirano kazalo po avtomatsko generirano kazalo po

poglavjih in stranehpoglavjih in straneh služi kot kontrola za uspešnost služi kot kontrola za uspešnost

pretvorbepretvorbe šele ko je v redušele ko je v redu HTML, je v redu HTML, je v redu

tudi RTF!tudi RTF!

Page 10: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

2. Jezikovna analiza2. Jezikovna analiza

analiza sestoji iz:analiza sestoji iz:1.1. segmentacije na pojavnice (besede, ločila) in segmentacije na pojavnice (besede, ločila) in

povedipovedi

2.2. oblikoslovnega označevanjaoblikoslovnega označevanja

3.3. lematizacijelematizacije

avtomatske metode analize skozi avtomatske metode analize skozi strojno učenje: statistični strojno učenje: statistični označevalnikoznačevalnik

uspešnost lematizacije za sodobno uspešnost lematizacije za sodobno slovenščino slovenščino ~~95%95%

Page 11: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Napake avtomatske Napake avtomatske analizeanalize1.1. Segmentacija (razdelitev na besede): Segmentacija (razdelitev na besede):

večina napak že v izvirnikuvečina napak že v izvirniku … … on,ki … --> on,ki … --> popraviti v RTFpopraviti v RTF

kjer se segmentacija dejansko zmoti, to kjer se segmentacija dejansko zmoti, to tudi “popraviti” v RTF ali pa se tudi “popraviti” v RTF ali pa se sprijazniti..sprijazniti..(bertranu:)(bertranu:) -> -> (( + + bertranu:bertranu: + + ))(bertranu:(bertranu: )) -> -> (( + + bertranubertranu + + :: + + ))

2.2. Lematizacija:Lematizacija:1.1. neznane besede -> leksikonneznane besede -> leksikon2.2. vse besede -> besedilovse besede -> besedilo

Page 12: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Neznane besedeNeznane besede

dostikrat je “neznana beseda” dostikrat je “neznana beseda” nepopravljena napaka v izvriniku nepopravljena napaka v izvriniku

natančnost lematizacije dosti manjša natančnost lematizacije dosti manjša kot za znane besedekot za znane besede

ko leme popravimo, to deponiramo kot ko leme popravimo, to deponiramo kot dodaten leksikon v sistemdodaten leksikon v sistem

če obstaja dvoumnost lem za določeno če obstaja dvoumnost lem za določeno besedno obliko, se v leksikon shranijo besedno obliko, se v leksikon shranijo vse leme - te je naknadno treba vse leme - te je naknadno treba razdvoumljati pri korekturah razdvoumljati pri korekturah lematizacije vseh besedlematizacije vseh besed

Page 13: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Korekcija Korekcija vseh besedvseh besed

popravljamo napake, ko izbrana lema sicer popravljamo napake, ko izbrana lema sicer obstaja, a ni pravilna za pojavnicoobstaja, a ni pravilna za pojavnico

postopek podoben kot pri korekcijpostopek podoben kot pri korekcijii neznanih neznanih besedbesed

strežnik vrne konkordance vseh besed v strežnik vrne konkordance vseh besed v besedilubesedilu

konkordance so lahko razdeljene v vekonkordance so lahko razdeljene v več datotekč datotek pregledamo vse lemepregledamo vse leme tudi tu se lahko zgodi, da bi kakšno lemo radi tudi tu se lahko zgodi, da bi kakšno lemo radi

deponirali v leksikon (sistematična napaka, deponirali v leksikon (sistematična napaka, npr. “npr. “barabara” v “” v “barbar” (namesto “barati”)” (namesto “barati”)

Page 14: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Prenos podatkovPrenos podatkov

podamo eno datoteko ali več datotek podamo eno datoteko ali več datotek združenih v eno datoteko .zipzdruženih v eno datoteko .zip

pozor: pri pošiljanju nekomprimiranih datotek pozor: pri pošiljanju nekomprimiranih datotek pri nekaterih pride do napake - v tem pri nekaterih pride do napake - v tem primeru pošljemo komprimiramo datotekoprimeru pošljemo komprimiramo datoteko

zato potrebujemo WinZip ali WinRARzato potrebujemo WinZip ali WinRAR zahtevamo neposredno želeno datotekozahtevamo neposredno želeno datoteko zahtevamo komprimirano mapo z želenimi zahtevamo komprimirano mapo z želenimi

datotekami (.zip)datotekami (.zip) deponiramo jezikoslovne popravke deponiramo jezikoslovne popravke

Page 15: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Imena datotekImena datotek

Shema poimenovanja:Shema poimenovanja: xxxxxx.pdf.pdf faksimilefaksimile xxxxxx.rtf.rtf digitalni vir besediladigitalni vir besedila

xxxx-docxxxx-doc.xml.xml osnovno besedilo za bazoosnovno besedilo za bazo xxxx-docxxxx-doc.html.html osnovno besedilo za gledatosnovno besedilo za gledat xxxx-anaxxxx-ana.xml.xml lematizirano besedilo za bazolematizirano besedilo za bazo xxxx-anaxxxx-ana.html.html lematizirano besedilo za gledatlematizirano besedilo za gledat

xxxx-unk.xmlxxxx-unk.xml.xls.xls Excel konkordance neznanih besed v XMLExcel konkordance neznanih besed v XML xxxx-unk.txtxxxx-unk.txt.xls.xls Excel konkordance neznanih besed v tabeli Excel konkordance neznanih besed v tabeli

(Excel) (Excel) xxxx-all.(N).xmlxxxx-all.(N).xml.xls.xls Excel konkordance vseh besed v XML (Excel) Excel konkordance vseh besed v XML (Excel) xxxx-all.(N).txtxxxx-all.(N).txt.xls.xls Excel konkordance vseh besed v tabeli (Excel) Excel konkordance vseh besed v tabeli (Excel)

Pozor:Pozor: ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-korekt.rtfime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-korekt.rtf strežnik rahlo preimenuje nekatere datoteke, npr.strežnik rahlo preimenuje nekatere datoteke, npr.

#22411#roza jelodvorska#22411#roza jelodvorska v v X22411Xroza_jelodvorskaX22411Xroza_jelodvorska

Page 16: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Praktične vajePraktične vaje

Strežnik: Strežnik: http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/

Page 17: Ozna čevanje korpusa  Ah l ib

AHLib AHLib II.II.2323 februarfebruar 200 20077

Tomaž ErjavecTomaž Erjavec

Primer: GenovefaPrimer: Genovefa

Nekateri znaki se poenostavijo Nekateri znaki se poenostavijo predno gredo v lematizacijo: predno gredo v lematizacijo: à, á, … à, á, … in tudi in tudi ſſ

Vendar obstajajo tudi druge Vendar obstajajo tudi druge sistematisistematične spremembe:čne spremembe:Kolikorkrat jo je ſreKolikorkrat jo je ſrezhzhal , ga je vſelej…al , ga je vſelej…

Enostavno v Excelu: izberi stolpec z Enostavno v Excelu: izberi stolpec z lemami, poišči in zamenjaj!lemami, poišči in zamenjaj!