ozna čevanje korpusa ah l ib
DESCRIPTION
Ozna čevanje korpusa Ah l ib. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” http://nl.ijs.si/et/ Gra dec , 200 7 -0 2 - 23. Uvod. ozadje postopek pretvorbe pretvorba v HTML lematizacija neznanih besed lematizacija vseh besed. Cilji. Korpus naj bi bil : - PowerPoint PPT PresentationTRANSCRIPT
OznaOznačevanje čevanje korpusa korpusa AhAhllibib
Tomaž ErjavecTomaž ErjavecOdsek za Odsek za tehnologije znanjatehnologije znanja
InstitutInstitut “ “Jožef Jožef StefanStefan””
http://nl.ijs.si/et/http://nl.ijs.si/et/
GraGradecdec, 200, 20077-0-022--2323
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
UvodUvod
1.1. ozadjeozadje
2.2. postopek pretvorbepostopek pretvorbe
3.3. pretvorba v HTMLpretvorba v HTML
4.4. lematizacija neznanih besedlematizacija neznanih besed
5.5. lematizacija vseh besedlematizacija vseh besed
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
CiljiCilji
Korpus naj bi bilKorpus naj bi bil::
1.1. zapisan v zapisan v standardni standardni oblikiobliki--> XML/TEI--> XML/TEI
2.2. dostopdostopeenn preko konkordančnikapreko konkordančnika--> --> lematizacijalematizacija
3.3. primerprimereen za internetno branjen za internetno branje--> --> avtomatsko iz XMLavtomatsko iz XML
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
MetodaMetoda
ročne korekture, s sprotnim avtomatskim ročne korekture, s sprotnim avtomatskim preverjanjempreverjanjem
http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/ ahlib - 0grskaahlib - 0grska
– pošlji datotekepošlji datoteke– izberi tip pretvorbeizberi tip pretvorbe– poberi rezultatpoberi rezultat
cikličen procescikličen proces več (prepletenih) stopenj: več (prepletenih) stopenj:
1.1. korekture besedilakorekture besedila2.2. ““prelom”prelom”3.3. lematizacijalematizacija: neznane besede - dopolnjevanje leksikona: neznane besede - dopolnjevanje leksikona4.4. lematizacija: celotna besedila – lematizacija lematizacija: celotna besedila – lematizacija
posameznega besedilaposameznega besedila
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Shema pretvorbeShema pretvorbe
ročne korekcije se izvajajo na lastnem ročne korekcije se izvajajo na lastnem računalniku v orodjih računalniku v orodjih MS Word, MS ExcelMS Word, MS Excel
te datoteke se te datoteke se avtomatskavtomatskoo pretvo pretvorijo v XML in rijo v XML in HTML HTML preko spletnega vmesnika Ahlib preko spletnega vmesnika Ahlib http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/
vmesnik pričakuje datoteko vmesnik pričakuje datoteko z z (največ) eno (največ) eno knjigoknjigo
vrne obdelano besedilovrne obdelano besedilo isto besedilo lahko obdelujemo poljubnokrat, isto besedilo lahko obdelujemo poljubnokrat,
da preverimo uspešnost korekcijda preverimo uspešnost korekcij vrnjeno besedilo na koncu(?) deponiramo v vrnjeno besedilo na koncu(?) deponiramo v
glavno bazo projektaglavno bazo projekta
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Koraki avtomatske Koraki avtomatske obdelaveobdelaveOsnovniOsnovni1.1. pretvorba RTF v TEIpretvorba RTF v TEI2.2. pretvorba TEI v HTMLpretvorba TEI v HTMLJezikoslovniJezikoslovni1.1. lematizacija (in zapis nazaj v TEI)lematizacija (in zapis nazaj v TEI)2.2. pretvorba TEI v HTMLpretvorba TEI v HTML3.3. generiranje konkordanc neznanih generiranje konkordanc neznanih
besedbesed(z upoštevanjem že pregledanih)(z upoštevanjem že pregledanih)
4.4. generiranje polnih konkordancgeneriranje polnih konkordanc(z upoštevanjem že pregledanih)(z upoštevanjem že pregledanih)
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Koraki v ročni Koraki v ročni korekturikorekturi1.1. WordWord: :
korektura RTF, da dobimo pravilno korektura RTF, da dobimo pravilno strukturno označeni TEI (HTML)strukturno označeni TEI (HTML)
2.2. ExcelExcel/Word/Word: : korekcija lem iz konkordanc neznanih korekcija lem iz konkordanc neznanih besed besed – dopolnjevanje leksikona– dopolnjevanje leksikona/ nadaljn/ nadaljnjje korekturee korekture besedila besedila
3.3. ExcelExcel: : korekcija lem iz polnih konkordanckorekcija lem iz polnih konkordanc – – korekcija posameznega besedilakorekcija posameznega besedila
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
1. Pretvorba iz RTF v 1. Pretvorba iz RTF v TEITEI RTF služi RTF služi samosamo kot vsebinska in oblikovna kot vsebinska in oblikovna
predloga za zapis TEI: ne diplomatični, predloga za zapis TEI: ne diplomatični, temveč kritični prepis!temveč kritični prepis!
ime datoteke je pomembno, saj služi za ime datoteke je pomembno, saj služi za povezovanje s faksimili povezovanje s faksimili
RTF mora vsebovati RTF mora vsebovati – besedilobesedilo– sloge definirane v predlogisloge definirane v predlogi– prelome strani za poravnavo s faksimilomprelome strani za poravnavo s faksimilom
na tej osnovi se v TEI zapišejo ustrezni na tej osnovi se v TEI zapišejo ustrezni elementi, npr. elementi, npr. <p>, <note>, <foreign><p>, <note>, <foreign>
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Pretvorba iz TEI v Pretvorba iz TEI v HTMLHTML oblika HTML primerna za branjeoblika HTML primerna za branje posamezni elementi barvno posamezni elementi barvno
označenioznačeni avtomatsko generirano kazalo po avtomatsko generirano kazalo po
poglavjih in stranehpoglavjih in straneh služi kot kontrola za uspešnost služi kot kontrola za uspešnost
pretvorbepretvorbe šele ko je v redušele ko je v redu HTML, je v redu HTML, je v redu
tudi RTF!tudi RTF!
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
2. Jezikovna analiza2. Jezikovna analiza
analiza sestoji iz:analiza sestoji iz:1.1. segmentacije na pojavnice (besede, ločila) in segmentacije na pojavnice (besede, ločila) in
povedipovedi
2.2. oblikoslovnega označevanjaoblikoslovnega označevanja
3.3. lematizacijelematizacije
avtomatske metode analize skozi avtomatske metode analize skozi strojno učenje: statistični strojno učenje: statistični označevalnikoznačevalnik
uspešnost lematizacije za sodobno uspešnost lematizacije za sodobno slovenščino slovenščino ~~95%95%
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Napake avtomatske Napake avtomatske analizeanalize1.1. Segmentacija (razdelitev na besede): Segmentacija (razdelitev na besede):
večina napak že v izvirnikuvečina napak že v izvirniku … … on,ki … --> on,ki … --> popraviti v RTFpopraviti v RTF
kjer se segmentacija dejansko zmoti, to kjer se segmentacija dejansko zmoti, to tudi “popraviti” v RTF ali pa se tudi “popraviti” v RTF ali pa se sprijazniti..sprijazniti..(bertranu:)(bertranu:) -> -> (( + + bertranu:bertranu: + + ))(bertranu:(bertranu: )) -> -> (( + + bertranubertranu + + :: + + ))
2.2. Lematizacija:Lematizacija:1.1. neznane besede -> leksikonneznane besede -> leksikon2.2. vse besede -> besedilovse besede -> besedilo
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Neznane besedeNeznane besede
dostikrat je “neznana beseda” dostikrat je “neznana beseda” nepopravljena napaka v izvriniku nepopravljena napaka v izvriniku
natančnost lematizacije dosti manjša natančnost lematizacije dosti manjša kot za znane besedekot za znane besede
ko leme popravimo, to deponiramo kot ko leme popravimo, to deponiramo kot dodaten leksikon v sistemdodaten leksikon v sistem
če obstaja dvoumnost lem za določeno če obstaja dvoumnost lem za določeno besedno obliko, se v leksikon shranijo besedno obliko, se v leksikon shranijo vse leme - te je naknadno treba vse leme - te je naknadno treba razdvoumljati pri korekturah razdvoumljati pri korekturah lematizacije vseh besedlematizacije vseh besed
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Korekcija Korekcija vseh besedvseh besed
popravljamo napake, ko izbrana lema sicer popravljamo napake, ko izbrana lema sicer obstaja, a ni pravilna za pojavnicoobstaja, a ni pravilna za pojavnico
postopek podoben kot pri korekcijpostopek podoben kot pri korekcijii neznanih neznanih besedbesed
strežnik vrne konkordance vseh besed v strežnik vrne konkordance vseh besed v besedilubesedilu
konkordance so lahko razdeljene v vekonkordance so lahko razdeljene v več datotekč datotek pregledamo vse lemepregledamo vse leme tudi tu se lahko zgodi, da bi kakšno lemo radi tudi tu se lahko zgodi, da bi kakšno lemo radi
deponirali v leksikon (sistematična napaka, deponirali v leksikon (sistematična napaka, npr. “npr. “barabara” v “” v “barbar” (namesto “barati”)” (namesto “barati”)
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Prenos podatkovPrenos podatkov
podamo eno datoteko ali več datotek podamo eno datoteko ali več datotek združenih v eno datoteko .zipzdruženih v eno datoteko .zip
pozor: pri pošiljanju nekomprimiranih datotek pozor: pri pošiljanju nekomprimiranih datotek pri nekaterih pride do napake - v tem pri nekaterih pride do napake - v tem primeru pošljemo komprimiramo datotekoprimeru pošljemo komprimiramo datoteko
zato potrebujemo WinZip ali WinRARzato potrebujemo WinZip ali WinRAR zahtevamo neposredno želeno datotekozahtevamo neposredno želeno datoteko zahtevamo komprimirano mapo z želenimi zahtevamo komprimirano mapo z želenimi
datotekami (.zip)datotekami (.zip) deponiramo jezikoslovne popravke deponiramo jezikoslovne popravke
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Imena datotekImena datotek
Shema poimenovanja:Shema poimenovanja: xxxxxx.pdf.pdf faksimilefaksimile xxxxxx.rtf.rtf digitalni vir besediladigitalni vir besedila
xxxx-docxxxx-doc.xml.xml osnovno besedilo za bazoosnovno besedilo za bazo xxxx-docxxxx-doc.html.html osnovno besedilo za gledatosnovno besedilo za gledat xxxx-anaxxxx-ana.xml.xml lematizirano besedilo za bazolematizirano besedilo za bazo xxxx-anaxxxx-ana.html.html lematizirano besedilo za gledatlematizirano besedilo za gledat
xxxx-unk.xmlxxxx-unk.xml.xls.xls Excel konkordance neznanih besed v XMLExcel konkordance neznanih besed v XML xxxx-unk.txtxxxx-unk.txt.xls.xls Excel konkordance neznanih besed v tabeli Excel konkordance neznanih besed v tabeli
(Excel) (Excel) xxxx-all.(N).xmlxxxx-all.(N).xml.xls.xls Excel konkordance vseh besed v XML (Excel) Excel konkordance vseh besed v XML (Excel) xxxx-all.(N).txtxxxx-all.(N).txt.xls.xls Excel konkordance vseh besed v tabeli (Excel) Excel konkordance vseh besed v tabeli (Excel)
Pozor:Pozor: ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-korekt.rtfime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-korekt.rtf strežnik rahlo preimenuje nekatere datoteke, npr.strežnik rahlo preimenuje nekatere datoteke, npr.
#22411#roza jelodvorska#22411#roza jelodvorska v v X22411Xroza_jelodvorskaX22411Xroza_jelodvorska
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Praktične vajePraktične vaje
Strežnik: Strežnik: http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/
AHLib AHLib II.II.2323 februarfebruar 200 20077
Tomaž ErjavecTomaž Erjavec
Primer: GenovefaPrimer: Genovefa
Nekateri znaki se poenostavijo Nekateri znaki se poenostavijo predno gredo v lematizacijo: predno gredo v lematizacijo: à, á, … à, á, … in tudi in tudi ſſ
Vendar obstajajo tudi druge Vendar obstajajo tudi druge sistematisistematične spremembe:čne spremembe:Kolikorkrat jo je ſreKolikorkrat jo je ſrezhzhal , ga je vſelej…al , ga je vſelej…
Enostavno v Excelu: izberi stolpec z Enostavno v Excelu: izberi stolpec z lemami, poišči in zamenjaj!lemami, poišči in zamenjaj!