språk, datorer och textbehandlingevapet/undervisning/sdt07/f2...5 språk, datorer och...

1 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007

Eva Pettersson

Språk, datorer och textbehandling

Föreläsning 2:Korpusannotering, textkodning,

textnormalisering

Eva [email protected]


Eva Pettersson

Föreläsningsöversikt

● Textkodning

• Teckenkodning

• Textnormalisering

• Korpusannotering


Eva Pettersson

Textkodning


Eva Pettersson

Textkodning

● Att märka upp texten med information om t.ex.

författare, dokumenttyp, meningsgränser,

styckeindelning etc.

● Viktigt att veta vilka texttyper som ingår i

korpusen och hur texterna är uppbyggda

● Inte trivialt hur uppmärkningen ska se ut, om man

vill göra korpusen lättillgänglig för andra!

● Finns det någon standard för hur det ska se ut?

Eva Pettersson

COCOA

● Word COunt and COncordance on Atlas

● Mycket tidig textkodningsstandard (1965)

● Används bl.a. i Longman-Lancaster Corpus och Helsinki Corpus

● Format: näbbparenteser innehållande dels en fördefinierad

variabel, dels värdet för variabeln

Exempel från Helsinki Corpus:<N LET TO HUSBAND> N = titel<A BEAUMONT ELIZABETH> A = författare<X FEMALE> X = kön<H HIGH> H = social status


Eva Pettersson

TEI

● Text Encoding Initiative

● Modern textkodningsstandard

● Syfte: att ange en standard för uppmärkning av

texter, så att alla följer samma riktlinjer

● Har tillhandahållit SGML – Standard Generalised

Markup Language (underkategorier: XML, HTML)

Eva Pettersson

TEI – format (1)

● Överst i dokumentet: header med information om

författare, titel, datum etc.

● Exempel ur SUC:

<titleStmt> <title level=a>Smygrustning av raketvapen</title> <title level=j>Dagens Nyheter</title> <author>Mats Lundegård</author></titleStmt>

Eva Pettersson

TEI – format (2)● Varje element (ord, meningar, stycken etc.) omges av en

starttagg (< >) och en sluttagg (</ >). Exempel ur SUC:

<s id=aa01a009><w n=91>Hur<ana><ps>HAhur</w><w n=92>är<ana><ps>VB<m>PRS AKTvara</w><w n=93>det<ana><ps>PN<m>NEU SIN DEF SUB/OBJdet</w><w n=94>då<ana><ps>ABdå</w><w n=95>i<ana><ps>PPi</w><name type=place><w n=96>Mellanöstern<ana><ps>PM<m>NOMMellanöstern</w></name><d n=97>?<ana><ps>MAD?</d></s>


Eva Pettersson

Teckenkodning


Eva Pettersson

Teckenkodning● All text som lagras i en dator har en viss

teckenkodning

● Teckenkodning handlar om hur tecknen (bokstäver,

siffror, mellanslag, interpunktioner etc.)

representeras i datorn, dvs att översätta mänskliga

tecken till datorspråk

● Varje tecken får en unik kod, som motsvarar tecknet

(i en teckentabell)

● Olika språk kräver olika teckenuppsättningar,

beroende på vilket alfabet som används


Eva Pettersson

Bits och bytes

• Vad är en byte?

– den minsta informationsbärande enheten i en dator

– en byte består av 8 bit

– varje bit kan ha värdet 0 eller 1, vilket ger

sammanlagt 256 olika kombinationsmöjligheter i

en byte

– varje tecken (bokstav, interpunktion etc) brukar

lagras i en byte

– 256 olika tecken räcker inte till för att lagra alla

tecken som finns i alla möjliga språk


Eva Pettersson

Teckenkodning för olika språk

• olika språk har olika teckenkodningssystem

• om en dator är inställd på en viss teckenkodning, och

tar emot en text som är skriven med en annan

teckenkodning, så ser texten konstig ut

• vissa tecken är svårare än andra för datorn att visa upp

korrekt

• för svenska är å, ä och ö extra besvärliga

• hänger samman med att de bokstäver som är

gemensamma för många språk ofta lagras på samma

sätt i de olika teckenkodningarna


Eva Pettersson

Teckenkodning för språkspecifika tecken● För att undvika problem med tecken som man vet kan vara

svårtolkade, kan man skriva just dessa tecken som entiteter

istället för som vanliga bokstäver

● I TEI-format skrivs entiteter inom & och ;

● båt skrivs som båt

● bär skrivs som bär

● snö skrivs som snö

● Så gör man ofta i html-kod, när man skapar hemsidor

● Webbläsaren tolkar html-koden, så att å i koden ser ut

som å när det visas på skärmen


Eva Pettersson

Teckenkodning

● Viktigt att tänka på vilken teckenkodning man

använder, när man ska överföra texter mellan olika

datorer och olika språk

● Om man vill att ens korpus ska vara lättillgänglig för

andra, bör man följa en standard för

teckenkodningen

● Finns det någon standard? Ja, flera...

● IANA – Internet Assigned Numbers Authority


Eva Pettersson

ASCII-kodning

● ASCII - American Standard Code for Information

Interchange

● Utvecklat 1968

● 1 byte per tecken

● 7 bit för teckenkodningen (128 möjliga tecken) + en

”paritetsbit” för att kontrollera teckenöverföringen

● Kontrolltecken för speciella funktioner (backspace, tab,

new line)


Eva Pettersson

ASCII-kodning


Eva Pettersson

Problem med ASCII-kodning?

● ASCII är utvecklat för engelska

● Hanterar inte språk med annat alfabet, t.ex. ryska,

kinesiska eller arabiska – dessa tecken saknas helt i

ASCII-tabellen!

● Hanterar inte språk med samma alfabet, men med

vissa avvikande tecken, t.ex. å, ä, ö, é, ü


Eva Pettersson

Hur gör man med andra språk än engelska?

1)Använd ASCII ändå och ge avvikande tecken

specialkoder (entitetsbeteckningar): ä istf ä

2) Utöka den ursprungliga ASCII-tabellen med fler

tecken = språkberoende teckenkodningstabeller


Eva Pettersson

Språkberoende teckenkodning

Utvecklat av Internationella StandardiseringsOrganisationen (ISO)

ISO 88591 (Latin 1) Västeuropeiska språkISO 88592 (Latin 2) Östeuropeiska språk med det latinska alfabetetISO 88593 (Latin 3) Sydeuropeiska språkISO 88594 (Latin 4) Nordeuropeiska språkISO 88595 Östeuropeiska språk med det kyrilliska alfabetetISO 88596 ArabiskaISO 88597 Modern grekiskaISO 88598 HebreiskaISO 88599 (Latin 5) TurkiskaISO 885910 (Latin 6) Nordeuropeiska språk, inkl. grönländska

och samiska


Eva Pettersson

Olika språk i samma korpus

• Parallellkorpusar innehåller texter på två

eller flera olika språk

• Om korpusen innehåller språk med olika

alfabet, t.ex. svenska och turkiska, kan man

inte använda ASCII-kodning, eftersom det

inte finns någon ASCII-kodning som

hanterar både svenska och turkiska tecken


Eva Pettersson

Teckenkodning: Unicode

● En enda teckenkodning för alla (levande och döda) språk

● Plats för mer än en miljon tecken i samma tabell

● Kräver mer än 1 byte i lagringsutrymme:

UTF-8 1 byte/tecken för ASCII,

2-4 bytes för övriga tecken

UTF-16 2 bytes/tecken för vanligaste tecknen,

4 bytes för övriga tecken

UTF-32 4 bytes/tecken

UTF = Unicode Transformation Format


Eva Pettersson

Textnormalisering


Eva Pettersson

Textnormalisering● Att ge texten ett enhetligt format, t.ex. inför annotering

(uppmärkning av ordklass etc):

● Program som automatiskt annoterar en text, kräver att

formatet på texten ser ut på ett visst sätt, t.ex. att varje

mening eller varje ord står på en egen rad

– Meningssegmentering

• att dela upp en text i de ingående meningarna, t.ex. en

mening per rad

– Tokenisering

• att dela upp en text i de ingående orden, t.ex. ett ord per rad


Eva Pettersson

Meningssegmentering

• Att dela upp en text i de ingående meningarna, en

mening per rad

• Man vill helst inte manuellt behöva göra detta

• Det finns datorprogram som automatiskt gör detta

• Oftast ganska lätt att få datorn att lära sig var en

mening slutar och nästa börjar

• Ledtrådar som datorn utnyttjar:

– skiljetecken

– inledande versal


Eva Pettersson

Det var en gång en liten flicka; flickan kallades Rödluvan. Rödluvan var mycket söt; sötare än en karamell.

En dag träffade Rödluvan en varg. Vad söt du är! sa vargen. Rödluvan gick genom skogen och såg många vackra växter, t. ex. smörblommor och midsommarblomster.

Hon mötte också många snälla kamrater, t. ex. Hans och Greta.

Meningssegmentering


Eva Pettersson

Problem vid automatisk meningssegmentering

• Vissa tecken fungerar ibland meningsavskiljande och

ibland inte, t.ex:

– kolon

Orsaken till trafikkaoset var uppenbar: Det snöade hela

natten.

De inblandade personerna var: Pelle, Lisa och Eva.

– punkter

Syftet är att minska samhällets utgifter för färdtjänst.

Syftet är att minska samhällets utgifter för t. ex. färdtjänst.


Eva Pettersson

Tokenisering

• Att dela upp en text i ingående tokens, dvs ord, ett

ord per rad

• Det finns datorprogram som automatiskt gör detta

• Hur definierar man ett ord så att datorn förstår?


Eva Pettersson

Tokenisering

● Vad räknas som ett ord?

• Enkel strategi: mellanslag utgör ordavgränsare

• Kučera & Francis (1967) definition av ett ord:

”a string of contiguous alphanumeric characters

with space on either side; may include hyphens and

apostrophes, but no other punctutation marks”

• Även skiljetecken, sifferuttryck o dyl räknas som

egna ord i tokeniseringen


Eva Pettersson

EU:s huvudkontor ligger i Belgien. Plats: Bryssel.

Där diskuteras många viktiga frågor, t. ex. om man ska få sälja snus i Sverige.

I New York kan man inte köpa snus. Det kan man dock i Malmö, Ystad, Borås etc.

Tokenisering


Eva Pettersson

Problem vid tokenisering

• Skiljetecken föregås inte av mellanslag, men ska

ändå tokeniseras som egna ord

• Vissa skiljetecken utgör ibland egna ord men är

ibland del av ett ord, t.ex kolon

EU:s lagar och regler

Pris: 1 600 kronor


Eva Pettersson

Problem vid tokenisering: Punkter

● Punkter fungerar oftast som meningsavslut:

Syftet är att minska samhällets utgifter för färdtjänst.

● Utgör ibland del av en förkortning och ska då inte

utgöra egna ord: t. ex.

● Kan utgöra både förkortningspunkt och

meningsavslutningspunkt på samma gång:

Syftet är att minska samhällets utgifter för färdtjänst,

sjukresor etc.


Eva Pettersson

Problem vid tokenisering: Apostrofer

● Kan fungera som citationstecken eller som del av

ordet:

’the boys’

the boys’ toys

● Är isn’t att betrakta som ett eller två ord?


Eva Pettersson

Problem vid tokenisering: mellanslag

• Mellanslag utgör inte alltid ordavgränsare:

särskrivna sammansättningar insurance company

egennamn New York

fraser i dag

sifferuttryck 10 000


Eva Pettersson

Annotering


Eva Pettersson

Korpusannotering/taggning● Att märka upp korpusen med lingvistisk information, t.ex:

– Ordklass (part-of-speech)

– Böjningsinformation (morfo-syntaktisk information)

– Lemma (grundform, d.v.s. uppslagsord i lexikon)

– Syntax

– Fonetik (uttal) - transkription

– Semantik

● Annoteringen kan göras för hand eller automatiskt

● Ett annat ord för annotering är taggning

● Den uppmärkning ett ord har tilldelats kallas för en tagg


Eva Pettersson

Ordklasstaggning

● Vad menas med ordklasstaggning?

– ”ren” ordklasstaggning: substantiv, adjektiv, verb etc.

– morfosyntaktisk information: genus, numerus, person etc.

● Vad avgör graden av specificitet i taggarna?

– Syftet med taggningen

– Språkets uppbyggnad

(rik morfologi = rik tagguppsättning)


Eva Pettersson

Tagguppsättningar

– Tagguppsättningarnas storlek varierar mellan 40 och

200 olika taggar

– Syftet med taggningen avgör tagguppsättning

– Exempel på tagguppsättningar för engelska:

• Brown-korpusens tagguppsättning (87 st)

• Penn Treebanks tagguppsättning (45 st)

– Vanligaste tagguppsättningen för svenska:

• Parole (153 st)


Eva Pettersson

Mer om tagguppsättningar

Ju rikare morfologi ett språk har, desto större tagguppsättning krävs normalt. Jmf svenskans Paroletaggar och engelskans Penn Treebanktaggar:

en DI@US@S determinerare: utr, sing, indeflätt AQPUSNIS adjektiv: pos, utr, sing, nom, indefuppgift NCUSN@IS substantiv: utr, sing, nom, indef

an DT determinerareeasy JJ adjektivtask NN substantiv: sing


Eva Pettersson

Taggningens delsteg

Tokenisering

Morfologisk analys

Morfologisk disambiguering

Läraren var i alla fall snäll

Läraren var i alla fall snäll subst subst/verb/adv/pron adv adj

Läraren var i alla fall snäll subst verb adv adj


Eva Pettersson

Hur fungerar automatisk taggning?

• Man utgår från en manuellt taggad text, t.ex. SUC

• Man låter ett datorprogram titta på taggarna, och

bygga ett lexikon med sannolikheter, t.ex:

– får 80% av gångerna verb

20% av gångerna substantiv

• Datorprogrammet tittar också på kontexten, t.ex:

– får alltid substantiv om det föregås av en artikel

oftast verb om det föregås av ett substantiv

• När datorprogrammet ser nya texter, så utgår det ifrån

vad det har lärt sig i sitt lexikon


Eva Pettersson

Vad gör taggaren med ord som saknas i lexikonet?

Okända ord - möjliga strategier:– Versalinledda ord är egennamn, övriga okända ord är

substantiv– Ordet tillhör någon av de öppna ordklasserna, med den

sannolikhet som gäller för korpusen i övrigt– Taggdistributionen för ord som bara förekommer en

enda gång i korpusen– Böjnings- och avledningsändelser

Flertydighet– Kontexten avgör vilken tagg som ska väljas


Eva Pettersson

Vanliga fel som en taggare gör

• Adjektiv taggas som adverb eller tvärtom

Pelle fick snabbtadverb/adjektiv

svar från Lisa

• Preposition taggas som partikel eller tvärtom

Pelle slog påpreposition/partikel

TV:n

• Verb i perfekt taggas som perfekt particip eller

tvärtom

Pelle har lagatverb i perfekt

huset

Pelle har ett lagatperfekt particip

hus


Eva Pettersson

Välkända taggare

• Brill-taggaren (Brill, 1995)

– Vill ha en mening per rad

– Vill ha mellanslag även mellan skiljetecken och

ord

• TnT-taggaren (Brants, 2000)

– Vill ha ett ord per rad

– Tom rad markerar meningsgräns

– Fungerar bäst i test för svenska (Megyesi, 2001):

93, 55% korrekta taggar


Eva Pettersson

Annoteringsprinciper (Leech 1993)

• En annoterad korpus ska kunna återställas till sin oannoterade form

• Annoteringen ska gå att extrahera från texten för att sparas separat

• Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren

• Det ska klargöras hur och av vem annotationen gjordes

• Slutanvändaren ska informeras om att annoteringen inte är ”God's truth”

utan endast ett användbart verktyg

• Annoteringsscheman ska baseras på accepterade och teori-neutrala principer

• Inget annoteringsschema är en standard på förhand. Standarder växer fram.


Eva Pettersson

SUC

● SUC = Stockholm Umeå Corpus

● Ca 1 miljon löpord

● Manuellt taggad

● Hög grad av specificitet:

– 23 ordklasser

– 11 morfosyntaktiska särdrag

– 9 typer av ”named entities” (person, djur, myt, ställe,

institution, produkt, arbete, händelse, annat)


Eva Pettersson

Morfosyntaktiska särdrag i SUC

● Genus (utrum, neutrum, maskulinum)● Numerus● Bestämdhet● Kasus (nominativ, genitiv)● Tempus● Diates (aktiv, s-form)● Modus (konjunktiv)● Participform● Komparationsgrad● Pronomenkasus (subjekt, objekt)

Eva Pettersson

<name type=person><w n=146>Don<ana><ps>PM<m>NOMDon</w><w n=147>Kerr<ana><ps>PM<m>NOMKerr</w></name><w n=148>är<ana><ps>VB<m>PRS AKTvara</w><w n=149>Mellanösternspecialist<ana><ps>NN<m>UTR SIN IND NOMmellanösternspecialist</w><w n=150>på<ana><ps>PPpå</w><name type=inst><w n=151>The<ana><ps>PM<m>NOMThe</w><w n=152>International<ana><ps>PM<m>NOMInternational</w><w n=153>Institute<ana><ps>PM<m>NOMInstitute</w><w n=154>for<ana><ps>PM<m>NOMfor</w><w n=155>Strategic<ana><ps>PM<m>NOMStrategic</w><w n=156>Studies<ana><ps>PM<m>NOMStudies</w></name><w n=157>i<ana><ps>PPi</w><name type=place><w n=158>London<ana><ps>PM<m>NOMLondon</w></name>


Eva Pettersson

BNC

● BNC = British National Corpus● Ca 100 miljoner löpord talad och skriven brittisk

engelska● Automatiskt taggad utan mänsklig kontroll● 61 olika taggar● Ca 4,7% flervalstaggar● 2 miljoner ord stor delmängd rikare taggad och

manuellt efterredigerad – 139 olika taggar

Eva Pettersson

BNC<w DT0>Each<w NN1>dance<w VVDVVN>followed<w AJ0>particular<w NN2>rules<w VVDVVN>laid<w AVP>down<w PRP>by<w AT0>the<w AJ0NN1>dancing<w NN2>masters


Eva Pettersson

EAGLE

● Expert Advisory Groups on Language Engineering

Standards ● Grupp inom EU som bland annat arbetar med att ta

fram en gemensam EU-standard för

korpusuppmärkning


Eva Pettersson

EAGLE:s annoteringsrekommendationer

● Obligatoriska särdrag – de ”stora” ordklasserna:substantiv, verb, adjektiv, pronomen/determinerare, artikel, adverb,

adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion

● Rekommenderade särdrag, t.ex. för substantiv:– Numerus (singular/plural)

– Genus (maskulinum/femininum/neutrum)

– Kasus (nominativ/genitiv/dativ/ackusativ/vokativ)

– Typ (egennamn eller ej)

● Valfria särdrag– Språkoberoende, t.ex. räknebarhet för substantiv

– Språkberoende, t.ex. definithet för substantiv


Eva Pettersson

Lemmatisering

● Att byta ut alla ordformer i korpusen mot grundform

● Exempel på lemmatiserade korpusar:

– Susanne (engelska)

• Surface and Underlying Structural Analysis of Natural

English

• Delmängd av Brown-korpusen

• 130 000 löpord skriven amerikansk engelska

– SUC (svenska)


Eva Pettersson

Lemmatisering i SusanneN01:1660m PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s]N01:1660n VBDR were be [Vwb.Vwb]N01:1660p AT1a a [Ns:e.N01:1660q NN1c pairpair .N01:1660r IO of of [Po.N01:1660s VVNv lost lose [Np[Tn[Vn[VVNv&.N01:1660t YC +, .N01:1670a VVNv whipped whip [VVNv.VVNv]VVNv&]Vn]Tn]N01:1670b NN2 kids kid .Np]Po]Ns:e]Fn:o]N01:1670c YC +, .N01:1670d NP1s Morgan Morgan [Nns:s.Nns:s]N01:1670e VVDv thought think [Vd.Vd]N01:1670f CSA as as [Fa:t.N01:1670g PPHS1m he he [Nas:s.Nas:s]N01:1670h VVDi went go [Vd.Vd]N01:1670i IIt to to [P:q.N01:1670j NN1c bed bed .P:q]Fa:t]S]N01:1670k YF +. .O]

Eva Pettersson

Lemmatisering i SUC<s id=aa01a013><w n=166>Han<ana><ps>PN<m>UTR SIN DEF SUBhan</w><w n=167>skrattar<ana><ps>VB<m>PRS AKTskratta</w><w n=168>lite<ana><ps>AB<m>POSlite</w><w n=169>åt<ana><ps>PPåt</w><w n=170>den<ana><ps>DT<m>UTR SIN DEFden</w><w n=171>avfärdande<ana><ps>PC<m>PRS UTR/NEU SIN/PLU IND/DEF NOMavfärdande</w><w n=172>formuleringen<ana><ps>NN<m>UTR SIN DEF NOMformulering</w><w n=173>och<ana><ps>KNoch</w><w n=174>fördjupar<ana><ps>VB<m>PRS AKTfördjupa</w><w n=175>resonemanget<ana><ps>NN<m>NEU SIN DEF NOMresonemang</w><d n=176>.<ana><ps>MAD.</d></s>


Eva Pettersson

Syntaktisk annotering

● Syntaktisk (grammatisk) analys av korpusen

● Automatisk syntaktisk uppmärkning ger mycket

sämre resultat än t.ex. automatisk ordklasstaggning –

ofta mänsklig inblandning i parsningen

● Trädbanker = syntaktiskt uppmärkta korpusar

● Två huvudsakliga typer av syntaktisk uppmärkning:

– Frasstrukturer (nominalfraser, verbfraser etc.)

– Dependenser (subjekt, objekt etc.)


Eva Pettersson

Frasstrukturuppmärkning i Spoken English Corpus

[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_,[Fr[N who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N his_APP$ pool_NN1 [P on_II [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V has_VHZarrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1[P in_II [N Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V]._. S]

S sentenceN nominalfrasFR relativsatsV verbfrasJ adjektivfrasP prepositionsfras

Eva Pettersson

Dependensuppmärkning i Talbanken

<sentence id="24" user="" date=""> <word id="1" form="Dessutom" postag="ab" head="2" deprel="ADV"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="ROOT"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="SUB"/> <word id="4" form="till" postag="pp" head="2" deprel="ADV"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="DET"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="PR"/> <word id="7" form="." postag="mad" head="2" deprel="IP"/></sentence>

ADV adverbiell modifierare PR komplement till prepositionSUB subjekt IP interpunktionDET determinerare


Eva Pettersson

Semantisk annotering

● Uppmärkning av semantiska relationer, såsom agent,

patient etc.

FrameNet: http://framenet.icsi.berkeley.edu/

● Uppmärkning av ordbetydelse, t.ex. hyponymi

– WordNet: http://wordnet.princeton.edu/

– Svenskt OrdNät: http://www.lingfil.uu.se/ling/swn.html

http://framenet.icsi.berkeley.edu/

http://wordnet.princeton.edu/

http://www.lingfil.uu.se/ling/swn.html


Eva Pettersson

Textlingvistisk annotering

● Diskurstaggar

London-Lund Corpus of Spoken English

– Ursäkter, sorry

– Hälsningar, hello

– Artighetsfraser, please

● Anaforisk annotering (pronomenreferens)


Eva Pettersson

Fonetisk annotering

● Transkribering

MARSEC – The Machine Readable Spoken English

Corpus

● Prosodi

London-Lund Corpus of Spoken English

● Ska man märka upp hostningar, skratt, tvekanden

etc?


Eva Pettersson

Nästa gång

• Sökmotorer och korpussökning på Internet

• Nätresurser

språk, datorer och textbehandlingevapet/undervisning/sdt07/f2...5 språk, datorer och...

Documents