språk, datorer och textbehandlingevapet/undervisning/sdt07/f2...5 språk, datorer och...
TRANSCRIPT
1 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Språk, datorer och textbehandling
Föreläsning 2:Korpusannotering, textkodning,
textnormalisering
2 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Föreläsningsöversikt
● Textkodning
• Teckenkodning
• Textnormalisering
• Korpusannotering
3 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Textkodning
4 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Textkodning
● Att märka upp texten med information om t.ex.
författare, dokumenttyp, meningsgränser,
styckeindelning etc.
● Viktigt att veta vilka texttyper som ingår i
korpusen och hur texterna är uppbyggda
● Inte trivialt hur uppmärkningen ska se ut, om man
vill göra korpusen lättillgänglig för andra!
● Finns det någon standard för hur det ska se ut?
5 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
COCOA
● Word COunt and COncordance on Atlas
● Mycket tidig textkodningsstandard (1965)
● Används bl.a. i Longman-Lancaster Corpus och Helsinki Corpus
● Format: näbbparenteser innehållande dels en fördefinierad
variabel, dels värdet för variabeln
Exempel från Helsinki Corpus:<N LET TO HUSBAND> N = titel<A BEAUMONT ELIZABETH> A = författare<X FEMALE> X = kön<H HIGH> H = social status
6 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
TEI
● Text Encoding Initiative
● Modern textkodningsstandard
● Syfte: att ange en standard för uppmärkning av
texter, så att alla följer samma riktlinjer
● Har tillhandahållit SGML – Standard Generalised
Markup Language (underkategorier: XML, HTML)
7 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
TEI – format (1)
● Överst i dokumentet: header med information om
författare, titel, datum etc.
● Exempel ur SUC:
<titleStmt> <title level=a>Smygrustning av raketvapen</title> <title level=j>Dagens Nyheter</title> <author>Mats Lundegård</author></titleStmt>
8 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
TEI – format (2)● Varje element (ord, meningar, stycken etc.) omges av en
starttagg (< >) och en sluttagg (</ >). Exempel ur SUC:
<p><s id=aa01a009><w n=91>Hur<ana><ps>HA<b>hur</w><w n=92>är<ana><ps>VB<m>PRS AKT<b>vara</w><w n=93>det<ana><ps>PN<m>NEU SIN DEF SUB/OBJ<b>det</w><w n=94>då<ana><ps>AB<b>då</w><w n=95>i<ana><ps>PP<b>i</w><name type=place><w n=96>Mellanöstern<ana><ps>PM<m>NOM<b>Mellanöstern</w></name><d n=97>?<ana><ps>MAD<b>?</d></s></p>
9 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Teckenkodning
10 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Teckenkodning● All text som lagras i en dator har en viss
teckenkodning
● Teckenkodning handlar om hur tecknen (bokstäver,
siffror, mellanslag, interpunktioner etc.)
representeras i datorn, dvs att översätta mänskliga
tecken till datorspråk
● Varje tecken får en unik kod, som motsvarar tecknet
(i en teckentabell)
● Olika språk kräver olika teckenuppsättningar,
beroende på vilket alfabet som används
11 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Bits och bytes
• Vad är en byte?
– den minsta informationsbärande enheten i en dator
– en byte består av 8 bit
– varje bit kan ha värdet 0 eller 1, vilket ger
sammanlagt 256 olika kombinationsmöjligheter i
en byte
– varje tecken (bokstav, interpunktion etc) brukar
lagras i en byte
– 256 olika tecken räcker inte till för att lagra alla
tecken som finns i alla möjliga språk
12 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Teckenkodning för olika språk
• olika språk har olika teckenkodningssystem
• om en dator är inställd på en viss teckenkodning, och
tar emot en text som är skriven med en annan
teckenkodning, så ser texten konstig ut
• vissa tecken är svårare än andra för datorn att visa upp
korrekt
• för svenska är å, ä och ö extra besvärliga
• hänger samman med att de bokstäver som är
gemensamma för många språk ofta lagras på samma
sätt i de olika teckenkodningarna
13 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Teckenkodning för språkspecifika tecken● För att undvika problem med tecken som man vet kan vara
svårtolkade, kan man skriva just dessa tecken som entiteter
istället för som vanliga bokstäver
● I TEI-format skrivs entiteter inom & och ;
● båt skrivs som båt
● bär skrivs som bär
● snö skrivs som snö
● Så gör man ofta i html-kod, när man skapar hemsidor
● Webbläsaren tolkar html-koden, så att å i koden ser ut
som å när det visas på skärmen
14 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Teckenkodning
● Viktigt att tänka på vilken teckenkodning man
använder, när man ska överföra texter mellan olika
datorer och olika språk
● Om man vill att ens korpus ska vara lättillgänglig för
andra, bör man följa en standard för
teckenkodningen
● Finns det någon standard? Ja, flera...
● IANA – Internet Assigned Numbers Authority
15 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
ASCII-kodning
● ASCII - American Standard Code for Information
Interchange
● Utvecklat 1968
● 1 byte per tecken
● 7 bit för teckenkodningen (128 möjliga tecken) + en
”paritetsbit” för att kontrollera teckenöverföringen
● Kontrolltecken för speciella funktioner (backspace, tab,
new line)
16 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
ASCII-kodning
17 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Problem med ASCII-kodning?
● ASCII är utvecklat för engelska
● Hanterar inte språk med annat alfabet, t.ex. ryska,
kinesiska eller arabiska – dessa tecken saknas helt i
ASCII-tabellen!
● Hanterar inte språk med samma alfabet, men med
vissa avvikande tecken, t.ex. å, ä, ö, é, ü
18 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Hur gör man med andra språk än engelska?
1)Använd ASCII ändå och ge avvikande tecken
specialkoder (entitetsbeteckningar): ä istf ä
2) Utöka den ursprungliga ASCII-tabellen med fler
tecken = språkberoende teckenkodningstabeller
19 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Språkberoende teckenkodning
Utvecklat av Internationella StandardiseringsOrganisationen (ISO)
ISO 88591 (Latin 1) Västeuropeiska språkISO 88592 (Latin 2) Östeuropeiska språk med det latinska alfabetetISO 88593 (Latin 3) Sydeuropeiska språkISO 88594 (Latin 4) Nordeuropeiska språkISO 88595 Östeuropeiska språk med det kyrilliska alfabetetISO 88596 ArabiskaISO 88597 Modern grekiskaISO 88598 HebreiskaISO 88599 (Latin 5) TurkiskaISO 885910 (Latin 6) Nordeuropeiska språk, inkl. grönländska
och samiska
20 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Olika språk i samma korpus
• Parallellkorpusar innehåller texter på två
eller flera olika språk
• Om korpusen innehåller språk med olika
alfabet, t.ex. svenska och turkiska, kan man
inte använda ASCII-kodning, eftersom det
inte finns någon ASCII-kodning som
hanterar både svenska och turkiska tecken
21 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Teckenkodning: Unicode
● En enda teckenkodning för alla (levande och döda) språk
● Plats för mer än en miljon tecken i samma tabell
● Kräver mer än 1 byte i lagringsutrymme:
UTF-8 1 byte/tecken för ASCII,
2-4 bytes för övriga tecken
UTF-16 2 bytes/tecken för vanligaste tecknen,
4 bytes för övriga tecken
UTF-32 4 bytes/tecken
UTF = Unicode Transformation Format
22 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Textnormalisering
23 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Textnormalisering● Att ge texten ett enhetligt format, t.ex. inför annotering
(uppmärkning av ordklass etc):
● Program som automatiskt annoterar en text, kräver att
formatet på texten ser ut på ett visst sätt, t.ex. att varje
mening eller varje ord står på en egen rad
– Meningssegmentering
• att dela upp en text i de ingående meningarna, t.ex. en
mening per rad
– Tokenisering
• att dela upp en text i de ingående orden, t.ex. ett ord per rad
24 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Meningssegmentering
• Att dela upp en text i de ingående meningarna, en
mening per rad
• Man vill helst inte manuellt behöva göra detta
• Det finns datorprogram som automatiskt gör detta
• Oftast ganska lätt att få datorn att lära sig var en
mening slutar och nästa börjar
• Ledtrådar som datorn utnyttjar:
– skiljetecken
– inledande versal
25 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Det var en gång en liten flicka; flickan kallades Rödluvan. Rödluvan var mycket söt; sötare än en karamell.
En dag träffade Rödluvan en varg. Vad söt du är! sa vargen. Rödluvan gick genom skogen och såg många vackra växter, t. ex. smörblommor och midsommarblomster.
Hon mötte också många snälla kamrater, t. ex. Hans och Greta.
Meningssegmentering
26 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Problem vid automatisk meningssegmentering
• Vissa tecken fungerar ibland meningsavskiljande och
ibland inte, t.ex:
– kolon
Orsaken till trafikkaoset var uppenbar: Det snöade hela
natten.
De inblandade personerna var: Pelle, Lisa och Eva.
– punkter
Syftet är att minska samhällets utgifter för färdtjänst.
Syftet är att minska samhällets utgifter för t. ex. färdtjänst.
27 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Tokenisering
• Att dela upp en text i ingående tokens, dvs ord, ett
ord per rad
• Det finns datorprogram som automatiskt gör detta
• Hur definierar man ett ord så att datorn förstår?
28 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Tokenisering
● Vad räknas som ett ord?
• Enkel strategi: mellanslag utgör ordavgränsare
• Kučera & Francis (1967) definition av ett ord:
”a string of contiguous alphanumeric characters
with space on either side; may include hyphens and
apostrophes, but no other punctutation marks”
• Även skiljetecken, sifferuttryck o dyl räknas som
egna ord i tokeniseringen
29 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
EU:s huvudkontor ligger i Belgien. Plats: Bryssel.
Där diskuteras många viktiga frågor, t. ex. om man ska få sälja snus i Sverige.
I New York kan man inte köpa snus. Det kan man dock i Malmö, Ystad, Borås etc.
Tokenisering
30 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Problem vid tokenisering
• Skiljetecken föregås inte av mellanslag, men ska
ändå tokeniseras som egna ord
• Vissa skiljetecken utgör ibland egna ord men är
ibland del av ett ord, t.ex kolon
EU:s lagar och regler
Pris: 1 600 kronor
31 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Problem vid tokenisering: Punkter
● Punkter fungerar oftast som meningsavslut:
Syftet är att minska samhällets utgifter för färdtjänst.
● Utgör ibland del av en förkortning och ska då inte
utgöra egna ord: t. ex.
● Kan utgöra både förkortningspunkt och
meningsavslutningspunkt på samma gång:
Syftet är att minska samhällets utgifter för färdtjänst,
sjukresor etc.
32 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Problem vid tokenisering: Apostrofer
● Kan fungera som citationstecken eller som del av
ordet:
’the boys’
the boys’ toys
● Är isn’t att betrakta som ett eller två ord?
33 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Problem vid tokenisering: mellanslag
• Mellanslag utgör inte alltid ordavgränsare:
särskrivna sammansättningar insurance company
egennamn New York
fraser i dag
sifferuttryck 10 000
34 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Annotering
35 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Korpusannotering/taggning● Att märka upp korpusen med lingvistisk information, t.ex:
– Ordklass (part-of-speech)
– Böjningsinformation (morfo-syntaktisk information)
– Lemma (grundform, d.v.s. uppslagsord i lexikon)
– Syntax
– Fonetik (uttal) - transkription
– Semantik
● Annoteringen kan göras för hand eller automatiskt
● Ett annat ord för annotering är taggning
● Den uppmärkning ett ord har tilldelats kallas för en tagg
36 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Ordklasstaggning
● Vad menas med ordklasstaggning?
– ”ren” ordklasstaggning: substantiv, adjektiv, verb etc.
– morfosyntaktisk information: genus, numerus, person etc.
● Vad avgör graden av specificitet i taggarna?
– Syftet med taggningen
– Språkets uppbyggnad
(rik morfologi = rik tagguppsättning)
37 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Tagguppsättningar
– Tagguppsättningarnas storlek varierar mellan 40 och
200 olika taggar
– Syftet med taggningen avgör tagguppsättning
– Exempel på tagguppsättningar för engelska:
• Brown-korpusens tagguppsättning (87 st)
• Penn Treebanks tagguppsättning (45 st)
– Vanligaste tagguppsättningen för svenska:
• Parole (153 st)
38 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Mer om tagguppsättningar
Ju rikare morfologi ett språk har, desto större tagguppsättning krävs normalt. Jmf svenskans Paroletaggar och engelskans Penn Treebanktaggar:
en DI@US@S determinerare: utr, sing, indeflätt AQPUSNIS adjektiv: pos, utr, sing, nom, indefuppgift NCUSN@IS substantiv: utr, sing, nom, indef
an DT determinerareeasy JJ adjektivtask NN substantiv: sing
39 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Taggningens delsteg
Tokenisering
Morfologisk analys
Morfologisk disambiguering
Läraren var i alla fall snäll
Läraren var i alla fall snäll subst subst/verb/adv/pron adv adj
Läraren var i alla fall snäll subst verb adv adj
40 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Hur fungerar automatisk taggning?
• Man utgår från en manuellt taggad text, t.ex. SUC
• Man låter ett datorprogram titta på taggarna, och
bygga ett lexikon med sannolikheter, t.ex:
– får 80% av gångerna verb
20% av gångerna substantiv
• Datorprogrammet tittar också på kontexten, t.ex:
– får alltid substantiv om det föregås av en artikel
oftast verb om det föregås av ett substantiv
• När datorprogrammet ser nya texter, så utgår det ifrån
vad det har lärt sig i sitt lexikon
41 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Vad gör taggaren med ord som saknas i lexikonet?
Okända ord - möjliga strategier:– Versalinledda ord är egennamn, övriga okända ord är
substantiv– Ordet tillhör någon av de öppna ordklasserna, med den
sannolikhet som gäller för korpusen i övrigt– Taggdistributionen för ord som bara förekommer en
enda gång i korpusen– Böjnings- och avledningsändelser
Flertydighet– Kontexten avgör vilken tagg som ska väljas
42 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Vanliga fel som en taggare gör
• Adjektiv taggas som adverb eller tvärtom
Pelle fick snabbtadverb/adjektiv
svar från Lisa
• Preposition taggas som partikel eller tvärtom
Pelle slog påpreposition/partikel
TV:n
• Verb i perfekt taggas som perfekt particip eller
tvärtom
Pelle har lagatverb i perfekt
huset
Pelle har ett lagatperfekt particip
hus
43 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Välkända taggare
• Brill-taggaren (Brill, 1995)
– Vill ha en mening per rad
– Vill ha mellanslag även mellan skiljetecken och
ord
• TnT-taggaren (Brants, 2000)
– Vill ha ett ord per rad
– Tom rad markerar meningsgräns
– Fungerar bäst i test för svenska (Megyesi, 2001):
93, 55% korrekta taggar
44 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Annoteringsprinciper (Leech 1993)
• En annoterad korpus ska kunna återställas till sin oannoterade form
• Annoteringen ska gå att extrahera från texten för att sparas separat
• Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren
• Det ska klargöras hur och av vem annotationen gjordes
• Slutanvändaren ska informeras om att annoteringen inte är ”God's truth”
utan endast ett användbart verktyg
• Annoteringsscheman ska baseras på accepterade och teori-neutrala principer
• Inget annoteringsschema är en standard på förhand. Standarder växer fram.
45 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
SUC
● SUC = Stockholm Umeå Corpus
● Ca 1 miljon löpord
● Manuellt taggad
● Hög grad av specificitet:
– 23 ordklasser
– 11 morfosyntaktiska särdrag
– 9 typer av ”named entities” (person, djur, myt, ställe,
institution, produkt, arbete, händelse, annat)
46 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Morfosyntaktiska särdrag i SUC
● Genus (utrum, neutrum, maskulinum)● Numerus● Bestämdhet● Kasus (nominativ, genitiv)● Tempus● Diates (aktiv, s-form)● Modus (konjunktiv)● Participform● Komparationsgrad● Pronomenkasus (subjekt, objekt)
47 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
<name type=person><w n=146>Don<ana><ps>PM<m>NOM<b>Don</w><w n=147>Kerr<ana><ps>PM<m>NOM<b>Kerr</w></name><w n=148>är<ana><ps>VB<m>PRS AKT<b>vara</w><w n=149>Mellanösternspecialist<ana><ps>NN<m>UTR SIN IND NOM<b>mellanösternspecialist</w><w n=150>på<ana><ps>PP<b>på</w><name type=inst><w n=151>The<ana><ps>PM<m>NOM<b>The</w><w n=152>International<ana><ps>PM<m>NOM<b>International</w><w n=153>Institute<ana><ps>PM<m>NOM<b>Institute</w><w n=154>for<ana><ps>PM<m>NOM<b>for</w><w n=155>Strategic<ana><ps>PM<m>NOM<b>Strategic</w><w n=156>Studies<ana><ps>PM<m>NOM<b>Studies</w></name><w n=157>i<ana><ps>PP<b>i</w><name type=place><w n=158>London<ana><ps>PM<m>NOM<b>London</w></name>
48 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
BNC
● BNC = British National Corpus● Ca 100 miljoner löpord talad och skriven brittisk
engelska● Automatiskt taggad utan mänsklig kontroll● 61 olika taggar● Ca 4,7% flervalstaggar● 2 miljoner ord stor delmängd rikare taggad och
manuellt efterredigerad – 139 olika taggar
49 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
BNC<w DT0>Each<w NN1>dance<w VVDVVN>followed<w AJ0>particular<w NN2>rules<w VVDVVN>laid<w AVP>down<w PRP>by<w AT0>the<w AJ0NN1>dancing<w NN2>masters
50 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
EAGLE
● Expert Advisory Groups on Language Engineering
Standards ● Grupp inom EU som bland annat arbetar med att ta
fram en gemensam EU-standard för
korpusuppmärkning
51 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
EAGLE:s annoteringsrekommendationer
● Obligatoriska särdrag – de ”stora” ordklasserna:substantiv, verb, adjektiv, pronomen/determinerare, artikel, adverb,
adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion
● Rekommenderade särdrag, t.ex. för substantiv:– Numerus (singular/plural)
– Genus (maskulinum/femininum/neutrum)
– Kasus (nominativ/genitiv/dativ/ackusativ/vokativ)
– Typ (egennamn eller ej)
● Valfria särdrag– Språkoberoende, t.ex. räknebarhet för substantiv
– Språkberoende, t.ex. definithet för substantiv
52 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Lemmatisering
● Att byta ut alla ordformer i korpusen mot grundform
● Exempel på lemmatiserade korpusar:
– Susanne (engelska)
• Surface and Underlying Structural Analysis of Natural
English
• Delmängd av Brown-korpusen
• 130 000 löpord skriven amerikansk engelska
– SUC (svenska)
53 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Lemmatisering i SusanneN01:1660m PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s]N01:1660n VBDR were be [Vwb.Vwb]N01:1660p AT1a a [Ns:e.N01:1660q NN1c pairpair .N01:1660r IO of of [Po.N01:1660s VVNv lost lose [Np[Tn[Vn[VVNv&.N01:1660t YC +, .N01:1670a VVNv whipped whip [VVNv.VVNv]VVNv&]Vn]Tn]N01:1670b NN2 kids kid .Np]Po]Ns:e]Fn:o]N01:1670c YC +, .N01:1670d NP1s Morgan Morgan [Nns:s.Nns:s]N01:1670e VVDv thought think [Vd.Vd]N01:1670f CSA as as [Fa:t.N01:1670g PPHS1m he he [Nas:s.Nas:s]N01:1670h VVDi went go [Vd.Vd]N01:1670i IIt to to [P:q.N01:1670j NN1c bed bed .P:q]Fa:t]S]N01:1670k YF +. .O]
54 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Lemmatisering i SUC<s id=aa01a013><w n=166>Han<ana><ps>PN<m>UTR SIN DEF SUB<b>han</w><w n=167>skrattar<ana><ps>VB<m>PRS AKT<b>skratta</w><w n=168>lite<ana><ps>AB<m>POS<b>lite</w><w n=169>åt<ana><ps>PP<b>åt</w><w n=170>den<ana><ps>DT<m>UTR SIN DEF<b>den</w><w n=171>avfärdande<ana><ps>PC<m>PRS UTR/NEU SIN/PLU IND/DEF NOM<b>avfärdande</w><w n=172>formuleringen<ana><ps>NN<m>UTR SIN DEF NOM<b>formulering</w><w n=173>och<ana><ps>KN<b>och</w><w n=174>fördjupar<ana><ps>VB<m>PRS AKT<b>fördjupa</w><w n=175>resonemanget<ana><ps>NN<m>NEU SIN DEF NOM<b>resonemang</w><d n=176>.<ana><ps>MAD<b>.</d></s>
55 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Syntaktisk annotering
● Syntaktisk (grammatisk) analys av korpusen
● Automatisk syntaktisk uppmärkning ger mycket
sämre resultat än t.ex. automatisk ordklasstaggning –
ofta mänsklig inblandning i parsningen
● Trädbanker = syntaktiskt uppmärkta korpusar
● Två huvudsakliga typer av syntaktisk uppmärkning:
– Frasstrukturer (nominalfraser, verbfraser etc.)
– Dependenser (subjekt, objekt etc.)
56 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Frasstrukturuppmärkning i Spoken English Corpus
[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_,[Fr[N who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N his_APP$ pool_NN1 [P on_II [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V has_VHZarrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1[P in_II [N Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V]._. S]
S sentenceN nominalfrasFR relativsatsV verbfrasJ adjektivfrasP prepositionsfras
57 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Dependensuppmärkning i Talbanken
<sentence id="24" user="" date=""> <word id="1" form="Dessutom" postag="ab" head="2" deprel="ADV"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="ROOT"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="SUB"/> <word id="4" form="till" postag="pp" head="2" deprel="ADV"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="DET"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="PR"/> <word id="7" form="." postag="mad" head="2" deprel="IP"/></sentence>
ADV adverbiell modifierare PR komplement till prepositionSUB subjekt IP interpunktionDET determinerare
58 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Semantisk annotering
● Uppmärkning av semantiska relationer, såsom agent,
patient etc.
FrameNet: http://framenet.icsi.berkeley.edu/
● Uppmärkning av ordbetydelse, t.ex. hyponymi
– WordNet: http://wordnet.princeton.edu/
– Svenskt OrdNät: http://www.lingfil.uu.se/ling/swn.html
59 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Textlingvistisk annotering
● Diskurstaggar
London-Lund Corpus of Spoken English
– Ursäkter, sorry
– Hälsningar, hello
– Artighetsfraser, please
● Anaforisk annotering (pronomenreferens)
60 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Fonetisk annotering
● Transkribering
MARSEC – The Machine Readable Spoken English
Corpus
● Prosodi
London-Lund Corpus of Spoken English
● Ska man märka upp hostningar, skratt, tvekanden
etc?
61 Språk, datorer och textbehandlingFöreläsning 2, 15 oktober 2007
Eva Pettersson
Nästa gång
• Sökmotorer och korpussökning på Internet
• Nätresurser