![Page 1: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/1.jpg)
Grundläggande textanalys
Joakim Nivre
![Page 2: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/2.jpg)
Om kursen
Ni har hittills läst • Lingvistik
• Datorteknik
• Matematik
• Språkteknologiska tillämpningar
Nu ska vi börja med språkteknologi på allvar • Hur gör man text hanterbar för analys?
• Hur analyserar man ord (ur och i kontext)?
• Hur fungerar språkgranskning
![Page 3: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/3.jpg)
Analys och generering
Två språkteknologiska huvudproblem: !
• Analys – språk in
!• Generering – språk ut
!
Många tillämpningar kombinerar analys och generering • Maskinöversättning
• Dialogsystem
MEANINGTEXT
MEANING TEXT
![Page 4: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/4.jpg)
Analys-pipeline
Textnormalisering
Meningssegmentering
Normaliserad text
Tokenisering
Mening
Token
Morfologisk analys
Ord
Syntaktisk analys
Sats
Semantisk analys
Proposition
Pragmatisk analys
MEANING
![Page 5: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/5.jpg)
Analys-pipeline
Textnormalisering
Meningssegmentering
Normaliserad text
Tokenisering
Mening
Token
Morfologisk analys
Ord
Syntaktisk analys
Sats
Semantisk analys
Proposition
Pragmatisk analys
MEANINGGTA
![Page 6: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/6.jpg)
Varför pipeline?
Divide and conquer • Ett större problem delas upp i enklare delproblem
• Effektivt genom att sökrymden begränsas
Exempel: • Antag 4 nivåer med vardera 10 alternativ
• Total sökrymd: 104 = 10 x 10 x 10 x 10 = 10 000
• Pipeline: 10 + 10 + 10 + 10 = 40
Komplikation: • Utdata från en komponent blir indata till nästa
• Risk för felpropagering om delproblemen inte är oberoende
![Page 7: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/7.jpg)
Alternativ till pipeline
• Holistisk analys: • Alla delproblem behandlas samtidigt
• Möjliggör modellering av alla beroenden
• Oftast ohanterligt ur beräkningssynpunkt
• N-best pipeline: • Varje delkomponent levererar de N mest sannolika analyserna
• Möjliggör modellering av vissa beroenden
• Kan alltid göras beräkningsbart genom att begränsa N (N ≥ 1)
• Kan kombineras med holistisk reranking
• Ställer krav på delkomponenterna (rankning av minst N alternativ)
![Page 8: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/8.jpg)
Delproblem
• Textnormalisering
• Meningssegmentering
• Tokenisering
• Morfologisk analys
• Ordklasstaggning
• Språkmodellering – delproblem i många komponenter
• Språkgranskning – tillämpning av textanalys
![Page 9: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/9.jpg)
Textnormalisering
Text kan se ut på många sätt …
!
!
!
Textnormalisering innebär bland annat: • Separera text från andra element (bilder, uppmärkning, …)
• Regularisera avvikelser från normen (avstavning, sifferuttryck, …)
• Skapa enhetlig teckenkodning
Normalisering måste anpassas till övriga komponenter
![Page 10: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/10.jpg)
Meningssegmentering
Textanalys förutsätter att texten delas upp i meningar • Vad är en mening?
• Hur hittar man meningsgränser i text?
Vanliga ledtrådar: • Skiljetecken i slutet: . ? !
• Stor bokstav i början
• Aldrig helt entydigt men statistiskt hög sannolikhet
Många språk markerar inte meningsgränser alls
![Page 11: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/11.jpg)
Tokenisering
Textanalys förutsätter att meningar delas upp i ord • Vad är ett ord?
• Hur hittar man ordgränser i text?
• Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?
• Hur gör man med flerordsuttryck, t.ex. på grund av
Vanliga ledtrådar: • Mellanrum • Skiljetecken
• Aldrig helt entydigt men statistiskt hög sannolikhet
Många språk markerar inte ordgränser alls
![Page 12: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/12.jpg)
Analysera ordens struktur • Identifiera grundform (lemma)
• Identifiera grammatisk kategori (ordklass)
• Extrahera grammatiska särdrag (numerus, tempus, …)
!bilar = bil N utr plu ind nom
Morfologisk analys
![Page 13: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/13.jpg)
Analysera ordens struktur • Identifiera grundform (lemma)
• Identifiera grammatisk kategori (ordklass)
• Extrahera grammatiska särdrag (numerus, tempus, …)
!bilar = bil N utr plu ind nom
token
Morfologisk analys
![Page 14: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/14.jpg)
Analysera ordens struktur • Identifiera grundform (lemma)
• Identifiera grammatisk kategori (ordklass)
• Extrahera grammatiska särdrag (numerus, tempus, …)
!bilar = bil N utr plu ind nom
token lemma
Morfologisk analys
![Page 15: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/15.jpg)
Analysera ordens struktur • Identifiera grundform (lemma)
• Identifiera grammatisk kategori (ordklass)
• Extrahera grammatiska särdrag (numerus, tempus, …)
!bilar = bil N utr plu ind nom
token lemma ordklass
Morfologisk analys
![Page 16: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/16.jpg)
Analysera ordens struktur • Identifiera grundform (lemma)
• Identifiera grammatisk kategori (ordklass)
• Extrahera grammatiska särdrag (numerus, tempus, …)
!bilar = bil N utr plu ind nom
token lemma ordklass särdrag
Morfologisk analys
![Page 17: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/17.jpg)
Analysera ordens struktur • Identifiera grundform (lemma)
• Identifiera grammatisk kategori (ordklass)
• Extrahera grammatiska särdrag (numerus, tempus, …)
!bilar = bil N utr plu ind nom
token lemma ordklass särdrag
Men hallå! Kan inte bilar vara ett verb också?
Morfologisk analys
![Page 18: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/18.jpg)
Finita automater
• Morfologisk analys görs ofta med finita automater • Språklig ambiguitet = icke-determinism
• Icke-deterministiska automater kan determiniseras
• Morfologisk igenkänning kan göras med vanliga automater
• Morfologisk parsning kräver finita transduktorer
![Page 19: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/19.jpg)
Ordklasstaggning
Disambiguera ord i kontext • Identifiera aktuell ordklass för orden i en mening
• Med eller utan grammatiska särdrag (numerus, tempus, …)
• Kan föregås av (icke-deterministisk) morfologisk analys
De bilar med sina bilar.
![Page 20: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/20.jpg)
Ordklasstaggning
Disambiguera ord i kontext • Identifiera aktuell ordklass för orden i en mening
• Med eller utan grammatiska särdrag (numerus, tempus, …)
• Kan föregås av (icke-deterministisk) morfologisk analys
De bilar med sina bilar.
DET eller PRON?
![Page 21: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/21.jpg)
Ordklasstaggning
Disambiguera ord i kontext • Identifiera aktuell ordklass för orden i en mening
• Med eller utan grammatiska särdrag (numerus, tempus, …)
• Kan föregås av (icke-deterministisk) morfologisk analys
De bilar med sina bilar.
DET eller PRON?
VERB eller NOUN?
![Page 22: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/22.jpg)
Ordklasstaggning
Disambiguera ord i kontext • Identifiera aktuell ordklass för orden i en mening
• Med eller utan grammatiska särdrag (numerus, tempus, …)
• Kan föregås av (icke-deterministisk) morfologisk analys
De bilar med sina bilar.
DET eller PRON?
VERB eller NOUN?
PREP eller NOUN?
![Page 23: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/23.jpg)
Ordklasstaggning
Disambiguera ord i kontext • Identifiera aktuell ordklass för orden i en mening
• Med eller utan grammatiska särdrag (numerus, tempus, …)
• Kan föregås av (icke-deterministisk) morfologisk analys
De bilar med sina bilar.
DET eller PRON?
VERB eller NOUN?
PREP eller NOUN?
DET eller VERB?
![Page 24: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/24.jpg)
Ordklasstaggning
Disambiguera ord i kontext • Identifiera aktuell ordklass för orden i en mening
• Med eller utan grammatiska särdrag (numerus, tempus, …)
• Kan föregås av (icke-deterministisk) morfologisk analys
De bilar med sina bilar.
DET eller PRON?
VERB eller NOUN?
PREP eller NOUN?
DET eller VERB?
VERB eller NOUN?
![Page 25: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/25.jpg)
Ordklasstaggning
Disambiguera ord i kontext • Identifiera aktuell ordklass för orden i en mening
• Med eller utan grammatiska särdrag (numerus, tempus, …)
• Kan föregås av (icke-deterministisk) morfologisk analys
De bilar med sina bilar.PRON VERB PREP DET NOUN
Vad var det jag sa! Ibland är bilar ett verb?
![Page 26: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/26.jpg)
Markov-modeller
• Ordklasstaggning görs ofta med Markov-modeller • Markov-modell = finit automat med sannolikheter
• Lexikala sannolikheter – P(bilar | NOUN) kontra P(bilar | VERB)
• Kontextuella sannolikheter – P(NOUN | DET) kontra P(VERB | DET)
![Page 27: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/27.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
![Page 28: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/28.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det
![Page 29: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/29.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var
![Page 30: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/30.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var en
![Page 31: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/31.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var en gång
![Page 32: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/32.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var en gång en
![Page 33: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/33.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var en gång en liten
![Page 34: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/34.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var en gång en liten flicka
![Page 35: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/35.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var en gång en liten flicka som
![Page 36: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/36.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var en gång en liten flicka som kallades
![Page 37: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/37.jpg)
Språkmodellering
Let’s play the Shannon Game!
Gissa nästa ord i meningen!
Det var en gång en liten flicka som kallades Rödluvan
Hur kan en dator klara detta?
![Page 38: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/38.jpg)
N-gram-modeller
Statistiska språkmodeller • Ger sannolikheten för nästa ord givet kontexten: P(wi | w1, …, wn)
• Ger varje sekvens av ord en sannolikhet: P(w1, …, wn)
• Kan tillämpas på ord, ordklasser, bokstäver, …
N-gram-modeller • Tar bara hänsyn till sekvenser av N ord
• Nästa ord förutsägs i kontexten av N-1 ord
• Modellens sannolikheter skattas från korpusdata
• Regularisering krävs för att hantera ”sparse data”
![Page 39: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/39.jpg)
Språkgranskning
• Granskning av texter med avseende på språkriktighet • Stavningskontroll – detektera och rätta stavfel (ordnivå)
• Grammatikkontroll – detektera och rätta grammatikfel (meningsnivå)
• Språkgranskning förutsätter grundläggande textanalys: • Meningssegmentering och tokenisering
• Morfologisk analys och ordklasstaggning
• N-gram-modeller på tecken- och ordnivå
![Page 40: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/40.jpg)
Kursupplägg
![Page 41: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/41.jpg)
Kursupplägg
Föreläsningar: 1. Textsegmentering
2. Morfologisk analys
3. Ordklasstaggning
4. Markov-modeller
5. N-gram-modeller
6. Textanalys med XML
7. Språkgranskning 1
8. Språkgranskning 2
![Page 42: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/42.jpg)
Kursupplägg
Föreläsningar: 1. Textsegmentering
2. Morfologisk analys
3. Ordklasstaggning
4. Markov-modeller
5. N-gram-modeller
6. Textanalys med XML
7. Språkgranskning 1
8. Språkgranskning 2
Laborationer: 1. Textsegmentering
2. Ordklasstaggning
3. Språkgranskning
![Page 43: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/43.jpg)
Kursupplägg
Föreläsningar: 1. Textsegmentering
2. Morfologisk analys
3. Ordklasstaggning
4. Markov-modeller
5. N-gram-modeller
6. Textanalys med XML
7. Språkgranskning 1
8. Språkgranskning 2
Laborationer: 1. Textsegmentering
2. Ordklasstaggning
3. Språkgranskning
Referat: 1. Muntligt
2. Skriftligt
![Page 44: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/44.jpg)
Kursupplägg
Föreläsningar: 1. Textsegmentering
2. Morfologisk analys
3. Ordklasstaggning
4. Markov-modeller
5. N-gram-modeller
6. Textanalys med XML
7. Språkgranskning 1
8. Språkgranskning 2
Laborationer: 1. Textsegmentering
2. Ordklasstaggning
3. Språkgranskning
Referat: 1. Muntligt
2. Skriftligt
![Page 45: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/45.jpg)
Kurslitteratur
![Page 46: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/46.jpg)
Kurslitteratur
Kursböcker: Markus Dickinson, Chris Brew and Detmar Meurers. 2013. Language and Computers. Wiley-Blackwell.
Daniel Jurafsky and James H. Martin. 2009. Speech and Language Processing. Second Edition. Pearson Prentice-Hall.
![Page 47: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/47.jpg)
Kurslitteratur
Kursböcker: Markus Dickinson, Chris Brew and Detmar Meurers. 2013. Language and Computers. Wiley-Blackwell.
Daniel Jurafsky and James H. Martin. 2009. Speech and Language Processing. Second Edition. Pearson Prentice-Hall.
Övrig kurslitteratur: Artiklar och bokkapitel tillgängliga digitalt från kursens hemsida eller i kopierad form.
![Page 48: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/48.jpg)
Kurslitteratur
Kursböcker: Markus Dickinson, Chris Brew and Detmar Meurers. 2013. Language and Computers. Wiley-Blackwell.
Daniel Jurafsky and James H. Martin. 2009. Speech and Language Processing. Second Edition. Pearson Prentice-Hall.
Övrig kurslitteratur: Artiklar och bokkapitel tillgängliga digitalt från kursens hemsida eller i kopierad form.
För referatuppgiften: Vetenskapliga artiklar tillgängliga digitalt från kursens hemsida.
![Page 49: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/49.jpg)
Examination
![Page 50: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/50.jpg)
Examination
Inlämningsuppgifter (praktisk laboration + teori) 1. Textsegmentering och morfologisk analys
2. Ordklasstaggning och statistiska modeller
3. Språkgranskning
![Page 51: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/51.jpg)
Examination
Inlämningsuppgifter (praktisk laboration + teori) 1. Textsegmentering och morfologisk analys
2. Ordklasstaggning och statistiska modeller
3. Språkgranskning
Referat • Redovisas både muntligt och skriftligt
![Page 52: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/52.jpg)
Uppgift 1
Laboration • Skapa en egen meningssegmentering och tokenisering
• Utvärdera mot en annan automatisk segmentering
• Utvärdera mot manuellt rättad segmentering i korpus
Teori • Skapa finit automat för böjningsmorfologi
![Page 53: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/53.jpg)
Uppgift 2
Laboration • Träna statistisk ordklasstaggare på korpusdata
• Utvärdera mot manuellt annoterad korpus
Teori • Göra härledningar i Markov-modell
• Beräkna regulariserade sannolikheter i n-gram-modell
![Page 54: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/54.jpg)
Uppgift 3
Laboration • Utvärdera två existerande system för språkgranskning
(MS Word och Granska)
Teori • Skapa egna regler för grammatikkontroll
![Page 55: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/55.jpg)
Referatuppgift
Läs och sammanfatta en vetenskaplig artikel • Redovisa muntligt för klassen (5–10 min)
• Skriv ett kort skriftligt referat (1–2 sidor)
Val av artikel • Förslag på artiklar finns på kurshemsidan
• Egna förslag måste godkännas av lärarna
• Ange önskemål senast 24 april
![Page 56: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/56.jpg)
Referatuppgift
Frågor att beakta i referatet • Vilket språkteknologiskt problem behandlas i artikeln?
• Vilken metod används för att tackla detta problem?
• Hur förhåller sig metoden till tidigare arbeten på området?
• Hur visar författarna att metoden fungerar?
• Vad lärde du dig av att läsa artikeln?
• Skulle du rekommendera andra att läsa artikeln/använda metoden?
![Page 57: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/57.jpg)
Lärare och språk
• Kursen har tre lärare !
• Joakim Nivre Marie Dubremetz Eva Pettersson
!
• Vi kommer att använda både svenska och engelska • JN och EP undervisar på svenska, MD på engelska
• Kurslitteraturen är enbart på engelska
• Redovisningarna kan göras antingen på svenska eller engelska
![Page 58: Grundläggande textanalys - cl.lingfil.uu.senivre/stp/gta_intro.pdf · 2014-04-02 · • Hur gör man med icke-ord (skiljetecken, siffror, symboler, …)?! • Hur gör man med flerordsuttryck,](https://reader036.vdocuments.mx/reader036/viewer/2022081607/5eda92685f8d0d7f302a597a/html5/thumbnails/58.jpg)
Praktisk information
All information finns på kursens hemsida:
!• Nås via studentportalen eller Joakim Nivres hemsida
!
För laborationer krävs licens för SUC:
!• Fyll i och lämna/maila till Joakim Nivre
http://stp.lingfil.uu.se/~nivre/stp/gta.html
http://stp.lingfil.uu.se/lila/suc/