inżynieria lingwistyczna

50
październik, 200 5 1 Inżynieria lingwistyczna Inżynieria lingwistyczna sprawy organizacyjne

Upload: kevina

Post on 13-Jan-2016

58 views

Category:

Documents


5 download

DESCRIPTION

Inżynieria lingwistyczna. sprawy organizacyjne. Zasady zaliczania zajęć. Wariant I: egzamin – pytania o podstawowe informacje z wykładów, proste zadania praktyczne (na papierze); lista pytań i przykłady zadań będą podane na min 2 tyg. przed egzaminem Wariant 2: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Inżynieria lingwistyczna

październik, 2005 1

Inżynieria lingwistycznaInżynieria lingwistyczna

sprawy organizacyjne

Page 2: Inżynieria lingwistyczna

październik, 2005 2

Zasady zaliczania zajęćZasady zaliczania zajęć

Wariant I: egzamin – pytania o podstawowe informacje z wykładów, proste zadania

praktyczne (na papierze); lista pytań i przykłady zadań będą podane na min 2 tyg. przed egzaminem

Wariant 2: – uczęszczanie na wykład oraz– przygotowanie projektu: będzie to niewielkie zadanie do

zrealizowania w systemie SProUT (udostępnię płytę z programem); na ogół wymagało będzie zgromadzenia niewielkiego zbioru danych ok. 200K-500K tekstu z sieci na zadany temat, napisania niewielkiego programu i 1 strony opisu

Page 3: Inżynieria lingwistyczna

październik, 2005 3

PlanyPlanyzaza tydzień (23.03)tydzień (23.03) podstawowe fakty o składni gramatyki formalne

za dwa tygodnie (30.03)za dwa tygodnie (30.03) cd. opisu składni unifikacja struktur atrybutów program SProUT (tokenizacja, analiza morfologiczna,

powierzchniowa analiza składniowa)

za trzy tygodnie (6.04)za trzy tygodnie (6.04) przykładowa gramatyka w systemie SProUT pierwsza lista tematów projektów

Page 4: Inżynieria lingwistyczna

październik, 2005 4

Inżynieria lingwistycznaInżynieria lingwistyczna

dokończenie wykładu 1

Page 5: Inżynieria lingwistyczna

październik, 2005 5

Poziomy wiedzy o języku naturalnymPoziomy wiedzy o języku naturalnym

nazwa dziedziny obszar zainteresowania

fonetyka dźwięki

fonologia dźwięki należące do języka

ortografia zasady pisowni

morfologia struktura/formy wyrazów

składnia zależności strukturalne między słowami (budowa fraz)

semantyka znaczenie pojedynczego zdania

pragmatyka znaczenie w kontekście

zależności międzyzdaniowe (discourse)

Page 6: Inżynieria lingwistyczna

październik, 2005 6

SemantykaSemantyka

ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi, ...)

czyli „kolejny etap analizy”:

mała dziewczyka dała bukiet fiołków mamie

--> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie

[ mama ] dopełnienie

--> [małamody dziewczynka]aktor daćakcja [ bukiet fiołkówel.skladowy]obiekt

[ mama ] odbiorca

Page 7: Inżynieria lingwistyczna

październik, 2005 7

Semantyka, problemySemantyka, problemy

Co to właściwie jest znaczenie wyrażenia w języku naturalnym ?

Jak budować znaczenie zdania ze znaczenia fraz Niepełność wszystkich dostępnych sposbów opisu znaczenia

(zawsze spotkamy sytuację, dla której nie mamy dobrej reguły)

Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki)

I jak zawsze niejednoznaczności

Page 8: Inżynieria lingwistyczna

październik, 2005 8

Semantyka, niejednoznacznościSemantyka, niejednoznaczności

Piła!Piła! okrzyk radości ma widok zgubionej piły, niezbyt pochlebna ocena nauczyciela, wyraz zdegustowania nadużyciem alkoholu

(pierwsze dwie interpretacje semantyczne mają taką samą interpretację morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w mianowniku), trzecia inną (‘piła’ to czasownik)

Uszył jej butyUszył jej buty - wyrażenie idiomatyczne lub opis efektu pracy szewca „nawiasowanie” negacji

Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię)Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię) wiązane zaimków

Jan kazał Piotrowi wyczyścić swoje buty.Jan kazał Piotrowi wyczyścić swoje buty.

Page 9: Inżynieria lingwistyczna

październik, 2005 9

PragmatykaPragmatykainterpretacja wypowiedzi w konkretnym kontekście, w odniesieniu

do wiedzy o świecie

Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np.

Pacjent opuścił salę operacyjną w dobrym stanie

1 pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta

2 pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali]

(doświadczenie przemawia za interpretacją 1)

Page 10: Inżynieria lingwistyczna

październik, 2005 10

Inżynieria lingwistycznaInżynieria lingwistyczna

Agnieszka Mykowiecka

Instytut Podstaw Informatyki, PAN

[email protected]

materiały z wykładów na stronie:

http:\\www.ipipan.waw.pl\~agn\inl.htm

Page 11: Inżynieria lingwistyczna

październik, 2005 11

2. Formalny opis języków 2. Formalny opis języków naturalnych.naturalnych.

Tokeny (segmenty) i tokenizacja

(segmentacja)

Słowa i analiza morfologiczna.

Page 12: Inżynieria lingwistyczna

październik, 2005 12

Segmentacja (tokenizacja)Segmentacja (tokenizacja)

pierwszym zadaniem jest stwierdzenie z jakimi słowami (i innymi elementami tekstu) mamy do czynienia.

Ala ma kota.

20.10.2001 Jerzy K. wrócił do Jeleniej Góry.

Zadanie tokenizatora: – identyfikacja podstawowych elementów tekstu – ewentualnie podział na zdania

Page 13: Inżynieria lingwistyczna

październik, 2005 13

TokenizacjaTokenizacja

Najczęściej wyróżniane typy segmentów, czyli klasy tokenowe to: ciąg małych liter poprzedzonych wielką literą, np. Kraków, ciąg składający się tylko z wielkich liter, np. PZU, ciąg małych liter, np. dom ciąg liter małych i wielkich, np. PeKaO ciąg cyfr, ciąg cyfr z wewnętrzną kropką lub przecinkiem, data, znak interpunkcyjny, tokeny charakterystyczne dla określonych zastosowań, np. tag

języka HTML, adress e-mail, adres strony www.

Page 14: Inżynieria lingwistyczna

październik, 2005 14

Podstawowe problemyPodstawowe problemy

Zdanie kończy się zazwyczaj kropką, ale też ‘? ! …’– Co on powiedział? Idź stąd!

Nie każda kropka kończy zdanie:– daty, liczby: 1.1.2007, 1.000.000, www.pjwstk.edu.pl– skróty zakończone kropką: itd., itp., prof., inż., lek. med.

Niektóre kropki mają znaczenie podwójne:– Bitwa pod Susą miała miejsce w 1629r. W wyniku bitwy Francuzi

zajęli w 1630r. Sabaudię.

PRL-u, polsko-angielski

Page 15: Inżynieria lingwistyczna

październik, 2005 15

PrzykładyPrzykłady W IEEE 802.11g długość pola synchronizacyjnego wynosi

56 bitów (short preamble), natomiast w 802.11b - 128 bitów. W naszym kraju dla częstotliwości 2,4 GHz, a więc dla sieci 802.11b i g, moc nadajnika nie powinna przekraczać 100mW. Tekst ten napisał dr Bogusław Kowalski.

Jaki problem z podziałem na tokeny i zdania występuje w następujących zdaniach?– Zapytaj o to dr. Kowalskiego. – To było we wrześniu 2004r. We wrześniu 2004r. jeszcze o tym nie

pisano. – Zepsuł się por. Maciek zapomniał go dać por. Zdzisławowi.– Za chatą rzeczywiście stał ul. Marii tam jednak nie było.– Mieszkam na ul. Marii Konopnickiej.

Page 16: Inżynieria lingwistyczna

październik, 2005 16

Składniki wyrażeń języka Składniki wyrażeń języka naturalnego - wyrazynaturalnego - wyrazy

typy wyrazów– wyrazy funkcyjne: i, że ...– wyrazy „leksykalne”: koń, szukać ...– idiomy: ciemno choć oko wykol, drzeć koty

frazy o znaczeniu nie będącym funkcją znaczeń składników:biały kruk, skrzynia biegów

powiązania z innymi wyrazamiszukać czego? książka o czym? z czego? czyja? dla kogo? …

słownik: zbiór informacji o słowach i charakterystycznych dla nich związkach z innymi wyrazami

Page 17: Inżynieria lingwistyczna

październik, 2005 17

Morfologia - opis słówMorfologia - opis słów

Morfologia - nauka o budowie słów z morfemów:– temat (stem) - nośnik znaczenia– przed- i przyrostki (affixes) - nośniki cech gramatycznych lub

zmiany znaczenia

fleksja (inflectional morphology)

uzyskiwanie form o znaczeniu tematu mogących pełnić określone funkcje gramatyczne

słowotwórstwo (derivational morphology)

np. zebrać -> zebranie

Page 18: Inżynieria lingwistyczna

październik, 2005 18

Wiele słów pochodzi od innych, można by zatem nie umieszczać ich w słownikach, ale reguły słowotwórcze nie są wcale takie regularne:

A writer is someone that writes, and a stinger is something that stings. But finger don’t fing and ... haberdashers don’t haberdash. Richard Lederer, Crazy English

Pisarz to ktoś kto pisze, kąśliwa uwaga kąsa, ale palec nie palcuje, ...

palić - palacz , czytać - czytacz

chodzić - chodzenie - chód, biegać - bieganie - bieg

czekać - czekanie - czek (?!)

SłowotwórstwoSłowotwórstwo

Słowotwórstwem nie będziemy się zajmować

Page 19: Inżynieria lingwistyczna

październik, 2005 19

Budowa morfologiczna języków Budowa morfologiczna języków naturalnych naturalnych

Analityczna: wykorzystanie wyrazów funkcyjnych angielski, a także włoski, francuski, ..., japoński, chiński

– I would have been going

Fleksyjna: używanie prefiksów/suffiksów/infiksów, j. słowiańskie: czeski, rosyjski, polski , … (ale nie bułgarski);

francuski, niemiecki, arabski– (Cz. new(acc.)) novou (Adj, Fem., Sg., Acc., Non-neg., Pos.)– (Pl. nowa, new(acc.)) nową (Adj, Fem., Sg., Acc.)

Aglutynacyjna: każdej kategorii odpowiada osobny morfem fiński, turecki, węgierski

– (Fin. plural): -i-

Page 20: Inżynieria lingwistyczna

październik, 2005 20

Cechy wyrazów - kategoria składniowaCechy wyrazów - kategoria składniowa

Wyrazy należące do danego języka naturalnego dzielą się na wiele (ok. kilkunastu) kategorii składniowych. Wyrazy z tej samej kategorii mogą występować w zdaniach w tym samym miejscu (pomijamy tu sensowność).

Najważniejsze kategorie składniowe to: – czasowniki (śpi, daje, ...) Verbs– rzeczowniki (przypadek, dom, szczęście, ...) Nouns

– przymiotniki (wesoły, ...) Adjectives

– przysłówki (wesoło, ...) Adverbs

– przyimki (na, pod, ...) Prepositions

– liczebniki (dwa, sto pięć, ...) Numerals

– spójniki podrzędne (który, ponieważ, ...)

– spójniki współrzędne (i, lub, oraz, ...) ... Conjunctions

Page 21: Inżynieria lingwistyczna

październik, 2005 21

Cechy gramatyczne wyrazówCechy gramatyczne wyrazów

Wyrazy mogą mieć wiele form różniących się wartościami cech gramatycznych:– czasowniki (liczba, osoba, czas) [number, person, time]

– rzeczowniki (przypadek, liczba) [case, number]

– przymiotniki (przypadek, rodzaj, liczba, stopień)

[case, gender, num deg]

– przysłówki (stopień) [deg]

Wyrazy mogą też mieć własne (niezmienne) wartości cech:

– rzeczowniki: rodzaj– czasowniki: tryb, aspekt

Page 22: Inżynieria lingwistyczna

październik, 2005 22

Cechy gramatyczne wyrazówCechy gramatyczne wyrazów

number [liczba] singular (pojedyncza), plural (mnoga);

case [przypadek] nominative (mianownik), genetive (dopełniacz), dative (celownik), accusative (biernik),

instrumental (narzędnik), locative (miejscownik), vocative (wołacz);

person [osoba ] 1st (os. 1), 2nd (os. 2), 3rd (os.3)

degree [stopień ] positive (równy), comparative (wyższy),

superlative (najwyższy)

aspect [aspekt ] imperfect (niedokonany), perfect (dokonany)

negation [negacja] affirmative (twierdzenie), negative (zaprzeczenie)

time [czas] present (teraźniejszy), past (przeszły),

future (przyszły) ...

Page 23: Inżynieria lingwistyczna

październik, 2005 23

Cechy gramatyczne wyrazów - rodzajCechy gramatyczne wyrazów - rodzaj

gender [rodzaj] masc (męski), fem (żeński), neut (nijaki),

hum-masc (męskoosobowy) - faceci

nonhum-masc (niemęskoosobowy) – psy, kobiety, stoły

Dodatkowo warto wprowadzić podział rodzaju męskiego na:

hum-masc m1 (facet, lekarz)

anim-masc m2 (kot, robak)

inanim-masc m3 (stół, ołówek)

Page 24: Inżynieria lingwistyczna

październik, 2005 24

Analiza morfologicznaAnaliza morfologiczna

Analiza morfologiczna to przypisywanie słowu formy podstawowej wyrazu oraz zestawu wartości cech gramatycznych

(formą podstawowa dla rzeczowników i przymiotników jest forma mianownika liczby pojedynczej, dla czasowników bezokolicznik)

Rozpoznawanie morfemów, np.koty -> kot +N +PL+nom metoda: kaskada FST - wyjście z jednego jest wejściem do

kolejnego

Page 25: Inżynieria lingwistyczna

październik, 2005 25

Wyrażenia regularneWyrażenia regularne

Przykłady języków regularnych:

język owcy: be! bee! beee! beeee! …

gramatyka: S -> beE E -> ! E -> eE

(zapis: E -> ! |eE )

wyrażenie regularne: bee*! (be+!)

liczby całkowite

gramatyka: S -> 0S | 1S | … | 9S | 0 | 1 | 2 | … | 9

wyrażenie regularne [0..9][0..9]* ([0..9]+)

Page 26: Inżynieria lingwistyczna

październik, 2005 26

AutomatyAutomaty Istnieje wzajemnie jednoznaczna odpowiedniość między

gramatykami regularnymi a automatami skończonymi

Automat skończonyAutomat skończony Urządzenie sekwencyjne mogące znajdować się w skończonej

liczbie stanów, czytające symbol po symbolu. Przeczytanie symbolu zmienia stan urządzenia na inny i przesuwa taśmę wejściową o jedną klatkę na lewo.

Automat skończony zupełny (niekoniecznie deterministyczny) - automat Rabina Scotta (każdy automat skończony jest równoważny deterministycznemu automatowi Rabina-Scotta).

Page 27: Inżynieria lingwistyczna

październik, 2005 27

Definicja automatuDefinicja automatu

Automat skoAutomat skońńczonyczony to piątka < Q, , , qs, Qf >, gdzie

Q - skończony zbiór stanów q0,q1, ... qn skończony zbiór symboli wejściowych (alfabet) qs - stan początkowy Q Qf Q zbiór stanów końcowych (akceptujących) (q,i) tablica przejść Q -> Q ; dla danego symbolu

wejściowego i stanu wartością jest stan automatu

Page 28: Inżynieria lingwistyczna

październik, 2005 28

Przykład automatuPrzykład automatu

język owcy: be! bee! beee! beeee! …

gramatyka: S -> beE E -> ! E -> eE

wyrażenie regularne: bee*! (be+!)

automat: Q={q0,q1,q2,q3} ={a,b,c,...,z, !,?}

e

b e !

q0 q1 q2 q3

(jeśli alfabet jest duży (tu wszystkie litery) dla zwiększenia czytelności pomija się często przejścia dla symboli uniemożliwiających dojście do stanów akceptujących)

Page 29: Inżynieria lingwistyczna

październik, 2005 29

Przykład automatu, 2Przykład automatu, 2 Formy słowa owca: owca, owcy, owcy, owcę, owcą, owcy gramatyka: S -> owcE

E -> a | y | ę | ą

wyrażenie regularne: owc[ayęą]

automat: q2 q3

ę a q4

owc y

q0 q1 q5

ą

(tu zakladamy, że mamy już rozpoznany początek i koniec słowa)

Page 30: Inżynieria lingwistyczna

październik, 2005 30

TransduceryTransducery Transducery to automaty skończone, na łukach których

znajdują się pary symboli. Dla każdego przejścia przez automat otrzymujemy wiec parę powiązanych ze sobą słów. Transducer wiąże ze sobą dwa języki regularne.

Prosty przykład zamiana symboli 0 i 1 (tzn. 0110 -> 1001)

1:0

q0

0:1

Page 31: Inżynieria lingwistyczna

październik, 2005 31

TransduceryTransducery Zamiana ciągów ‘ab’ na ‘x’ ? Oznacza dowolny, nie wymieniony na innych łukach symbol pojedynczy symbol na łuku oznacza, że kopiujemy go, np. a

oznacza a:a

Page 32: Inżynieria lingwistyczna

październik, 2005 32

Automaty, rozszerzeniaAutomaty, rozszerzeniaAutomat z wyjściem: Automat Moore’a nad alfabetem wejściowym T i wyjściowym

Y nazyamy trójkę <S , M, G>, gdzie S - skończony zbiór stanów, M - funkcja przejścia S x T -> S , G: S -> Y.

Automat ze stosem automat z taśmą wejściową i taśmą (stosem) roboczym

Maszyna Turinga automat z taśmą wejściową prawostronnie nieograniczoną i

obustronnie nieograniczoną taśmą roboczą, która może być przesuwana w obu kierunkach

Page 33: Inżynieria lingwistyczna

październik, 2005 33

Budowa morfologiczna języków Budowa morfologiczna języków naturalnych naturalnych

Analityczna: wykorzystanie wyrazów funkcyjnych angielski, a także włoski, francuski, ..., japoński, chiński

– I would have been going

Fleksyjna: używanie prefiksów/suffiksów/infiksów, j. słowiańskie: czeski, rosyjski, polski , … (ale nie bułgarski);

francuski, niemiecki, arabski– (Cz. new(acc.)) novou (Adj, Fem., Sg., Acc., Non-neg., Pos.)– (Pl. nowa, new(acc.)) nową (Adj, Fem., Sg., Acc.)

Aglutynacyjna: każdej kategorii odpowiada osobny morfem fiński, turecki, węgierski

– (Fin. plural): -i-

Page 34: Inżynieria lingwistyczna

październik, 2005 34

Najprostsza analiza morfologicznaNajprostsza analiza morfologiczna

bardzo prosty automat rozpoznający liczbę mnogą angielskich rzeczowników

reg. plural plural (-s)

q0 q1 q2

irreg-pl

irreg-sg

dog (q1), dogs(q2), fox(q2), foxes (q2)

dołączenie słów (przejścia po każdej literze) modelowanie uogólnień (np. końcówki regularne typu -ing)

Page 35: Inżynieria lingwistyczna

październik, 2005 35

Prosty słownik Prosty słownik

c a t s

g r ε

o o s e

e e

car, cars, cat, cats, goose, geese

?fox, foxes

Page 36: Inżynieria lingwistyczna

październik, 2005 36

Rozpoznawanie morfemów, np.koty -> kot +N +PL

FST (Finite State Transducer) dodanie taśmy (porównywanie, wypisywanie)

oznacza mapowanie między dwoma poziomami opisu

leksykalny ->

powierzchniowy

kaskada FST - wyjście z jednego jest wejściem do kolejnego

c a t +N +PL

Analiza morfologicznaAnaliza morfologiczna

c a t s

Page 37: Inżynieria lingwistyczna

październik, 2005 37

FST - TFST - Tnumnum

FSA definiuje język (zbiór ciągów symboli), FST definiuje relację między dwoma zbiorami ciągów symboli:

reg. noun stem +N : ε +PL : ^s#

q0 q1 q4 q7

irreg-sg-noun-stem +N : ε +SG:#

q2 q5 +SG:#

q3 q6 + PL : # irreg-pl-noun-stem +N : ε

a - skrócony zapis a:a ^ - granica morfemu # - granica słowa

Page 38: Inżynieria lingwistyczna

październik, 2005 38

FST - TFST - Tstemsstems

reg-noun-stem | cat @ :@ (cokolwiek)

q0 q1

irreg-sg-noun-stem | goose

irreg-pl-noun-stem | g o:e o:e s e

foxes

poziom leksykalny

poziom pośredni

f o x +N +PL

f o x ^ s #

Page 39: Inżynieria lingwistyczna

październik, 2005 39

FST - TFST - Tnumnum T Tstemsstems

Analiza morfologiczna - kaskada (złożenie) Tstems i Tnum f o x

c a t g +N:

d o + PL:^s#

+SG:#

+PL:#

m o:i u: s:c e +N :

Page 40: Inżynieria lingwistyczna

październik, 2005 40

Reguły ortograficzneReguły ortograficzne

Dla pośredniej postaci tekstu możemy zdefiniować reguły implementujące różne zasady ortograficzne, np

– Wprowadzenie znaczników końca morfemu pozwala na implementację reguł wprowadzania -e- między spółgłoski ‘z’, ‘s’ i ‘x’ a końcówkę -s

– reguła ta może być zaimplementowana jako kolejny transducer

Page 41: Inżynieria lingwistyczna

październik, 2005 41

Kolejny poziom analizyKolejny poziom analizy

Analiza morfologiczna - (foxes)

poziom leksykalny

poziom pośredni

poziom powierzchniowy

f o x +N +PL

f o x ^ s #

f o x e s

Page 42: Inżynieria lingwistyczna

październik, 2005 42

Analizatory morfologiczneAnalizatory morfologiczne

Różnice pomiędzy analizatorami:

– sposób analizy – reakcja na nieznane słowa– zestaw przyjętych znaczników morfosyntaktycznych (format zwracanych rezultatów)

– raczej nie warto budować kolejnego przed sprawdzeniem istniejących

Page 43: Inżynieria lingwistyczna

październik, 2005 43

Analizatory dla polskiegoAnalizatory dla polskiego Morfeusz, http://nlp.ipipan.waw.pl/~wolinski/morfeusz/, PoMor, analizator firmy MorphoLogic, Węgry, analizator AMOR (IJP UW, Rabiega, Rudolf), SAM, analizator oparty o indeks a tergo Tokarskiego (2002), dostępny

bezpłatnie do celów niekomercyjnych pod adresem: http://www.mimuw.edu.pl/~kszafran/SAM-dists/, obecnie nierozwijany;

LEM, produkt firmy LEX, Poznań; prof. Zygmunt Vetulani, ([email protected]),

XeLDA, produkt firmy XEROX: tokenizer i analizator morfologiczny; wersja demo http://www.xrce.xerox.com/competencies/content-analysis/demos/polish

narzędzia Jana Daciuka do analizy morfologicznej: http://www.pg.gda.pl/~jandac/fsa.html

analizator firmy TiP, działający m.in. w programie MsWord, baza fleksyjna języka polskiego, Kraków, AGH; prof. Wiesław Lubaszewski:

http://www.icsr.agh.edu.pl/fleksbaz/, analizator opracowany na potrzeby systemu tłumaczącego POLENG, Filip

Graliński, [email protected].

Page 44: Inżynieria lingwistyczna

październik, 2005 44

Synteza morfologicznaSynteza morfologiczna

Synteza morfologiczna (proces odwrotny do analizy) to ustalenie formy słowa na podstawie jego formy podstawowej oraz zestawu wartości cech gramatycznych

Ponieważ transducery opisują przekształcenia dwukierunkowe, ta sama kaskada transducerów może służyć do analizy i do syntezy morfologicznej.

(oczywiście nie każda analiza morfologiczna jest w ten sposób zaimplementowana)

Page 45: Inżynieria lingwistyczna

październik, 2005 45

Anotowanie informacjami składniowymiAnotowanie informacjami składniowymi ((part of speech taggingpart of speech tagging))

Przypisywanie słowom kategorii składniowej i wartości cech morfologicznych, np.

piła: V, os.3, l. poj. r.ż, cz. przeszły

N, l.poj., r. ż., mian. zastosowanie ( zamiana tekstu na mowę, wyszukiwanie

informacji, analiza składniowa, tłumaczenie)

Dane: - zbiór tagów (indeksów, etykiet) tagset– słownik zawierający słowa wraz z ich tagami– tekst do analizy

Można mówić o zadaniu anotowania tekstu w sposób abstrakcyjny, ale znajomość celu wpływa istotnie na sposób wykonania tego zadania

Page 46: Inżynieria lingwistyczna

październik, 2005 46

TagsetTagset

Spis wszystkich możliwych kombinacji cech gramatycznych dla danego języka – T C1C2... Cn

– zwykle ciąg liter i cyfr: system skrótów: NNS (gen. noun, plural) system pozycujny: pozycja i odpowiada Ci:

– AAMP3----2A---- (gen. Adj., Masc., Pl., 3rd case (dative), comparative (2nd degree of comparison), Affirmative (no negation))

– tense, person, variant, etc.: N/A (oznaczone ‘-’) najbardziej znane: Brown, Penn, Multext[-East], ...

Page 47: Inżynieria lingwistyczna

październik, 2005 47

ProblemyProblemy

Tagi podlegają standardowemu prawu dystrybucji: – większość słów ma tylko jedną kategorię składniową – z pozostałej część większość słów ma dwie kategorie …

Oczywiście, często pojawiające się słowa często mają więcej niż jeden tag:np. lub (czasownik i spójnik), mam (czasownik i rzeczownik),

je, lecz, klej, broń

! Stosunkowo łatwo przypisać tagi poszczególnym słowom, ale nie tak łatwo przypisać tagi słowom w tekście tzn. problemem jest stwierdzenie, które z jednakowo wyglądających

słów zostało użyte w danym miejscu tekstu.

Page 48: Inżynieria lingwistyczna

październik, 2005 48

Sposoby anotacji (tagowania)Sposoby anotacji (tagowania)1. Ręcznie opracowane reguły określania tagów:

Adverbial-that rule (That is white,I consider that bad. vs. It isn’t that bad.)dane wejściowe: "that" + wszystkie możliwe jego tagi

if (+1 A/ADV/QUANT); /* if next word is adj, adverb, or quantier */

(+2 SENT-LIM); /* and following which is a sentence boundary, */

(NOT -1 SVOC/A); /* and the previous word is not a verb like */

/* `consider' which allows adjs as object complements*/

then eliminate non-ADV tags

else eliminate ADV tag

osiągana skuteczność to od 91 do 97%

2. wykorzystanie metod statystycznych (dokładny opis później)

Page 49: Inżynieria lingwistyczna

październik, 2005 49

Przykładowe wyniki analizyPrzykładowe wyniki analizy

wyniki analizy morfologicznej

wynik segmentacji

typ segmentutagforma podstawowa

Page 50: Inżynieria lingwistyczna

październik, 2005 50

Dziękuję za uwagę.