inżynieria lingwistyczna
DESCRIPTION
Inżynieria lingwistyczna. sprawy organizacyjne. Zasady zaliczania zajęć. Wariant I: egzamin – pytania o podstawowe informacje z wykładów, proste zadania praktyczne (na papierze); lista pytań i przykłady zadań będą podane na min 2 tyg. przed egzaminem Wariant 2: - PowerPoint PPT PresentationTRANSCRIPT
październik, 2005 1
Inżynieria lingwistycznaInżynieria lingwistyczna
sprawy organizacyjne
październik, 2005 2
Zasady zaliczania zajęćZasady zaliczania zajęć
Wariant I: egzamin – pytania o podstawowe informacje z wykładów, proste zadania
praktyczne (na papierze); lista pytań i przykłady zadań będą podane na min 2 tyg. przed egzaminem
Wariant 2: – uczęszczanie na wykład oraz– przygotowanie projektu: będzie to niewielkie zadanie do
zrealizowania w systemie SProUT (udostępnię płytę z programem); na ogół wymagało będzie zgromadzenia niewielkiego zbioru danych ok. 200K-500K tekstu z sieci na zadany temat, napisania niewielkiego programu i 1 strony opisu
październik, 2005 3
PlanyPlanyzaza tydzień (23.03)tydzień (23.03) podstawowe fakty o składni gramatyki formalne
za dwa tygodnie (30.03)za dwa tygodnie (30.03) cd. opisu składni unifikacja struktur atrybutów program SProUT (tokenizacja, analiza morfologiczna,
powierzchniowa analiza składniowa)
za trzy tygodnie (6.04)za trzy tygodnie (6.04) przykładowa gramatyka w systemie SProUT pierwsza lista tematów projektów
październik, 2005 4
Inżynieria lingwistycznaInżynieria lingwistyczna
dokończenie wykładu 1
październik, 2005 5
Poziomy wiedzy o języku naturalnymPoziomy wiedzy o języku naturalnym
nazwa dziedziny obszar zainteresowania
fonetyka dźwięki
fonologia dźwięki należące do języka
ortografia zasady pisowni
morfologia struktura/formy wyrazów
składnia zależności strukturalne między słowami (budowa fraz)
semantyka znaczenie pojedynczego zdania
pragmatyka znaczenie w kontekście
zależności międzyzdaniowe (discourse)
październik, 2005 6
SemantykaSemantyka
ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi, ...)
czyli „kolejny etap analizy”:
mała dziewczyka dała bukiet fiołków mamie
--> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie
[ mama ] dopełnienie
--> [małamody dziewczynka]aktor daćakcja [ bukiet fiołkówel.skladowy]obiekt
[ mama ] odbiorca
październik, 2005 7
Semantyka, problemySemantyka, problemy
Co to właściwie jest znaczenie wyrażenia w języku naturalnym ?
Jak budować znaczenie zdania ze znaczenia fraz Niepełność wszystkich dostępnych sposbów opisu znaczenia
(zawsze spotkamy sytuację, dla której nie mamy dobrej reguły)
Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki)
I jak zawsze niejednoznaczności
październik, 2005 8
Semantyka, niejednoznacznościSemantyka, niejednoznaczności
Piła!Piła! okrzyk radości ma widok zgubionej piły, niezbyt pochlebna ocena nauczyciela, wyraz zdegustowania nadużyciem alkoholu
(pierwsze dwie interpretacje semantyczne mają taką samą interpretację morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w mianowniku), trzecia inną (‘piła’ to czasownik)
Uszył jej butyUszył jej buty - wyrażenie idiomatyczne lub opis efektu pracy szewca „nawiasowanie” negacji
Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię)Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię) wiązane zaimków
Jan kazał Piotrowi wyczyścić swoje buty.Jan kazał Piotrowi wyczyścić swoje buty.
październik, 2005 9
PragmatykaPragmatykainterpretacja wypowiedzi w konkretnym kontekście, w odniesieniu
do wiedzy o świecie
Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np.
Pacjent opuścił salę operacyjną w dobrym stanie
1 pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta
2 pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali]
(doświadczenie przemawia za interpretacją 1)
październik, 2005 10
Inżynieria lingwistycznaInżynieria lingwistyczna
Agnieszka Mykowiecka
Instytut Podstaw Informatyki, PAN
materiały z wykładów na stronie:
http:\\www.ipipan.waw.pl\~agn\inl.htm
październik, 2005 11
2. Formalny opis języków 2. Formalny opis języków naturalnych.naturalnych.
Tokeny (segmenty) i tokenizacja
(segmentacja)
Słowa i analiza morfologiczna.
październik, 2005 12
Segmentacja (tokenizacja)Segmentacja (tokenizacja)
pierwszym zadaniem jest stwierdzenie z jakimi słowami (i innymi elementami tekstu) mamy do czynienia.
Ala ma kota.
20.10.2001 Jerzy K. wrócił do Jeleniej Góry.
Zadanie tokenizatora: – identyfikacja podstawowych elementów tekstu – ewentualnie podział na zdania
październik, 2005 13
TokenizacjaTokenizacja
Najczęściej wyróżniane typy segmentów, czyli klasy tokenowe to: ciąg małych liter poprzedzonych wielką literą, np. Kraków, ciąg składający się tylko z wielkich liter, np. PZU, ciąg małych liter, np. dom ciąg liter małych i wielkich, np. PeKaO ciąg cyfr, ciąg cyfr z wewnętrzną kropką lub przecinkiem, data, znak interpunkcyjny, tokeny charakterystyczne dla określonych zastosowań, np. tag
języka HTML, adress e-mail, adres strony www.
październik, 2005 14
Podstawowe problemyPodstawowe problemy
Zdanie kończy się zazwyczaj kropką, ale też ‘? ! …’– Co on powiedział? Idź stąd!
Nie każda kropka kończy zdanie:– daty, liczby: 1.1.2007, 1.000.000, www.pjwstk.edu.pl– skróty zakończone kropką: itd., itp., prof., inż., lek. med.
Niektóre kropki mają znaczenie podwójne:– Bitwa pod Susą miała miejsce w 1629r. W wyniku bitwy Francuzi
zajęli w 1630r. Sabaudię.
PRL-u, polsko-angielski
październik, 2005 15
PrzykładyPrzykłady W IEEE 802.11g długość pola synchronizacyjnego wynosi
56 bitów (short preamble), natomiast w 802.11b - 128 bitów. W naszym kraju dla częstotliwości 2,4 GHz, a więc dla sieci 802.11b i g, moc nadajnika nie powinna przekraczać 100mW. Tekst ten napisał dr Bogusław Kowalski.
Jaki problem z podziałem na tokeny i zdania występuje w następujących zdaniach?– Zapytaj o to dr. Kowalskiego. – To było we wrześniu 2004r. We wrześniu 2004r. jeszcze o tym nie
pisano. – Zepsuł się por. Maciek zapomniał go dać por. Zdzisławowi.– Za chatą rzeczywiście stał ul. Marii tam jednak nie było.– Mieszkam na ul. Marii Konopnickiej.
październik, 2005 16
Składniki wyrażeń języka Składniki wyrażeń języka naturalnego - wyrazynaturalnego - wyrazy
typy wyrazów– wyrazy funkcyjne: i, że ...– wyrazy „leksykalne”: koń, szukać ...– idiomy: ciemno choć oko wykol, drzeć koty
frazy o znaczeniu nie będącym funkcją znaczeń składników:biały kruk, skrzynia biegów
powiązania z innymi wyrazamiszukać czego? książka o czym? z czego? czyja? dla kogo? …
słownik: zbiór informacji o słowach i charakterystycznych dla nich związkach z innymi wyrazami
październik, 2005 17
Morfologia - opis słówMorfologia - opis słów
Morfologia - nauka o budowie słów z morfemów:– temat (stem) - nośnik znaczenia– przed- i przyrostki (affixes) - nośniki cech gramatycznych lub
zmiany znaczenia
fleksja (inflectional morphology)
uzyskiwanie form o znaczeniu tematu mogących pełnić określone funkcje gramatyczne
słowotwórstwo (derivational morphology)
np. zebrać -> zebranie
październik, 2005 18
Wiele słów pochodzi od innych, można by zatem nie umieszczać ich w słownikach, ale reguły słowotwórcze nie są wcale takie regularne:
A writer is someone that writes, and a stinger is something that stings. But finger don’t fing and ... haberdashers don’t haberdash. Richard Lederer, Crazy English
Pisarz to ktoś kto pisze, kąśliwa uwaga kąsa, ale palec nie palcuje, ...
palić - palacz , czytać - czytacz
chodzić - chodzenie - chód, biegać - bieganie - bieg
czekać - czekanie - czek (?!)
SłowotwórstwoSłowotwórstwo
Słowotwórstwem nie będziemy się zajmować
październik, 2005 19
Budowa morfologiczna języków Budowa morfologiczna języków naturalnych naturalnych
Analityczna: wykorzystanie wyrazów funkcyjnych angielski, a także włoski, francuski, ..., japoński, chiński
– I would have been going
Fleksyjna: używanie prefiksów/suffiksów/infiksów, j. słowiańskie: czeski, rosyjski, polski , … (ale nie bułgarski);
francuski, niemiecki, arabski– (Cz. new(acc.)) novou (Adj, Fem., Sg., Acc., Non-neg., Pos.)– (Pl. nowa, new(acc.)) nową (Adj, Fem., Sg., Acc.)
Aglutynacyjna: każdej kategorii odpowiada osobny morfem fiński, turecki, węgierski
– (Fin. plural): -i-
październik, 2005 20
Cechy wyrazów - kategoria składniowaCechy wyrazów - kategoria składniowa
Wyrazy należące do danego języka naturalnego dzielą się na wiele (ok. kilkunastu) kategorii składniowych. Wyrazy z tej samej kategorii mogą występować w zdaniach w tym samym miejscu (pomijamy tu sensowność).
Najważniejsze kategorie składniowe to: – czasowniki (śpi, daje, ...) Verbs– rzeczowniki (przypadek, dom, szczęście, ...) Nouns
– przymiotniki (wesoły, ...) Adjectives
– przysłówki (wesoło, ...) Adverbs
– przyimki (na, pod, ...) Prepositions
– liczebniki (dwa, sto pięć, ...) Numerals
– spójniki podrzędne (który, ponieważ, ...)
– spójniki współrzędne (i, lub, oraz, ...) ... Conjunctions
październik, 2005 21
Cechy gramatyczne wyrazówCechy gramatyczne wyrazów
Wyrazy mogą mieć wiele form różniących się wartościami cech gramatycznych:– czasowniki (liczba, osoba, czas) [number, person, time]
– rzeczowniki (przypadek, liczba) [case, number]
– przymiotniki (przypadek, rodzaj, liczba, stopień)
[case, gender, num deg]
– przysłówki (stopień) [deg]
Wyrazy mogą też mieć własne (niezmienne) wartości cech:
– rzeczowniki: rodzaj– czasowniki: tryb, aspekt
październik, 2005 22
Cechy gramatyczne wyrazówCechy gramatyczne wyrazów
number [liczba] singular (pojedyncza), plural (mnoga);
case [przypadek] nominative (mianownik), genetive (dopełniacz), dative (celownik), accusative (biernik),
instrumental (narzędnik), locative (miejscownik), vocative (wołacz);
person [osoba ] 1st (os. 1), 2nd (os. 2), 3rd (os.3)
degree [stopień ] positive (równy), comparative (wyższy),
superlative (najwyższy)
aspect [aspekt ] imperfect (niedokonany), perfect (dokonany)
negation [negacja] affirmative (twierdzenie), negative (zaprzeczenie)
time [czas] present (teraźniejszy), past (przeszły),
future (przyszły) ...
październik, 2005 23
Cechy gramatyczne wyrazów - rodzajCechy gramatyczne wyrazów - rodzaj
gender [rodzaj] masc (męski), fem (żeński), neut (nijaki),
hum-masc (męskoosobowy) - faceci
nonhum-masc (niemęskoosobowy) – psy, kobiety, stoły
Dodatkowo warto wprowadzić podział rodzaju męskiego na:
hum-masc m1 (facet, lekarz)
anim-masc m2 (kot, robak)
inanim-masc m3 (stół, ołówek)
październik, 2005 24
Analiza morfologicznaAnaliza morfologiczna
Analiza morfologiczna to przypisywanie słowu formy podstawowej wyrazu oraz zestawu wartości cech gramatycznych
(formą podstawowa dla rzeczowników i przymiotników jest forma mianownika liczby pojedynczej, dla czasowników bezokolicznik)
Rozpoznawanie morfemów, np.koty -> kot +N +PL+nom metoda: kaskada FST - wyjście z jednego jest wejściem do
kolejnego
październik, 2005 25
Wyrażenia regularneWyrażenia regularne
Przykłady języków regularnych:
język owcy: be! bee! beee! beeee! …
gramatyka: S -> beE E -> ! E -> eE
(zapis: E -> ! |eE )
wyrażenie regularne: bee*! (be+!)
liczby całkowite
gramatyka: S -> 0S | 1S | … | 9S | 0 | 1 | 2 | … | 9
wyrażenie regularne [0..9][0..9]* ([0..9]+)
październik, 2005 26
AutomatyAutomaty Istnieje wzajemnie jednoznaczna odpowiedniość między
gramatykami regularnymi a automatami skończonymi
Automat skończonyAutomat skończony Urządzenie sekwencyjne mogące znajdować się w skończonej
liczbie stanów, czytające symbol po symbolu. Przeczytanie symbolu zmienia stan urządzenia na inny i przesuwa taśmę wejściową o jedną klatkę na lewo.
Automat skończony zupełny (niekoniecznie deterministyczny) - automat Rabina Scotta (każdy automat skończony jest równoważny deterministycznemu automatowi Rabina-Scotta).
październik, 2005 27
Definicja automatuDefinicja automatu
Automat skoAutomat skońńczonyczony to piątka < Q, , , qs, Qf >, gdzie
Q - skończony zbiór stanów q0,q1, ... qn skończony zbiór symboli wejściowych (alfabet) qs - stan początkowy Q Qf Q zbiór stanów końcowych (akceptujących) (q,i) tablica przejść Q -> Q ; dla danego symbolu
wejściowego i stanu wartością jest stan automatu
październik, 2005 28
Przykład automatuPrzykład automatu
język owcy: be! bee! beee! beeee! …
gramatyka: S -> beE E -> ! E -> eE
wyrażenie regularne: bee*! (be+!)
automat: Q={q0,q1,q2,q3} ={a,b,c,...,z, !,?}
e
b e !
q0 q1 q2 q3
(jeśli alfabet jest duży (tu wszystkie litery) dla zwiększenia czytelności pomija się często przejścia dla symboli uniemożliwiających dojście do stanów akceptujących)
październik, 2005 29
Przykład automatu, 2Przykład automatu, 2 Formy słowa owca: owca, owcy, owcy, owcę, owcą, owcy gramatyka: S -> owcE
E -> a | y | ę | ą
wyrażenie regularne: owc[ayęą]
automat: q2 q3
ę a q4
owc y
q0 q1 q5
ą
(tu zakladamy, że mamy już rozpoznany początek i koniec słowa)
październik, 2005 30
TransduceryTransducery Transducery to automaty skończone, na łukach których
znajdują się pary symboli. Dla każdego przejścia przez automat otrzymujemy wiec parę powiązanych ze sobą słów. Transducer wiąże ze sobą dwa języki regularne.
Prosty przykład zamiana symboli 0 i 1 (tzn. 0110 -> 1001)
1:0
q0
0:1
październik, 2005 31
TransduceryTransducery Zamiana ciągów ‘ab’ na ‘x’ ? Oznacza dowolny, nie wymieniony na innych łukach symbol pojedynczy symbol na łuku oznacza, że kopiujemy go, np. a
oznacza a:a
październik, 2005 32
Automaty, rozszerzeniaAutomaty, rozszerzeniaAutomat z wyjściem: Automat Moore’a nad alfabetem wejściowym T i wyjściowym
Y nazyamy trójkę <S , M, G>, gdzie S - skończony zbiór stanów, M - funkcja przejścia S x T -> S , G: S -> Y.
Automat ze stosem automat z taśmą wejściową i taśmą (stosem) roboczym
Maszyna Turinga automat z taśmą wejściową prawostronnie nieograniczoną i
obustronnie nieograniczoną taśmą roboczą, która może być przesuwana w obu kierunkach
październik, 2005 33
Budowa morfologiczna języków Budowa morfologiczna języków naturalnych naturalnych
Analityczna: wykorzystanie wyrazów funkcyjnych angielski, a także włoski, francuski, ..., japoński, chiński
– I would have been going
Fleksyjna: używanie prefiksów/suffiksów/infiksów, j. słowiańskie: czeski, rosyjski, polski , … (ale nie bułgarski);
francuski, niemiecki, arabski– (Cz. new(acc.)) novou (Adj, Fem., Sg., Acc., Non-neg., Pos.)– (Pl. nowa, new(acc.)) nową (Adj, Fem., Sg., Acc.)
Aglutynacyjna: każdej kategorii odpowiada osobny morfem fiński, turecki, węgierski
– (Fin. plural): -i-
październik, 2005 34
Najprostsza analiza morfologicznaNajprostsza analiza morfologiczna
bardzo prosty automat rozpoznający liczbę mnogą angielskich rzeczowników
reg. plural plural (-s)
q0 q1 q2
irreg-pl
irreg-sg
dog (q1), dogs(q2), fox(q2), foxes (q2)
dołączenie słów (przejścia po każdej literze) modelowanie uogólnień (np. końcówki regularne typu -ing)
październik, 2005 35
Prosty słownik Prosty słownik
c a t s
g r ε
o o s e
e e
car, cars, cat, cats, goose, geese
?fox, foxes
październik, 2005 36
Rozpoznawanie morfemów, np.koty -> kot +N +PL
FST (Finite State Transducer) dodanie taśmy (porównywanie, wypisywanie)
oznacza mapowanie między dwoma poziomami opisu
leksykalny ->
powierzchniowy
kaskada FST - wyjście z jednego jest wejściem do kolejnego
c a t +N +PL
Analiza morfologicznaAnaliza morfologiczna
c a t s
październik, 2005 37
FST - TFST - Tnumnum
FSA definiuje język (zbiór ciągów symboli), FST definiuje relację między dwoma zbiorami ciągów symboli:
reg. noun stem +N : ε +PL : ^s#
q0 q1 q4 q7
irreg-sg-noun-stem +N : ε +SG:#
q2 q5 +SG:#
q3 q6 + PL : # irreg-pl-noun-stem +N : ε
a - skrócony zapis a:a ^ - granica morfemu # - granica słowa
październik, 2005 38
FST - TFST - Tstemsstems
reg-noun-stem | cat @ :@ (cokolwiek)
q0 q1
irreg-sg-noun-stem | goose
irreg-pl-noun-stem | g o:e o:e s e
foxes
poziom leksykalny
poziom pośredni
f o x +N +PL
f o x ^ s #
październik, 2005 39
FST - TFST - Tnumnum T Tstemsstems
Analiza morfologiczna - kaskada (złożenie) Tstems i Tnum f o x
c a t g +N:
d o + PL:^s#
+SG:#
+PL:#
m o:i u: s:c e +N :
październik, 2005 40
Reguły ortograficzneReguły ortograficzne
Dla pośredniej postaci tekstu możemy zdefiniować reguły implementujące różne zasady ortograficzne, np
– Wprowadzenie znaczników końca morfemu pozwala na implementację reguł wprowadzania -e- między spółgłoski ‘z’, ‘s’ i ‘x’ a końcówkę -s
– reguła ta może być zaimplementowana jako kolejny transducer
październik, 2005 41
Kolejny poziom analizyKolejny poziom analizy
Analiza morfologiczna - (foxes)
poziom leksykalny
poziom pośredni
poziom powierzchniowy
f o x +N +PL
f o x ^ s #
f o x e s
październik, 2005 42
Analizatory morfologiczneAnalizatory morfologiczne
Różnice pomiędzy analizatorami:
– sposób analizy – reakcja na nieznane słowa– zestaw przyjętych znaczników morfosyntaktycznych (format zwracanych rezultatów)
– raczej nie warto budować kolejnego przed sprawdzeniem istniejących
październik, 2005 43
Analizatory dla polskiegoAnalizatory dla polskiego Morfeusz, http://nlp.ipipan.waw.pl/~wolinski/morfeusz/, PoMor, analizator firmy MorphoLogic, Węgry, analizator AMOR (IJP UW, Rabiega, Rudolf), SAM, analizator oparty o indeks a tergo Tokarskiego (2002), dostępny
bezpłatnie do celów niekomercyjnych pod adresem: http://www.mimuw.edu.pl/~kszafran/SAM-dists/, obecnie nierozwijany;
LEM, produkt firmy LEX, Poznań; prof. Zygmunt Vetulani, ([email protected]),
XeLDA, produkt firmy XEROX: tokenizer i analizator morfologiczny; wersja demo http://www.xrce.xerox.com/competencies/content-analysis/demos/polish
narzędzia Jana Daciuka do analizy morfologicznej: http://www.pg.gda.pl/~jandac/fsa.html
analizator firmy TiP, działający m.in. w programie MsWord, baza fleksyjna języka polskiego, Kraków, AGH; prof. Wiesław Lubaszewski:
http://www.icsr.agh.edu.pl/fleksbaz/, analizator opracowany na potrzeby systemu tłumaczącego POLENG, Filip
Graliński, [email protected].
październik, 2005 44
Synteza morfologicznaSynteza morfologiczna
Synteza morfologiczna (proces odwrotny do analizy) to ustalenie formy słowa na podstawie jego formy podstawowej oraz zestawu wartości cech gramatycznych
Ponieważ transducery opisują przekształcenia dwukierunkowe, ta sama kaskada transducerów może służyć do analizy i do syntezy morfologicznej.
(oczywiście nie każda analiza morfologiczna jest w ten sposób zaimplementowana)
październik, 2005 45
Anotowanie informacjami składniowymiAnotowanie informacjami składniowymi ((part of speech taggingpart of speech tagging))
Przypisywanie słowom kategorii składniowej i wartości cech morfologicznych, np.
piła: V, os.3, l. poj. r.ż, cz. przeszły
N, l.poj., r. ż., mian. zastosowanie ( zamiana tekstu na mowę, wyszukiwanie
informacji, analiza składniowa, tłumaczenie)
Dane: - zbiór tagów (indeksów, etykiet) tagset– słownik zawierający słowa wraz z ich tagami– tekst do analizy
Można mówić o zadaniu anotowania tekstu w sposób abstrakcyjny, ale znajomość celu wpływa istotnie na sposób wykonania tego zadania
październik, 2005 46
TagsetTagset
Spis wszystkich możliwych kombinacji cech gramatycznych dla danego języka – T C1C2... Cn
– zwykle ciąg liter i cyfr: system skrótów: NNS (gen. noun, plural) system pozycujny: pozycja i odpowiada Ci:
– AAMP3----2A---- (gen. Adj., Masc., Pl., 3rd case (dative), comparative (2nd degree of comparison), Affirmative (no negation))
– tense, person, variant, etc.: N/A (oznaczone ‘-’) najbardziej znane: Brown, Penn, Multext[-East], ...
październik, 2005 47
ProblemyProblemy
Tagi podlegają standardowemu prawu dystrybucji: – większość słów ma tylko jedną kategorię składniową – z pozostałej część większość słów ma dwie kategorie …
Oczywiście, często pojawiające się słowa często mają więcej niż jeden tag:np. lub (czasownik i spójnik), mam (czasownik i rzeczownik),
je, lecz, klej, broń
! Stosunkowo łatwo przypisać tagi poszczególnym słowom, ale nie tak łatwo przypisać tagi słowom w tekście tzn. problemem jest stwierdzenie, które z jednakowo wyglądających
słów zostało użyte w danym miejscu tekstu.
październik, 2005 48
Sposoby anotacji (tagowania)Sposoby anotacji (tagowania)1. Ręcznie opracowane reguły określania tagów:
Adverbial-that rule (That is white,I consider that bad. vs. It isn’t that bad.)dane wejściowe: "that" + wszystkie możliwe jego tagi
if (+1 A/ADV/QUANT); /* if next word is adj, adverb, or quantier */
(+2 SENT-LIM); /* and following which is a sentence boundary, */
(NOT -1 SVOC/A); /* and the previous word is not a verb like */
/* `consider' which allows adjs as object complements*/
then eliminate non-ADV tags
else eliminate ADV tag
osiągana skuteczność to od 91 do 97%
2. wykorzystanie metod statystycznych (dokładny opis później)
październik, 2005 49
Przykładowe wyniki analizyPrzykładowe wyniki analizy
wyniki analizy morfologicznej
wynik segmentacji
typ segmentutagforma podstawowa
październik, 2005 50
Dziękuję za uwagę.