inżynieria lingwistyczna
DESCRIPTION
Inżynieria lingwistyczna. Agnieszka Mykowiecka Instytut Podstaw Informatyki, PAN [email protected] materiały z wykładów na stronie: http:\\www.ipipan.waw.pl\~agn\inl.htm. Tematyka wykładów. - PowerPoint PPT PresentationTRANSCRIPT
październik, 2005 1
Inżynieria lingwistycznaInżynieria lingwistyczna
Agnieszka Mykowiecka
Instytut Podstaw Informatyki, PAN
materiały z wykładów na stronie:http:\\www.ipipan.waw.pl\~agn\inl.htm
październik, 2005 2
Tematyka wykładówTematyka wykładów czego dotyczą terminy: inżynieria lingwistyczna, lingwistyka
komputerowa przetwarzanie języka naturalnego, dziedziny NLP: fonetyka/ortografia, fonologia, morfologia,
składnia, semantyka, pragmatyka, rodzaje danych lingwistycznych i możliwość ich wykorzystania
(słowniki, korpusy), tradycyjne (formalne i proceduralne) podejście do analizy i syntezy
języka, statystyczne metody przetwarzania języka, zastosowania: wyszukiwanie informacji tekstowych, organizacja
danych tekstowych, automatyczne streszczanie tekstów, systemy pytań i odpowiedzi, tłumaczenie, wspomaganie tłumaczenia.
październik, 2005 3
LiteraturaLiteraturaJurafsky Daniel, Martin James H. Speech and Language Processing.
An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River 2000 Prentice Hall. http://www.cs.colorado.edu/~martin/slp.html
Manning Christopher D., Schutze Hinrich. Foundations of Statistical Natural Language Processing. Cambridge 1999 The MIT Press.
Inderjeet Mani, Mark T. Maybury (eds) Advances in Automatic Text Summarization. Cambridge 1999 MIT Press.
Winograd, T., Understanding Natural Language, Academic Press, New York, 1972.
Jelinek Frederick. Statistical Methods for Speech Recognition. Cambridge 1999 MIT Press.
Mykowiecka, A. Inżynieria Lingwistyczna. Wydawnictwo PJWSTK 2007
październik, 2005 4
Przetwarzanie języka naturalnego -Przetwarzanie języka naturalnego -różne perspektywy różne perspektywy
lingwistyka formalna i komputerowa (Computational Linguistics)
przetwarzanie języka naturalnego (Natural Language Processing) INżynieria Lingwistyczna (Linguistic Engineering; LE;
Human Language Technology, HLT)
psycholingwistyka komputerowa (Computational
Psycholinguistics)
rozpoznawanie sygnału mowy (automatic speech recognition, ASR)
synteza sygnału mowy (speech synthesis)
październik, 2005 5
Trochę historii (1)Trochę historii (1)Podstawy (lata 40-te, 50-te)
automaty; ( Turing, 1936; model obliczeń), automaty skończone, wyrażenia regularne; Kleene, 1951, 1956 zastosowanie modeli Markova do analizy języka; Shanon, 1948 formalny opis języka, gramatyki bezkontekstowe, Chomsky
1956 (niezależnie Backus i Naur, 1959 i 1960)
zdefiniowanie entropii jako miary pojemności informacyjnej, wyniki dla języka angielskiego, Shanon,
spektrograf dźwiękowy (Koenig, 1946) i pierwszy system analizy mowy (cyfry), Bell Labs, Davis, 1952
październik, 2005 6
Trochę historii (2)Trochę historii (2)
Dwa obozy, 1957-1970Dwa obozy, 1957-1970 – przetwarzanie symboliczne (formalne),
gramatyka generatywna
– Chomsky
– kompletny system parsujący dla angielskiego- TDAP (Z. Haris, University of Pennsylvania)
sztuczna inteligencja (AI), McCarthy, Minsky ...– metody statystyczne – pierwsze prace korpusowe
(Brown corpus of American English,
Brown University, 1mln słów)
październik, 2005 7
Trochę historii (3)Trochę historii (3)
Cztery podejścia, 1970-1983Cztery podejścia, 1970-1983– metody statystyczne (HMM) IBM Thomas J. Watson Research
Center, Carnegie Mellon University, AT&T Bell Laboratories– metody oparte o logiki formalne (Prolog, DCG, LFG)– natural-language-understanding field,
system SHRUDLU, Winograd, 1972, sieci semantyczne Shank („Yale School”), wykorzystanie logiki predykatów do reprezentacji
semantycznej - system LUNAR, Woods 1963-73;– modelowanie dyskursu, Grosz, 1977, Perrault & Allen
październik, 2005 8
Trochę historii (4)Trochę historii (4)
Ponowne „odkrycie”:Ponowne „odkrycie”: metody empiryczne i automaty stanów skończonych, 1983-1993– wykorzystanie automatów do analizy morfologicznej (Kaplan,
Kay, 1981)– metody analizy statystycznej mowy (IBM Research Centre)– ...
Połączenie wysiłkówPołączenie wysiłków od 1994– włączenie metod statystycznych do wszystkich dziedzin NLP
All scientific discoveries are in principle multiplies, including those that on the surface appear to be singletons, Robert K. Merton (1961)
październik, 2005 9
Co chcemy osiągnąć?Co chcemy osiągnąć? Test Turinga: maszyna naśladuje człowieka w sposób
nieodróżnialny dla słuchacza (czytelnika) ,– „przepowiednia” Turinga: pod koniec XX w. maszyna dysponująca pamięcią
10GB będzie miała 30% szans na „oszukanie”, że jest człowiekiem w ciągu 5-minutowej rozmowy
– NIESTETY? NIE, ale np. zaskakująco sprawna ELIZA,Weizenbaum, 1966 (przykład rozmowy z oryginalnej wersji, ale jest też ``odmłodzona'' wersja w sieci (http://www-ai.ijs.si/eliza/eliza.html).
User: Men are all alike.Eliza: In what way?U: There're always bugging us about something or other.E: Can you think of a specific example?U: Well, my boyfriend made me come here.E: Your boyfriend made you come here?U: He says I'm depressed much of the time.E: I am sorry to hear you are depressed
październik, 2005 10
LingubotyLinguboty Lingubot (bot, chater bot) wirtualny rozmówca na stronach WWW,
program tworzony do pełnienia zadań automatycznej i dobrze poinformowanej pomocy klientom dużych firm (banków, firm telekomunikacyjnych, ubezpieczeniowych, finansowych; z technologii Lingubot (Kiwilogic.com AG) korzystają między innymi SAP, DaimlerChrysler, IKEA, Alfa Romeo, Novartis, Schering, Volkswagen, grupa Zurich;
Polski przedstawiciel fidointeractive (www.fido.pl), wdrożenie m.in. w Hestia SA
Witaj, A.!Jestem doradcą klientów Grupy Ergo Hestia. W czym mogę pomóc?
Cześć! Cieszę się, że się znowu spotykamy, A. Czy wiesz, że w "Twoim Stylu" pojawiła się wzmianka o Hubercie – naszym nowym Lingubocie™? Może chcesz dowiedzieć się czegoś o Lingubotach™ i ofercie fido interactive czy też wolisz sobie ze mną luźno pogawędzić?
październik, 2005 11
Co musimy zrobić?Co musimy zrobić?
Ogromna przepaść między możliwościami człowieka, a możliwościami systemów komputerowych (w odróżnieniu od operowania na liczbach czy dużych zbiorach informacji strukturalnych gdzie widać dużą przewagę systemów komputerowych)
Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w języku naturalnym wymaga udziału wiedzy spoza tekstu (z nieograniczonego praktycznie zakresu) i skomplikowanych (nie poznanych do końca, nieklasycznych) metod wnioskowania.
We can only see a short distance ahead, but we can see plenty
there that needs to be done. Alan Turing
październik, 2005 12
Czym zajmuje się inżynieria Czym zajmuje się inżynieria lingwistyczna ?lingwistyczna ?
Etapy przetwarzania: ( wypowiedź )
tekst w języku naturalnym
reprezentacja semantyczna (np. logiczna)
reakcja (wykonanie operacji, sformułowanie odpowiedzi)
( synteza mowy )
Inżynieria lingwistyczna to opracowywanie metod i Inżynieria lingwistyczna to opracowywanie metod i konstruowanie narzędzi umożliwiających automatyczne konstruowanie narzędzi umożliwiających automatyczne przetwarzanie języka naturalnego.przetwarzanie języka naturalnego.
październik, 2005 13
Cele NLP Cele NLP
poznawczepoznawcze (jak jest zbudowany język, na czym polega posługiwanie się językiem jego rozumienie nauka ...),
gromadzenie danych lingwistycznychgromadzenie danych lingwistycznych (słowniki ogólne i specjalistyczne, korpusy tekstów, gramatyki, ...)
wykorzystywanie języka naturalnego w systemach wykorzystywanie języka naturalnego w systemach komputerowych:komputerowych:
– wyszukiwanie informacji, – automatyczne streszczanie tekstów, – systemy pytań i odpowiedzi, – organizacja danych tekstowych, – wspomaganie tłumaczenia
październik, 2005 14
Zadania inżynierii lingwistycznejZadania inżynierii lingwistycznej
rozpoznawanie mowy – rozpoznawanie sygnału mowy w otoczeniu szumu– korekcja błędów wymowy– czytanie z ust(?)
rozumienie języka generowanie wypowiedzi w języku naturalnym wyszukiwanie informacji (Information Retrieval IR) selekcja informacji (Information Extraction IE) wnioskowanie
październik, 2005 15
Wybrane aplikacjeWybrane aplikacje dużo aplikacji dotyczących syntezy i analizy mowy
– RealSpeak (Text-To-Speach system, 19 języków, w tym polski)
http:/www.scansoft.com/realspeak– Dragon NaturallySpeaking (rozpoznawanie mowy, zamiana na tekst,
wspomaganie tworzenia dokumentów biurowych)– Nuance USA http:/www.nuance.com (m.in. voice-driven systems,
synteza mowy Nuance Vocalizer - UK and US English; inne języki w połączeniu z modułami np. ScanSoft, Voice Authentication (rozpoznanie użytkownika po głosie)
– Telisma, France: telco-grade speech modules,– philsoft: rozpoznawanie mowy (ASR) – ScanSoft Inc., US, tradycyjna specjalność cyfryzacja obrazu/tekstu
pisanego
październik, 2005 16
Wybrane aplikacje, 2Wybrane aplikacje, 2
tłumaczenia– Lingtech A/S, Dania PaTrans (efekt projektu EURORTA): tłumaczenie
w dziedzinie medycyny i farmacji
– PROject MT Ltd, Rosja - PROMPT; system tłumaczący– Polskie programy: Translatica, English Translator
korektory pisowni, analizatory morfologiczne, np. Morphologics, Węgry
ekstrakcja informacji ze swobodnego tekstu– Temis, France http:/www.temis-group.com/temis/sx.htm (7 języków)
październik, 2005 17
Przykład tłum. Przykład tłum. angielski -> francuskiangielski -> francuski
But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.
SYSTRANS Mais tandis que les fracas de Hollywood viennent dans l'été,
les affaires de jeux roulent hors de ses grands pistolets pour des achats de fin d'année de vacances quand environ la moitié de tout le jeu le logiciel obtient vendu.
PROMT Mais tandis que les coups violents de Hollywood entrent dans
l'été, l'affaire de jeux étire ses grandes armes a feu pour des achats de jour férié(de congé) de fin d'année quand environ moitié de tout le logiciel de jeu est vendue.
październik, 2005 18
Przykład tłum. Przykład tłum. angielski -> niemieckiangielski -> niemiecki But while Hollywood smashes come in the summertime, the
games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.
-> SYSTRANS angielski -> niemiecki Aber, während Hollywood Smashes in den Summertime
kommen, rollt das Spielgeschäft aus seinen grossen Gewehren für das year-end Feiertageinkaufen, wenn über Hälfte alles Spiels Software verkauft erhält.
-> SYSTRANS niemiecki -> angielski
But, while Hollywood Smashes come into the buzzer time, rolls the play business from its large rifles for year ends to holiday buying, if over half of all play software keeps sold.
październik, 2005 19
Przykład tłum.polski -> angielskiPrzykład tłum.polski -> angielski To jedyne zmiany w podatkach, które zostaną przeprowadzone
w najbliższym czasie
-> translatica (translatica.pwn.pl) These are only changes in taxes which will be taken in the
closest time
-> trnaslate (Ectaco, translate.pl) These sole changes in taxes, which (who) will be carried in the
nearest future
-> These are the only changes in taxes which will be introduced in the nearest future.
październik, 2005 20
Przykład tłum.angielski -> polskiPrzykład tłum.angielski -> polski But while Hollywood smashes come in the summertime, the games
business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.
-> translatica Ale podczas gdy hollywoodzkie brzęki nadchodzą letnią porą, bułki
służbowe z grami na zewnątrz jego ciężkie działa przez koniec roku finansowego zakupy turystyczne kiedy około połowy ze wszystkich gra oprogramowanie dostaje sprzedany.
-> trnaslate
Ale podczas gdy uderzenia Hollywoodu przybył (przybywać; wchodzić; wszedł) w *summertime*, gry interes (handlowy) zwija (toczy się; zwój) poza swoimi wielkimi działami dla roku kończą zakupy Święta kiedy o połowie całego programu komputerowego gry otrzymuje (dostaje; rozumie) sprzedawany.
październik, 2005 21
Wiedza o języku a realizacja Wiedza o języku a realizacja wyznaczonego celuwyznaczonego celu
– Open the pod bay doors, HAL.– I'm sorry Dave, I’m afraid I can’t do that.
zrozumienie polecenia– analiza językowa (identyfikacja słów, form, związków między nimi)– odniesienie do rzeczywistości
wybór odpowiedzi (odrzucenie polecenia mimo możliwości wykonania go)
sformułowanie odpowiedzi– wybór słów, ich form, porządku– pragmatyka: uprzejma odmowa (I’m sorry...)– odniesienie do poprzedniej części dialogu (that)
Stanley Kubrick i Arthur C. Clarke, 2001: A Space Odyssey
październik, 2005 22
Wiedza o języku naturalnymWiedza o języku naturalnym
nazwa dziedziny obszar zainteresowania
fonetyka dźwięki
fonologia dźwięki należące do języka
ortografia zasady pisowni
morfologia struktura/formy wyrazów
składnia zależności strukturalne między słowami (budowa fraz)
semantyka znaczenie pojedynczego zdania
pragmatyka znaczenie w kontekście
zależności międzyzdaniowe (discourse)
październik, 2005 23
Fonetyka i fonologiaFonetyka i fonologia
Rozpoznanie sygnału mowy – wydzielenie fonemów– rozpoznanie słów
Synteza mowy: – zamiana tekstu na ciąg powiązanych fonemów– nadanie odpowiedniej intonacji całości wypowiedzi
standaryzacja zapisu fonologii, np. IPA (International Phonetic Alphabet) i ARPAbet (który wykorzystuje tylko oznaki ASCII)
parsley [‘parsli] (IPA) [p aa r s l iy] (ARPAbet)
październik, 2005 24
Fonetyka i fonologia, problemyFonetyka i fonologia, problemy
Rozpoznanie sygnału mowy: – fonemy odpowiadające tym samym dźwiękom - fragmentom
słów, wypowiadane przez różne osoby, w różnym czasie, różnym otoczeniu są inne
– z powodu różnorodności trudno wyznaczyć ścisłe granice między poszczególnymi fonemami
– praktycznie zawsze otrzymujemy sieć możliwych interpretacji – rozpoznanie słów - potrzebujemy słownika
problemy, np. kwiat -> [ k f i a t] niejednoznaczności fonologiczne, np. [m o rz e] -> może,
morze
październik, 2005 25
Fonetyka i fonologia, problemyFonetyka i fonologia, problemy
Synteza mowy: – łatwo wybrać fonemy, ale trudno je połączyć, tak by do siebie
pasowały– dla dobrego zaakcentowania potrzebujemy informacji o
strukturze składniowej (i nie tylko...)– praktyczne rozwiązania: gromadzenie nagrań i sklejanie możliwie
długich kawałków
październik, 2005 26
MorfologiaMorfologia nauka o budowie słów z morfemów:
a) temat (stem): nośnik znaczenia
b) przed- i przyrostki (affixes): nośniki cech gramatycznych, zmiany znaczenia
rozpoznawanie słów po ich formach fleksyjnych– psem -> pies (l.poj, narzędnik)– ciem -> ćma (l. mnoga. dopełniacz)
generowanie form – iść, czas przeszły, 3osoba l.poj., rodzaj żeński -> szła
październik, 2005 27
Niejednoznaczności morfologiczneNiejednoznaczności morfologiczne
Analiza morfologiczna: rozpoznanie form podstawowych
i wartości cech gramatycznych
Często jest wiele możliwości:
– szafy -> szafa (l. poj, dopełniacz czy
l. mnoga, mianownik)
– chłopca -> chłopiec (l. poj. dopełniacz czy
l. poj. biernik)
– mam -> mieć (1 osoba, l. poj., czas teraźniejszy) czy
mamić (tryb rozkazujący) czy
mama (l.mnoga, dopełniacz)
październik, 2005 28
SkładniaSkładniawiedza o sposobie łączenia słów we frazy, a fraz w zdania
Analiza składniowa: rozpoznanie fraz i ich powiązań składniowych (zbudowanie rozbioru syntaktycznego)
mała dziewczynka dała bukiet fiołków mamie ->
[mała mod dziewczynka] podmiot
dać
[bukiet fiołkówmod] dopełnienie
[mama] dopełnienie
październik, 2005 29
SkładniaSkładnia
rozpoznanie fraz i ich powiązań składniowych pozwala na ustalenie
wartości cech gramatycznych dla generowanego tekstu, a więc rozstrzygnięcie wielu niejednoznaczności morfologicznych np.
dał słonia mamie ->
[dać] 3os,cz. przeszły [słoń]dopełniacz lub biernik [mama]celownik
[dać] 3os,cz. przeszły [słoń]biernik [mama]celownik
październik, 2005 30
Składnia, problemySkładnia, problemy Dwa typy fraz: wymagania składniowe (mogą być opisane w
słownikach) i modyfikatory, które są praktycznie dowolne– Jan widzi kota.– Mój starszy brat Jan, który od niedawna mieszka w Krakowie,
idąc rano do pracy zwykle widzi czarnego kota siedzącego na murku naprzeciwko okna kuchni sąsiada.
Niejednoznaczności składniowe, np.
pokazała siostrze Jana kwiaty
– [pokazać] [siostra Jana]dopełnienie [kwiaty]dopełnienie
– [pokazać] [siostra]dopełnienie [Jana kwiaty]dopełnienie
październik, 2005 31
SemantykaSemantyka
ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi, ...)
czyli „kolejny etap analizy”:
mała dziewczyka dała bukiet fiołków mamie
--> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie
[ mama ] dopełnienie
--> [małamody dziewczynka]aktor daćakcja [ bukiet fiołkówel.skladowy]obiekt
[ mama ] odbiorca
październik, 2005 32
Semantyka, problemySemantyka, problemy
Co to właściwie jest znaczenie wyrażenia w języku naturalnym ?
Jak budować znaczenie zdania ze znaczenia fraz Niepełność wszystkich dostępnych sposbów opisu znaczenia
(zawsze spotkamy sytuację, dla której nie mamy dobrej reguły)
Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki)
I jak zawsze niejednoznaczności
październik, 2005 33
Semantyka, niejednoznacznościSemantyka, niejednoznaczności
Piła! okrzyk radości ma widok zgubionej piły, niezbyt pochlebna ocena nauczyciela, wyraz zdegustowania nadużyciem alkoholu
(pierwsze dwie interpretacje semantyczne mają taką samą interpretację morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w mianowniku), trzecia inną (‘piła’ to czasownik)
Uszył jej buty - wyrażenie idiomatyczne lub opis efektu pracy szewca „nawiasowanie” negacji
Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię) wiązane zaimków
Jan kazał Piotrowi wyczyścić swoje buty.
październik, 2005 34
PragmatykaPragmatykainterpretacja wypowiedzi w konkretnym kontekście, w odniesieniu
do wiedzy o świecie
Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np.
Pacjent opuścił salę operacyjną w dobrym stanie
1 pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta
2 pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali]
(doświadczenie przemawia za interpretacją 1)