inżynieria lingwistyczna

34
październik, 200 5 1 Inżynieria lingwistyczna Inżynieria lingwistyczna Agnieszka Mykowiecka Instytut Podstaw Informatyki, PAN [email protected] materiały z wykładów na stronie: http:\\www.ipipan.waw.pl\~agn\inl.htm

Upload: lacy

Post on 21-Jan-2016

65 views

Category:

Documents


1 download

DESCRIPTION

Inżynieria lingwistyczna. Agnieszka Mykowiecka Instytut Podstaw Informatyki, PAN [email protected] materiały z wykładów na stronie: http:\\www.ipipan.waw.pl\~agn\inl.htm. Tematyka wykładów. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Inżynieria lingwistyczna

październik, 2005 1

Inżynieria lingwistycznaInżynieria lingwistyczna

Agnieszka Mykowiecka

Instytut Podstaw Informatyki, PAN

[email protected]

materiały z wykładów na stronie:http:\\www.ipipan.waw.pl\~agn\inl.htm

Page 2: Inżynieria lingwistyczna

październik, 2005 2

Tematyka wykładówTematyka wykładów czego dotyczą terminy: inżynieria lingwistyczna, lingwistyka

komputerowa przetwarzanie języka naturalnego, dziedziny NLP: fonetyka/ortografia, fonologia, morfologia,

składnia, semantyka, pragmatyka, rodzaje danych lingwistycznych i możliwość ich wykorzystania

(słowniki, korpusy), tradycyjne (formalne i proceduralne) podejście do analizy i syntezy

języka, statystyczne metody przetwarzania języka, zastosowania: wyszukiwanie informacji tekstowych, organizacja

danych tekstowych, automatyczne streszczanie tekstów, systemy pytań i odpowiedzi, tłumaczenie, wspomaganie tłumaczenia.

Page 3: Inżynieria lingwistyczna

październik, 2005 3

LiteraturaLiteraturaJurafsky Daniel, Martin James H. Speech and Language Processing.

An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River 2000 Prentice Hall. http://www.cs.colorado.edu/~martin/slp.html

Manning Christopher D., Schutze Hinrich. Foundations of Statistical Natural Language Processing. Cambridge 1999 The MIT Press.

Inderjeet Mani, Mark T. Maybury (eds) Advances in Automatic Text Summarization. Cambridge 1999 MIT Press.

Winograd, T., Understanding Natural Language, Academic Press, New York, 1972.

Jelinek Frederick. Statistical Methods for Speech Recognition. Cambridge 1999 MIT Press.

Mykowiecka, A. Inżynieria Lingwistyczna. Wydawnictwo PJWSTK 2007

Page 4: Inżynieria lingwistyczna

październik, 2005 4

Przetwarzanie języka naturalnego -Przetwarzanie języka naturalnego -różne perspektywy różne perspektywy

lingwistyka formalna i komputerowa (Computational Linguistics)

przetwarzanie języka naturalnego (Natural Language Processing) INżynieria Lingwistyczna (Linguistic Engineering; LE;

Human Language Technology, HLT)

psycholingwistyka komputerowa (Computational

Psycholinguistics)

rozpoznawanie sygnału mowy (automatic speech recognition, ASR)

synteza sygnału mowy (speech synthesis)

Page 5: Inżynieria lingwistyczna

październik, 2005 5

Trochę historii (1)Trochę historii (1)Podstawy (lata 40-te, 50-te)

automaty; ( Turing, 1936; model obliczeń), automaty skończone, wyrażenia regularne; Kleene, 1951, 1956 zastosowanie modeli Markova do analizy języka; Shanon, 1948 formalny opis języka, gramatyki bezkontekstowe, Chomsky

1956 (niezależnie Backus i Naur, 1959 i 1960)

zdefiniowanie entropii jako miary pojemności informacyjnej, wyniki dla języka angielskiego, Shanon,

spektrograf dźwiękowy (Koenig, 1946) i pierwszy system analizy mowy (cyfry), Bell Labs, Davis, 1952

Page 6: Inżynieria lingwistyczna

październik, 2005 6

Trochę historii (2)Trochę historii (2)

Dwa obozy, 1957-1970Dwa obozy, 1957-1970 – przetwarzanie symboliczne (formalne),

gramatyka generatywna

– Chomsky

– kompletny system parsujący dla angielskiego- TDAP (Z. Haris, University of Pennsylvania)

sztuczna inteligencja (AI), McCarthy, Minsky ...– metody statystyczne – pierwsze prace korpusowe

(Brown corpus of American English,

Brown University, 1mln słów)

Page 7: Inżynieria lingwistyczna

październik, 2005 7

Trochę historii (3)Trochę historii (3)

Cztery podejścia, 1970-1983Cztery podejścia, 1970-1983– metody statystyczne (HMM) IBM Thomas J. Watson Research

Center, Carnegie Mellon University, AT&T Bell Laboratories– metody oparte o logiki formalne (Prolog, DCG, LFG)– natural-language-understanding field,

system SHRUDLU, Winograd, 1972, sieci semantyczne Shank („Yale School”), wykorzystanie logiki predykatów do reprezentacji

semantycznej - system LUNAR, Woods 1963-73;– modelowanie dyskursu, Grosz, 1977, Perrault & Allen

Page 8: Inżynieria lingwistyczna

październik, 2005 8

Trochę historii (4)Trochę historii (4)

Ponowne „odkrycie”:Ponowne „odkrycie”: metody empiryczne i automaty stanów skończonych, 1983-1993– wykorzystanie automatów do analizy morfologicznej (Kaplan,

Kay, 1981)– metody analizy statystycznej mowy (IBM Research Centre)– ...

Połączenie wysiłkówPołączenie wysiłków od 1994– włączenie metod statystycznych do wszystkich dziedzin NLP

All scientific discoveries are in principle multiplies, including those that on the surface appear to be singletons, Robert K. Merton (1961)

Page 9: Inżynieria lingwistyczna

październik, 2005 9

Co chcemy osiągnąć?Co chcemy osiągnąć? Test Turinga: maszyna naśladuje człowieka w sposób

nieodróżnialny dla słuchacza (czytelnika) ,– „przepowiednia” Turinga: pod koniec XX w. maszyna dysponująca pamięcią

10GB będzie miała 30% szans na „oszukanie”, że jest człowiekiem w ciągu 5-minutowej rozmowy

– NIESTETY? NIE, ale np. zaskakująco sprawna ELIZA,Weizenbaum, 1966 (przykład rozmowy z oryginalnej wersji, ale jest też ``odmłodzona'' wersja w sieci (http://www-ai.ijs.si/eliza/eliza.html).

User: Men are all alike.Eliza: In what way?U: There're always bugging us about something or other.E: Can you think of a specific example?U: Well, my boyfriend made me come here.E: Your boyfriend made you come here?U: He says I'm depressed much of the time.E: I am sorry to hear you are depressed

Page 10: Inżynieria lingwistyczna

październik, 2005 10

LingubotyLinguboty Lingubot (bot, chater bot) wirtualny rozmówca na stronach WWW,

program tworzony do pełnienia zadań automatycznej i dobrze poinformowanej pomocy klientom dużych firm (banków, firm telekomunikacyjnych, ubezpieczeniowych, finansowych; z technologii Lingubot (Kiwilogic.com AG) korzystają między innymi SAP, DaimlerChrysler, IKEA, Alfa Romeo, Novartis, Schering, Volkswagen, grupa Zurich;

Polski przedstawiciel fidointeractive (www.fido.pl), wdrożenie m.in. w Hestia SA

Witaj, A.!Jestem doradcą klientów Grupy Ergo Hestia. W czym mogę pomóc?

Cześć! Cieszę się, że się znowu spotykamy, A. Czy wiesz, że w "Twoim Stylu" pojawiła się wzmianka o Hubercie – naszym nowym Lingubocie™? Może chcesz dowiedzieć się czegoś o Lingubotach™ i ofercie fido interactive czy też wolisz sobie ze mną luźno pogawędzić?

Page 11: Inżynieria lingwistyczna

październik, 2005 11

Co musimy zrobić?Co musimy zrobić?

Ogromna przepaść między możliwościami człowieka, a możliwościami systemów komputerowych (w odróżnieniu od operowania na liczbach czy dużych zbiorach informacji strukturalnych gdzie widać dużą przewagę systemów komputerowych)

Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w języku naturalnym wymaga udziału wiedzy spoza tekstu (z nieograniczonego praktycznie zakresu) i skomplikowanych (nie poznanych do końca, nieklasycznych) metod wnioskowania.

We can only see a short distance ahead, but we can see plenty

there that needs to be done. Alan Turing

Page 12: Inżynieria lingwistyczna

październik, 2005 12

Czym zajmuje się inżynieria Czym zajmuje się inżynieria lingwistyczna ?lingwistyczna ?

Etapy przetwarzania: ( wypowiedź )

tekst w języku naturalnym

reprezentacja semantyczna (np. logiczna)

reakcja (wykonanie operacji, sformułowanie odpowiedzi)

( synteza mowy )

Inżynieria lingwistyczna to opracowywanie metod i Inżynieria lingwistyczna to opracowywanie metod i konstruowanie narzędzi umożliwiających automatyczne konstruowanie narzędzi umożliwiających automatyczne przetwarzanie języka naturalnego.przetwarzanie języka naturalnego.

Page 13: Inżynieria lingwistyczna

październik, 2005 13

Cele NLP Cele NLP

poznawczepoznawcze (jak jest zbudowany język, na czym polega posługiwanie się językiem jego rozumienie nauka ...),

gromadzenie danych lingwistycznychgromadzenie danych lingwistycznych (słowniki ogólne i specjalistyczne, korpusy tekstów, gramatyki, ...)

wykorzystywanie języka naturalnego w systemach wykorzystywanie języka naturalnego w systemach komputerowych:komputerowych:

– wyszukiwanie informacji, – automatyczne streszczanie tekstów, – systemy pytań i odpowiedzi, – organizacja danych tekstowych, – wspomaganie tłumaczenia

Page 14: Inżynieria lingwistyczna

październik, 2005 14

Zadania inżynierii lingwistycznejZadania inżynierii lingwistycznej

rozpoznawanie mowy – rozpoznawanie sygnału mowy w otoczeniu szumu– korekcja błędów wymowy– czytanie z ust(?)

rozumienie języka generowanie wypowiedzi w języku naturalnym wyszukiwanie informacji (Information Retrieval IR) selekcja informacji (Information Extraction IE) wnioskowanie

Page 15: Inżynieria lingwistyczna

październik, 2005 15

Wybrane aplikacjeWybrane aplikacje dużo aplikacji dotyczących syntezy i analizy mowy

– RealSpeak (Text-To-Speach system, 19 języków, w tym polski)

http:/www.scansoft.com/realspeak– Dragon NaturallySpeaking (rozpoznawanie mowy, zamiana na tekst,

wspomaganie tworzenia dokumentów biurowych)– Nuance USA http:/www.nuance.com (m.in. voice-driven systems,

synteza mowy Nuance Vocalizer - UK and US English; inne języki w połączeniu z modułami np. ScanSoft, Voice Authentication (rozpoznanie użytkownika po głosie)

– Telisma, France: telco-grade speech modules,– philsoft: rozpoznawanie mowy (ASR) – ScanSoft Inc., US, tradycyjna specjalność cyfryzacja obrazu/tekstu

pisanego

Page 16: Inżynieria lingwistyczna

październik, 2005 16

Wybrane aplikacje, 2Wybrane aplikacje, 2

tłumaczenia– Lingtech A/S, Dania PaTrans (efekt projektu EURORTA): tłumaczenie

w dziedzinie medycyny i farmacji

– PROject MT Ltd, Rosja - PROMPT; system tłumaczący– Polskie programy: Translatica, English Translator

korektory pisowni, analizatory morfologiczne, np. Morphologics, Węgry

ekstrakcja informacji ze swobodnego tekstu– Temis, France http:/www.temis-group.com/temis/sx.htm (7 języków)

Page 17: Inżynieria lingwistyczna

październik, 2005 17

Przykład tłum. Przykład tłum. angielski -> francuskiangielski -> francuski

But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.

SYSTRANS Mais tandis que les fracas de Hollywood viennent dans l'été,

les affaires de jeux roulent hors de ses grands pistolets pour des achats de fin d'année de vacances quand environ la moitié de tout le jeu le logiciel obtient vendu.

PROMT Mais tandis que les coups violents de Hollywood entrent dans

l'été, l'affaire de jeux étire ses grandes armes a feu pour des achats de jour férié(de congé) de fin d'année quand environ moitié de tout le logiciel de jeu est vendue.

Page 18: Inżynieria lingwistyczna

październik, 2005 18

Przykład tłum. Przykład tłum. angielski -> niemieckiangielski -> niemiecki But while Hollywood smashes come in the summertime, the

games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.

-> SYSTRANS angielski -> niemiecki Aber, während Hollywood Smashes in den Summertime

kommen, rollt das Spielgeschäft aus seinen grossen Gewehren für das year-end Feiertageinkaufen, wenn über Hälfte alles Spiels Software verkauft erhält.

-> SYSTRANS niemiecki -> angielski

But, while Hollywood Smashes come into the buzzer time, rolls the play business from its large rifles for year ends to holiday buying, if over half of all play software keeps sold.

Page 19: Inżynieria lingwistyczna

październik, 2005 19

Przykład tłum.polski -> angielskiPrzykład tłum.polski -> angielski To jedyne zmiany w podatkach, które zostaną przeprowadzone

w najbliższym czasie

-> translatica (translatica.pwn.pl) These are only changes in taxes which will be taken in the

closest time

-> trnaslate (Ectaco, translate.pl) These sole changes in taxes, which (who) will be carried in the

nearest future

-> These are the only changes in taxes which will be introduced in the nearest future.

Page 20: Inżynieria lingwistyczna

październik, 2005 20

Przykład tłum.angielski -> polskiPrzykład tłum.angielski -> polski But while Hollywood smashes come in the summertime, the games

business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.

-> translatica Ale podczas gdy hollywoodzkie brzęki nadchodzą letnią porą, bułki

służbowe z grami na zewnątrz jego ciężkie działa przez koniec roku finansowego zakupy turystyczne kiedy około połowy ze wszystkich gra oprogramowanie dostaje sprzedany.

-> trnaslate

Ale podczas gdy uderzenia Hollywoodu przybył (przybywać; wchodzić; wszedł) w *summertime*, gry interes (handlowy) zwija (toczy się; zwój) poza swoimi wielkimi działami dla roku kończą zakupy Święta kiedy o połowie całego programu komputerowego gry otrzymuje (dostaje; rozumie) sprzedawany.

Page 21: Inżynieria lingwistyczna

październik, 2005 21

Wiedza o języku a realizacja Wiedza o języku a realizacja wyznaczonego celuwyznaczonego celu

– Open the pod bay doors, HAL.– I'm sorry Dave, I’m afraid I can’t do that.

zrozumienie polecenia– analiza językowa (identyfikacja słów, form, związków między nimi)– odniesienie do rzeczywistości

wybór odpowiedzi (odrzucenie polecenia mimo możliwości wykonania go)

sformułowanie odpowiedzi– wybór słów, ich form, porządku– pragmatyka: uprzejma odmowa (I’m sorry...)– odniesienie do poprzedniej części dialogu (that)

Stanley Kubrick i Arthur C. Clarke, 2001: A Space Odyssey

Page 22: Inżynieria lingwistyczna

październik, 2005 22

Wiedza o języku naturalnymWiedza o języku naturalnym

nazwa dziedziny obszar zainteresowania

fonetyka dźwięki

fonologia dźwięki należące do języka

ortografia zasady pisowni

morfologia struktura/formy wyrazów

składnia zależności strukturalne między słowami (budowa fraz)

semantyka znaczenie pojedynczego zdania

pragmatyka znaczenie w kontekście

zależności międzyzdaniowe (discourse)

Page 23: Inżynieria lingwistyczna

październik, 2005 23

Fonetyka i fonologiaFonetyka i fonologia

Rozpoznanie sygnału mowy – wydzielenie fonemów– rozpoznanie słów

Synteza mowy: – zamiana tekstu na ciąg powiązanych fonemów– nadanie odpowiedniej intonacji całości wypowiedzi

standaryzacja zapisu fonologii, np. IPA (International Phonetic Alphabet) i ARPAbet (który wykorzystuje tylko oznaki ASCII)

parsley [‘parsli] (IPA) [p aa r s l iy] (ARPAbet)

Page 24: Inżynieria lingwistyczna

październik, 2005 24

Fonetyka i fonologia, problemyFonetyka i fonologia, problemy

Rozpoznanie sygnału mowy: – fonemy odpowiadające tym samym dźwiękom - fragmentom

słów, wypowiadane przez różne osoby, w różnym czasie, różnym otoczeniu są inne

– z powodu różnorodności trudno wyznaczyć ścisłe granice między poszczególnymi fonemami

– praktycznie zawsze otrzymujemy sieć możliwych interpretacji – rozpoznanie słów - potrzebujemy słownika

problemy, np. kwiat -> [ k f i a t] niejednoznaczności fonologiczne, np. [m o rz e] -> może,

morze

Page 25: Inżynieria lingwistyczna

październik, 2005 25

Fonetyka i fonologia, problemyFonetyka i fonologia, problemy

Synteza mowy: – łatwo wybrać fonemy, ale trudno je połączyć, tak by do siebie

pasowały– dla dobrego zaakcentowania potrzebujemy informacji o

strukturze składniowej (i nie tylko...)– praktyczne rozwiązania: gromadzenie nagrań i sklejanie możliwie

długich kawałków

Page 26: Inżynieria lingwistyczna

październik, 2005 26

MorfologiaMorfologia nauka o budowie słów z morfemów:

a) temat (stem): nośnik znaczenia

b) przed- i przyrostki (affixes): nośniki cech gramatycznych, zmiany znaczenia

rozpoznawanie słów po ich formach fleksyjnych– psem -> pies (l.poj, narzędnik)– ciem -> ćma (l. mnoga. dopełniacz)

generowanie form – iść, czas przeszły, 3osoba l.poj., rodzaj żeński -> szła

Page 27: Inżynieria lingwistyczna

październik, 2005 27

Niejednoznaczności morfologiczneNiejednoznaczności morfologiczne

Analiza morfologiczna: rozpoznanie form podstawowych

i wartości cech gramatycznych

Często jest wiele możliwości:

– szafy -> szafa (l. poj, dopełniacz czy

l. mnoga, mianownik)

– chłopca -> chłopiec (l. poj. dopełniacz czy

l. poj. biernik)

– mam -> mieć (1 osoba, l. poj., czas teraźniejszy) czy

mamić (tryb rozkazujący) czy

mama (l.mnoga, dopełniacz)

Page 28: Inżynieria lingwistyczna

październik, 2005 28

SkładniaSkładniawiedza o sposobie łączenia słów we frazy, a fraz w zdania

Analiza składniowa: rozpoznanie fraz i ich powiązań składniowych (zbudowanie rozbioru syntaktycznego)

mała dziewczynka dała bukiet fiołków mamie ->

[mała mod dziewczynka] podmiot

dać

[bukiet fiołkówmod] dopełnienie

[mama] dopełnienie

Page 29: Inżynieria lingwistyczna

październik, 2005 29

SkładniaSkładnia

rozpoznanie fraz i ich powiązań składniowych pozwala na ustalenie

wartości cech gramatycznych dla generowanego tekstu, a więc rozstrzygnięcie wielu niejednoznaczności morfologicznych np.

dał słonia mamie ->

[dać] 3os,cz. przeszły [słoń]dopełniacz lub biernik [mama]celownik

[dać] 3os,cz. przeszły [słoń]biernik [mama]celownik

Page 30: Inżynieria lingwistyczna

październik, 2005 30

Składnia, problemySkładnia, problemy Dwa typy fraz: wymagania składniowe (mogą być opisane w

słownikach) i modyfikatory, które są praktycznie dowolne– Jan widzi kota.– Mój starszy brat Jan, który od niedawna mieszka w Krakowie,

idąc rano do pracy zwykle widzi czarnego kota siedzącego na murku naprzeciwko okna kuchni sąsiada.

Niejednoznaczności składniowe, np.

pokazała siostrze Jana kwiaty

– [pokazać] [siostra Jana]dopełnienie [kwiaty]dopełnienie

– [pokazać] [siostra]dopełnienie [Jana kwiaty]dopełnienie

Page 31: Inżynieria lingwistyczna

październik, 2005 31

SemantykaSemantyka

ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi, ...)

czyli „kolejny etap analizy”:

mała dziewczyka dała bukiet fiołków mamie

--> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie

[ mama ] dopełnienie

--> [małamody dziewczynka]aktor daćakcja [ bukiet fiołkówel.skladowy]obiekt

[ mama ] odbiorca

Page 32: Inżynieria lingwistyczna

październik, 2005 32

Semantyka, problemySemantyka, problemy

Co to właściwie jest znaczenie wyrażenia w języku naturalnym ?

Jak budować znaczenie zdania ze znaczenia fraz Niepełność wszystkich dostępnych sposbów opisu znaczenia

(zawsze spotkamy sytuację, dla której nie mamy dobrej reguły)

Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki)

I jak zawsze niejednoznaczności

Page 33: Inżynieria lingwistyczna

październik, 2005 33

Semantyka, niejednoznacznościSemantyka, niejednoznaczności

Piła! okrzyk radości ma widok zgubionej piły, niezbyt pochlebna ocena nauczyciela, wyraz zdegustowania nadużyciem alkoholu

(pierwsze dwie interpretacje semantyczne mają taką samą interpretację morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w mianowniku), trzecia inną (‘piła’ to czasownik)

Uszył jej buty - wyrażenie idiomatyczne lub opis efektu pracy szewca „nawiasowanie” negacji

Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię) wiązane zaimków

Jan kazał Piotrowi wyczyścić swoje buty.

Page 34: Inżynieria lingwistyczna

październik, 2005 34

PragmatykaPragmatykainterpretacja wypowiedzi w konkretnym kontekście, w odniesieniu

do wiedzy o świecie

Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np.

Pacjent opuścił salę operacyjną w dobrym stanie

1 pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta

2 pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali]

(doświadczenie przemawia za interpretacją 1)