metody reprezentacji wiedzy na tle parsowania zdań języka naturalnego z wykorzystaniem crb

45
Metody reprezentacji wiedzy Metody reprezentacji wiedzy na tle na tle Parsowania zdań języka naturalnego Parsowania zdań języka naturalnego z wykorzystaniem CRB. z wykorzystaniem CRB. Autor: Robert Papis

Upload: orde

Post on 04-Feb-2016

39 views

Category:

Documents


0 download

DESCRIPTION

Metody reprezentacji wiedzy na tle Parsowania zdań języka naturalnego z wykorzystaniem CRB. Autor: Robert Papis. Wprowadzenie Parsowanie Opis morfosyntaktyczny Korpus IPI PAN CBR Sieci semantyczne UNL LangCerBeR Podsumowanie. Plan prezentacji. czasownik. rzeczownik. rzeczownik. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Metody reprezentacji wiedzy Metody reprezentacji wiedzy na tlena tle

Parsowania zdań języka naturalnego Parsowania zdań języka naturalnego z wykorzystaniem CRB.z wykorzystaniem CRB.

Autor: Robert Papis

Page 2: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Plan prezentacjiPlan prezentacji

WprowadzenieParsowanie

Opis morfosyntaktyczny Korpus IPI PAN

CBRSieci semantyczneUNLLangCerBeRPodsumowanie

Page 3: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Parsowanie klasycznieParsowanie klasycznie• <zdanie> -> <podmiot><orzeczenie>• <podmiot> -> <rzeczownik>• <podmiot> -> <zaimek osobowy>• <orzeczenie> -> <czasownik>• <orzeczenie> -> <czasownik><rzeczownik>

Tomek zobaczył rower

zdanie

podmiot orzeczenie

rzeczownik czasownik rzeczownik

Page 4: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

odbywać [CAAAA]: -ywający C-imiesłów przymiotnikowy: A-imiesłów przymiotnikowy czynny, A-liczba pojedyncza, A-rodzaj męski, A-mianownik

Słownictwo i fleksjaSłownictwo i fleksja

Słowo: odbywający

CAAAA

CABAAodbywać [CABAA]: -ywającyC-imiesłów przymiotnikowy:A-imiesłów przymiotnikowy czynny, B-liczba mnoga, A-rodzaj męskoosobowy, A-mianownik

Page 5: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

AABABA BABAAA GAAA ABAAAD

ParsowanieParsowanie

Ala ma rudego kota.

AABABA BABAAA GAAA ABAAAD

KTO?CO?

JAKI?

Page 6: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Opis morfosyntaktyczny Opis morfosyntaktyczny Korpus IPI PANKorpus IPI PAN

Kategorie gramatyczne • 12 kategorii (liczba, przypadek, rodzaj…)

(m1) Widzę jednego…….. z tych, których lubię.(m2) Widzę jednego…….. Z tych które lubię.(m3) Widzę jeden.

Klasy gramatyczne / fleksyjne• Odsłowniki (picie, palenie)• 32 klasy fleksyjne (ciała obce, interpunkcja)

Page 7: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Opis morfosyntaktyczny - przykładOpis morfosyntaktyczny - przykład

piękny [piękny:adj:sg:acc:m3:pos]

piękny – forma podstawowaadj – klasa fleksyjna: przymiotnik (adjective)sg – liczba: pojedyncza (singular) acc – przypadek: biernik (accusative)m3 – rodzaj: męski rzeczowy (masculine)pos – stopień: równy (positive)

Page 8: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Korpus IPI PAN -PoliqarpKorpus IPI PAN -Poliqarp

Page 9: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Korpus IPI PAN - przeszukiwanieKorpus IPI PAN - przeszukiwanie

• Zapytania o segmenty• Wyrażenie regularne „(pod|na|

za)jecha.*”• Formy podstawowe [base=korpus]• Znaczniki morfosyntaktyczne

[pos=subst&number=sg]• Wieloznaczność i dezambiguacja

[case=acc & case=gen]• Metadane (author, title, created…)

Page 10: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Opis Korpusu IPI PAN vs DeniseOpis Korpusu IPI PAN vs Denise

• Pokrycie całego słownika języka polskiego

• Precyzyjne klasy gramatyczne• Precyzyjne klasy fleksyjne• Dezambiguator morfosyntaktyczny• Podział na segmenty zamiast słów• Dodatkowe narzędzia (XML)• Bogata literatura

Page 11: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Inne korpusy językoweInne korpusy językowe

• CQP - Corpus Query Processor• Czeski, Węgierski, Słowacki,

Norweski…• Korpus PWN (wersja www oraz CD)• British National Corpus (100mln)

Page 12: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Plan prezentacjiPlan prezentacji

WprowadzenieParsowanieCBR

Dlaczego CBRJak działa

Sieci semantyczneUNLLangCerBeRPodsumowanie

Page 13: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

KorzenieKorzenie

„Human experts are not systems of rules, they are libraries of experiences.”

Riesbeck and Schank 1989„A case-based reasoner solves new problems by adapting solutions that were used to solve old problems.”

Riesbeck & Schank, 1989 „Case-based reasoning is [...] reasoning by remembering.„

Leake, 1996

Page 14: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Przypadek XOpis problemu...

Proponowane rozwiązanie...

Cecha1: Cecha2:

...

Wartość1Wartość2....

Przykład – opis przypadkuPrzykład – opis przypadku

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:Włącznik

św.:

Diagnoza :Zalecenia:

Przypadek 32

Przednie światło nie działaVW Golf II, 1.6L199313,6VOK.OK

Uszkodzony bezpiecznikWymienić bezpiecznik

Page 15: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Przykład – baza przypadkówPrzykład – baza przypadków

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:Włącznik

św.:

Diagnoza :Zalecenia:

Przypadek 1

Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK

Uszkodzony bezpiecznikWymienić bezpiecznik

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:Włącznik

św.:

Diagnoza :Zalecenia:

Przypadek 2

Przednie światło nie działaAudi A6199512,9Vzmiażdżone w wypadkuOK

Uszkodzona żarówkaWymienić przednie światła

Każdy przypadek opisuje jedną sytuację

Przypadki są od siebie niezależne

Przypadki nie są regułami

Page 16: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Przykład – wyszukanie Przykład – wyszukanie podobnychpodobnych

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:Włącznik

św.:

Diagnoza :Zaleczenia:

Przypadek X

Porównaj nowy przypadek z każdym przypadkiem przechowywanym w bazie przypadków

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:

Nowy problem

Tylne światła nie działająAudi 80198912,6VOK

Podobne ?

Wybierz najbardziej podobny

Podobieństwo jest jedną z najważniejszych idei CBR

Page 17: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Przykład – porównaniePrzykład – porównanie z przypadkiem 1 z przypadkiem 1

Miara podobieństwa (uwzględniając wagi)

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:

Nowy problem

Tylne światła nie działająAudi 80198912,6VOK

Przypadek 1

Diagnoza :Zaleczenia:

Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK

Uszkodzony bezpiecznikWymienić bezpiecznik

0,90,60,40,8

1,0

sim(np, p1) = 1/20*[6*0,8+1*0,4+1*0,6+6*0,9+6*1,0]=0,86

Page 18: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Przypadek 2

Diagnoza :Zaleczenia:

Przednie światło nie działaAudi A6199512,9Vzmiażdżone w wypadkuOK

Uszkodzona żarówkaWymienić przednie światła

Przykład – porównaniePrzykład – porównanie z przypadkiem 2 z przypadkiem 2

Miara podobieństwa (uwzględniając wagi)

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:

Nowy problem

Tylne światła nie działająAudi 80198912,6VOK

0,950,40,80,8

0

sim(np, p2) = 1/20*[6*0,8+1*0,8+1*0,4+6*0,95+6*0]=0,585

Page 19: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Przykład – wykorzystanie Przykład – wykorzystanie rozwiązania 1rozwiązania 1

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł: Włącznik

św.:

Nowy problem

Tylne światła nie działająAudi 80198912,6VOK

Uszkodzony bezpiecznikWymienić bezpiecznik

Jeżeli diagnoza jest poprawna, zapamiętujemy nowy przypadek

Przypadek 1

Diagnoza :Zaleczenia:

Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:Włącznik

św.:

0,86

Uszkodzony bezpiecznikWymienić bezpiecznik

Page 20: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Przykład – nowy przypadekPrzykład – nowy przypadek

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł: Włącznik

św.:

Nowy problem

Tylne światła nie działająAudi 80198912,6VOK

Uszkodzony bezpiecznikWymienić bezpiecznik

Przypadek 1

Diagnoza :Zaleczenia:

Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:Włącznik

św.:

Uszkodzony bezpiecznikWymienić bezpiecznik

Przypadek 3

Diagnoza :Zaleczenia:

Tylne światła nie działająAudi 80198912,6VOK

Uszkodzony bezpiecznikWymienić bezpiecznik

Problem:Samochód:

Rocznik:Akumulator:

Stan świateł:Włącznik

św.:

Page 21: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Cykl CBRCykl CBR

Retrieve

Reuse

Revise

Retain

Page 22: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Gdzie jest wiedza?Gdzie jest wiedza?

Słownik (wykorzystywane cechy)

Miara podobieństwa

Transformacje rozwiązań

Baza przypadków

Page 23: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

CBR - PodsumowanieCBR - Podsumowanie

Podobne problemy mają podobne rozwiązania.Rozwiązanie problemu (reguła 4R :)

Wyszukanie podobnych przypadków

Wykorzystanie rozwiązań z precedensu (ów)

Weryfikacja rozwiązania

Włączenie rozwiązania do bazyŁatwość implementacji i używania

Akceptacja użytkowników końcowych

Page 24: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Plan prezentacjiPlan prezentacji

WprowadzenieParsowanieCBRSieci semantyczne

Podstawy biologicznePrzykłady

UNLLangCerBeRPodsumowanie

Page 25: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Sieć semantyczna - przykładSieć semantyczna - przykład

zwierzę

ssak ptak ryba

kanarek wróbel pstrąg łosoś

ma skórę

porusza się

ma skrzela

umie pływać

Collins & Quillian, 1969

Page 26: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Zaplecze biologiczneZaplecze biologiczne

0 1 2

1500

900

RT(msec)

odległość w sieci

Kanarek umie śpiewać

Kanarek umie latać

Kanarek ma skórę

Kanarek jest kanarkiem

Kanarek jest ptakiem

Kanarek jest zwierzakiem

WłaściwościKategorie

Page 27: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Pomysły na sieć Pomysły na sieć

Collins & Loftus, 1975

zielony

niebieski

czerwony

żółty

sójka

rudzik

ptak

wróbel

kanarek

latające

zwierzaki

ryba

rekin

pływają

pingwin

linux

Page 28: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Reprezentacja fobiiReprezentacja fobii

Lang, 1979

Page 29: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Rodzaje sieci semantycznychRodzaje sieci semantycznych

• Definicyjne

• Twierdzeń

• Implikacyjne

• Uczące się

• Wykonywalne

• Hybrydowe

Page 30: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Plan prezentacjiPlan prezentacji

WprowadzenieParsowanieCBRSieci semantyczneUNL

Zdanie jako siećUNL jako metajęzyk

LangCerBeRPodsumowanie

Page 31: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Zdanie jako sieć semantycznaZdanie jako sieć semantyczna

pisać

Piotr, w tym czasie student, napisał kilka powieści.

student

AOJ Piotr

AGT

czas

ten

TIMMOD

kilka

MOD

powieść

OBJ

Page 32: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Zdanie – formalny zapis UNLZdanie – formalny zapis UNL

Piotr, w tym czasie student, napisał kilka powieści.

aoj ( student, Piotr )tim ( student, czas )mod ( czas, ten )agt ( pisać.@entry.@past, Taro )obj (pisać.@entry.@past, powieść.@pl )mod ( powieść.@pl, kilka )

Page 33: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Universal Language Networking Universal Language Networking UNLUNL

„It is a computer language that enables computer to process information and knowlage across the language bariers.”

UNL Specification (2003)

• Zapis jako sieć semantyczna• Pojęcia – węzły, relacje – połączenia• Jednoznaczność opisu

Page 34: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

UNL - RelacjeUNL - Relacje

• Relacje wyłącznie binarne• Możliwość annotowania• Grupy podstawowe – AGT, AOJ, OBJ• Operatory AND, OR, @not• Zapis informacji semantcznych – TMF,

TMT

Page 35: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

UNL – Universal Word (UW)UNL – Universal Word (UW)

• Proste pojęcia (simple UW)• Restrykcje

book(icl>thing)book(icl>do)

• Rozszerzające (extra UW)tatami(icl>thing)

• Złożone (compound UW)agt:01(wear(icl>do(obj>thing)),

woman(icl>person).@pl)

Page 36: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

UNL

UNL jako metajęzykUNL jako metajęzyk

EnConverter

EnConverter

DeConverter

DeConverter

Arabski

Polski

Page 37: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Plan prezentacjiPlan prezentacji

WprowadzenieParsowanieCBRSieci semantyczneUNLLangCerBeRPodsumowanie

Page 38: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Zdania jako przypadki CBRZdania jako przypadki CBR

Przypadek 11

Zdania proste vs zdania złożone

Częściowe podobieństwo

Ala ma rudego kota

Ala

Przypadek 12

Wojtek puszcza latawca

???rudy

kotmieć

Podobne ?

Page 39: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Relacja jako przypadekRelacja jako przypadek

Przypadek 14

Ala ma

Ala

mieć

AOJ

Przypadek 15

ma kota

kot

mieć

OBJ

Przypadek 16

rudego kota

kot

rudy

AOJ

Page 40: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Baza przypadków - schematBaza przypadków - schemat

Z1 -Ten kwiat jest piękny.

W1 - [ten:adj:sg:acc:m3:pos] W2 - [kwiat:subst:sg:acc:m3]W3- [być:fin:sg:ter:imperf]W4 - [piękny:adj:sg:acc:m3:pos]

P1 – mod (kwiat, ten) P2 - aoj(piękny.@entry, kwiat)

W1

W2

W3

W4

P1

P2

Z1

Page 41: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Miara podobieństwaMiara podobieństwa

• Reguły o tej samej długości• Podobieństwo cech rozważane binarnie• Podobieństwo słowa

– Zgodność formy podstawowej– Zgodność klasy fleksyjnej– Zgodność 12 kategorii gramatycznych

• Podobieństwo każdego słowa równoważne• Zgodność wystąpień w zdaniu (kolejność)

Page 42: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Wyszukiwanie i zapis przypadkówWyszukiwanie i zapis przypadków

• Poszukiwanie dla każdego wyrazu– najdłuższej relacji– do określonego progu

• Wybór najlepszych relacji• Zapamiętanie relacji jako nowego

przypadku• Grupowanie reguł, reguły bez kontekstowe

Page 43: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

PodsumowaniePodsumowanie

• Korpus IPI PAN Pełny system opisu języka polskiego Baza języka polskiego z informacją

morfosyntaktyczną Poliqarp - narzędzie do przeszukiwania

korpusu CBR

Miara podobieństawa Baza przypadków

• Universal Networking Language Jednolity system zapisu znaczeń Uniwersalny sposób zapisu rozkładu zdania

Page 44: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Pytania…Pytania…

???

??? ???

??? ??? ???

Page 45: Metody reprezentacji wiedzy  na tle Parsowania zdań języka naturalnego  z wykorzystaniem CRB

Dziękuję za uwagęDziękuję za uwagę