lexikográfia, ontológiák

26
Lexikográfia, ontológiák A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 28.

Upload: velma

Post on 20-Mar-2016

27 views

Category:

Documents


2 download

DESCRIPTION

Lexikográfia, ontológiák. A számítógépes nyelvfeldolgozás alapjai. A számítógépes nyelvfeldolgozás alapjai – 2013. március 28. Bevezetés. Lexikográfia: szókincs (szavak és kifejezések) kutatása, gyakorlati szempontú leírása Szótár: szavak (és jellemzőinek) gyűjteménye - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Lexikográfia, ontológiák

Lexikográfia, ontológiák

A számítógépes nyelvfeldolgozás alapjai

A számítógépes nyelvfeldolgozás alapjai – 2013. március 28.

Page 2: Lexikográfia, ontológiák

Bevezetés• Lexikográfia: szókincs (szavak és

kifejezések) kutatása, gyakorlati szempontú leírása

• Szótár: szavak (és jellemzőinek) gyűjteménye

• Ontológia: Lételmélet? Tudás megosztása? Számítógépes szótár? Fogalmi háló?

Page 3: Lexikográfia, ontológiák

Elektronikus szótárak• Hagyományos (papír)szótár• Elektronikus szótár

– Könnyebb és gyorsabb a keresés (szófaji információ is)

– Toldalékolt alakok is megtalálhatók– Nincsenek terjedelmi korlátok

Page 4: Lexikográfia, ontológiák

Többszavas kifejezések• Hol találhatók meg?

– Alaptagnál, de nem egységes a lexikográfiai gyakorlat

– Melyik az alaptag? (kutya vagy szalonna)

• Elektronikus szótárnál nem releváns kérdés

Page 5: Lexikográfia, ontológiák

Ontológiák• Fogalmi hálók• Viszonyok alapján rendezett

fogalmak (alá- és fölérendeltség, hierarchiák…)

• Taxonómiák (pl. biológiai rendszertan)

• Nyelvi ontológiák: nyelvi információt is tartalmaznak a hálón kívül

Page 6: Lexikográfia, ontológiák

WordNet• Lexikális adatbázis• Fogalmak hálóba rendezve

különféle relációk alapján• Angol: Princeton WordNet• Más nyelvekre is: EuroWordNet

stb.• Synset: szinonimahalmaz

Page 7: Lexikográfia, ontológiák

Princeton Wordnet• Eredetileg az emberi agy nyelvi

tudásreprezentációjának modellje– Ennek szánták

(inkább elméleti nyelvészeti / filozófiai indíttatás)– Más, mint egy szótár – szavak szintjén redundancia

• A legnagyobb, egységes lexikai adatbázis– Ingyenes

• Gépileg feldolgozható információ– Számítógépes nyelvészet egyik alapvető eszköze lett

Page 8: Lexikográfia, ontológiák

PWN mérete (3.0)POS Unique strings Synsets Total Word-Sense

Pairs Noun 117798 82115 146312Verb 11529 13767 25047

Adjective 21479 18156 30002Adverb 4481 3621 5580

Totals 155287 117659 206941

POS Average Polysemy Including Monosemous

Words Excluding Monosemous

Words Noun 1.24 2.79Verb 2.17 3.57

Adjective 1.40 2.71

Adverb 1.25 2.50

Page 9: Lexikográfia, ontológiák

Szemléltető ábra

Page 10: Lexikográfia, ontológiák

EuroWordNet

• Sok nyelvre létezik – EuWN, BalkaNet, később csatlakozó (magyar),

…• Ezek méretre nagyon változók

(magyar 40k synsettel a nagyobbak között)– XML adatformátum– Közös alapfogalmak

8516 fogalom• Közös javaslatok alapján• PWN-ben sok relációban szereplő csomópontok

Page 11: Lexikográfia, ontológiák

HuWNPartnerek:• Szegedi Tudományegyetem

Informatikai Tanszékcsoport• MTA Nyelvtudományi Intézet• MorphoLogic Kft. Budapest

Időtartam:2005. február 1. - 2007. április 30.

http://www.inf.u-szeged.hu/rgai/HuWN

Page 12: Lexikográfia, ontológiák

A HuWN bemutatása• 40000 synset (általános ontológia) + 2000

üzleti nyelvi synset (szakontológia) + 650 jogi nyelvi synset (szakontológia)

• Főnevek• Igék• Melléknevek• Határozószók• Ahol csak lehet, a PWN-nek megfeleltetni a

synseteket• Szerkesztéshez használt program: VisDic

Page 13: Lexikográfia, ontológiák

Szófaji eloszlás Szófaj Synsetek száma

Főnév 33.778

Ige 3.310

Melléknév 4.083

Határozószó 1.038

Összesen 42.209

Page 14: Lexikográfia, ontológiák

Synsetek• Megközelítőleg azonos jelentésű

szavak (literálok) alkotnak egy synsetet• Synseten belül a fő szervező reláció a

szinonímia• Jelentésmegkülönböztetés miatt

sorszámozott literálok• Példa: {zsineg1, zsinór1, madzag1,

spárga1}

Page 15: Lexikográfia, ontológiák

Synsetek - 2• Szófaj• Szinonimák

(literálok)• Definíció• Tipikus használat –

példamondat• ÉKSz.-beli megfelelő• Domén• Relációk más

synsetekkel

Page 16: Lexikográfia, ontológiák

Relációk a HuWN-ben: főnevek

• Alapvető rendező reláció a hipernima-hiponima

• Alá- és fölérendeltségi viszonyokat mutató fák

• Példa: bicikliKülönböző szintű hiponimák:

kutyaféle – emlős – állat – entitás

Page 17: Lexikográfia, ontológiák
Page 18: Lexikográfia, ontológiák

Relációk a HuWN-ben:főnevek - 2

• Antonímia (near_antonym): ellentét• Példa: férj – feleség

• Holonímia – meronímia: rész-egész viszonyok

• Példa: kalap – karima (rész)• újság – papír (anyag)

• csatár – focicsapat (tag)

Page 19: Lexikográfia, ontológiák
Page 20: Lexikográfia, ontológiák

Melléknevek a HuWN-ben• Alapvető szemantikai kapcsolat: antonímia• Hideg – meleg, szép – csúnya stb.• Központi literálok köré vannak összegyűjtve a

hasonló jelentésű, specifikusabb melléknevek

Page 21: Lexikográfia, ontológiák

Melléknévi relációka HuWN-ben

• Antonímia• also_see: hasonló jelentésű központi

synset• similar_to: hasonló jelentésű fokális

„szatellit” synset• middle: hárompólusú melléknevek

(alsó-felső-középső)

Page 22: Lexikográfia, ontológiák

Főnevek és melléknevek közti relációk a HuWN-ben

• pertains_to: adott főnév melléknévi, lexikalizált párja (száj – orális)

• partitions: csak adott (típusú) főnévre vonatkozhat (kialudt – inaktív – aktív vulkán)

Page 23: Lexikográfia, ontológiák

Speciális igei relációka HuWN-ben

• Példa: FELMELEGSZIK• is_preparatory_phase_of:

előkészítő folyamat (melegszik)• is_telos_of: sikerpont

(felmelegszik)• is_consequent_state_of: utóállapot

(meleg)

Page 24: Lexikográfia, ontológiák

Egyéb igei relációk• Antonímia: elad 1 – megvesz 1• Hipernímia – hiponímia: {szerez 4,

kap 5, vesz 7 …} hiponimái bérel 1, megtalál 2, belebotlik 1, kölcsönvesz 1 stb.

Page 25: Lexikográfia, ontológiák

Nyelvek közti relációk• eq_xpos_synonym: ha az angolban

és a magyarban eltérő szófaj fejezi ki ugyanazt a fogalmat, ezért közvetlenül nem feleltethetők meg egymásnak

fél (ige) – afraid (melléknév)

Page 26: Lexikográfia, ontológiák

Mire jó a WordNet?• Szinonimalisták• WSD: jelentések előre meg vannak

adva• Dokumentumosztályozás: szavak

közti relációk• Többnyelvű IE• Gépi(leg segített) fordítás: nyelvek

közti megfeleltetések