nyelvtechnológia 1home.mit.bme.hu › ~strausz › komplexmialkalmazások... · 8 pers birt....
TRANSCRIPT
![Page 1: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/1.jpg)
Nyelvtechnológia
1
BME, Dr. Prószéky Gábor.
Prószéky GáborPrószéky Gábor
![Page 2: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/2.jpg)
A számítógépes nyelvészet történelme
Általános tapasztalat: a nyelv változikEzért: a nyelvészet a 20. századig = történeti nyelvészetA deskriptív nyelvészet (és a „preskriptív” nyelvészet)A világháborúk körül:
– 1947-49: USA/UK Booth és Weaver: kriptográfiaAmerikai kezdemények
– 1951: Bar-Hillel (MIT) - kés bb (1959) megkérd jelezi a TAGF-t– 1954: Georgetown/IBM – az USA kormánya támogatta
Szovjetunió és Kelet-Európa: matematikai nyelvészetGeneratív grammatika: Chomsky „Syntactic Structures”-e épp 50 éve (!)Transzformációk a „csúcson”: az „Aspects” (1965)A GF-korszak vége: ALPAC Report (1966)Woods (1969): Lunar (holdprogram!), ATNWinograd (1972): SHRDLUGF-túlél k: Systran, Logos (vietnami háború!) és MetalAz USÁ-n kívül:
– Kanada: METEO– Európai közösség: EC–Systran + közvetít nyelves GF (Eurotra, DLT)– Japán: 5. generációs számítógép (!)
![Page 3: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/3.jpg)
A számítógépes nyelvészet történelme 2.
• 1970-es évek vége: megjelennek a „Bay Area” nyelvtanok• 1980-as évek: tudás-alapú GF-rendszerek (CMU)• 1980-as évek: Rosetta(Montague-szemantika mint interlingva)• 1983: Language as a Cognitive Process (Winograd)• 1983: kétszintes morfológia (Koskenniemi)• 1980-1990-as évek: megjelennek a piaci alkalmazások
– Apple Macintosh, IBM PC: helyesírás, elválasztás stb.– Logos
– Siemens Metal > Langenscheidt T1
– PC-alapú rendszerek: Globalink, Tovna, Kielikone, ProMT
• 1980-as évek vége: IBM – statisztikai módszerek• 1990-es évek: megszület ben a korpusznyelvészet• 1990-es évek vége: a Lernout & Hauspie tündöklése és bukása,
majd a ScanSoft (amit 2005-t l a Nuance) felvásárolja• 2000-es évek (?): a beszédfordító rendszerek ígérete• … és minden egyre inkább statisztikai módszerekkel
![Page 4: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/4.jpg)
A természetes nyelvek számítógépes
ábrázolásának kutatási problémái
• Formális nyelvek a természetes nyelvekkutatásában
• A nyelvmodellek és a nyelv„távolságáról”
• Pontosság és lefedettség
• Túl- és alulgenerálás
Prószéky GáborPrószéky Gábor
![Page 5: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/5.jpg)
A természetes nyelvek modellezésének
szintjei és eszközei
• Nagy paradigmák: a statisztikai, a szabály-alapú és a példa-alapú rendszerek
• A korpusznyelvészet kialakulása: akorpuszok alkalmazása a nyelv különbözszintjeinek kutatásában (treebank)
• A nyelvi kutatások szintjei: fonológia,morfológia, szintaxis, szemantika,pragmatika
• Szövegnyelvészet, dialógus-kutatás,világismeret-kutatás
Prószéky GáborPrószéky Gábor
![Page 6: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/6.jpg)
Az angol morfológia
• 1. walk (ige): walk, walks, walking,walked, walker, walkable
• 2. simple (mn): simple, simpler, simplest,simply, simplier, simplicity
• 3. computer (fn; belevéve a képzéssel kapottteljes igei paradigmát is): computer,computer’s, computers, computers’,computerize, computerizes,computerized, computerizing
Prószéky GáborPrószéky Gábor
![Page 7: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/7.jpg)
Az angol morfológia VÁA-ja
Prószéky GáborPrószéky Gábor
reg-noun: fox, cat, dog;
irreg-pl-noun: geese, sheep, mice;
irreg-sg-noun: goose, sheep, mouse;
plural: -s
reg-verb-stem: walk, fry, talk;
irreg-verb-stem: cut, speak, sing, sang;
irreg-past-verb: caught, ate, eaten;
past: -ed;
past-part: -ed;
pres-part: -ing;
3sg: -s
![Page 8: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/8.jpg)
Az angol morfológia VÁA-ja (2)
Prószéky GáborPrószéky Gábor
![Page 9: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/9.jpg)
A magyar morfológia
• 1. tesz (ige): teszek, teszel, tesz, teszünk, tesztek,tesznek stb.… tettem, tetted, tette, tettük, tettétek,tették stb. … tenném, tennéd, tenné, tennénk,tennétek, tennék stb.… tehetek, tehetsz, tehet,tehetünk, tehettek, tehetnek stb. … tev , tev k,tev nek, tev leges stb. …
• 2. egyszer (melléknév): egyszer en, egyszer t,egyszer nek, egyszer vel, egyszer vé stb. …egyszer ek, egyszer eknek stb. … egyszer sít,egyszer södik, egyszer sít stb. (és az igealakok sora) …egyszer bb, egyszer bbnek, egyszer bbeket stb.…legegyszer bb, legegyszer bbé stb.
• 3. számítógép (f név): számítógépem, számítógéped,számítógépe stb. … számítógépeimet,számítógépeidet, számítógépeit stb. …számítógépezem, számítógépezel, számítógépezik stb.… számítógépes, számítógépesnek stb.
Prószéky GáborPrószéky Gábor
![Page 10: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/10.jpg)
A magyar morfológia - 2
A morfológiai elemzés mint program egy olyanfekete doboz, mely az alábbi lépéseket végziel a bemenetül kapott szóalakon:
1.elemi morfémáira bontja;
2.meghatározza a morfémák lexikális alakját;
3.meghatározza az egyes morfémák morfo-szintaktikai tulajdonságait (esetleg másnyelvtani tulajdonságokat is)
Prószéky GáborPrószéky Gábor
![Page 11: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/11.jpg)
Átmenetgráfos ábrázolás(alma, alom, anya, anyag, apa, apad )
Prószéky GáborPrószéky Gábor
S
A
B
C D
G K
H L*
E* F* I* M*
J*
a
l n p
m o y a
a m a d
g
![Page 12: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/12.jpg)
Trie = szófa
Prószéky GáborPrószéky Gábor
Trie (=szófa)(to, this, the, that)
A szófa egy olyan, a szavak rákövetkez karaktereivel címkézettélsorozatokat tartalmazó fa, amelyben egy szót úgy találunk meg, hogyvégigjárjuk karakterenként.
![Page 13: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/13.jpg)
Szófa és véges fordító (transducer)(alma, almafa, almák, almával)
Prószéky GáborPrószéky Gábor
S A B C
D
G H
I J K
E F
a l m
a
f a
á
k
v
a l
S A B Ca:a l:l m:m
a:a
á:a
G Hk:k
v:V
I J Ka:A l:l
G’’:+
H’:[PL]
J
:[IN]
D E Ff:f a:a
E’:+ F’
:[FN]
G’
:[FN]
D’
:[FN]
• alma : alma[FN]• almafa : alma[FN]+fa[FN]• almák : alma[FN]+k[PL]• almával : alma[FN]+VAl[IN]
![Page 14: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/14.jpg)
Prószéky GáborPrószéky Gábor
A módosított szófa(alma, alom, anya, anyag, apa, apad, aránytalanság)
• Ha tudjuk, hogy véges sok elemünk van, módosítható azelágazási helyeknél:alm a
alo m
anyaanyagapaapadar ánytalanság
• Akkor éri meg, ha jelent sen különböznek a szóvégek
• További módosítások: az el tagok (igeköt k, re-, pre-, anti-stb.) elkülönítése mellett a tipikus és ritka kezd bet párokegyedi kódolása
• Az angol lexikonok tanúsága szerint 262=676 indító bet párbólcsak 309 létezik, amib l 88 csak 15-nél kevesebb szó elején)
![Page 15: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/15.jpg)
A Kay-féle szótárábrázolás(alma, alom, anya, anyag, apa, apad, aránytalanság)
Kay (1977): tömörítés numerikus prefixekkelalma 0
alom 2
anya 1
anyag 4
apa 1
apad 3
aránytalanság 1
Tehát a szótár:alma, 2om, 1nya, 4g, 1pa, 3d, 1ránytalanság
Akkor éri meg, ha hasonlítanak a szókezdetek(nagy szótár esetén mindig!)
![Page 16: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/16.jpg)
A morfológiai elemzéshez kapcsolódó
alapfogalmak
Prószéky GáborPrószéky Gábor
szókészletszótárábrázoláskeresési lépésektúlgenerálászártság
![Page 17: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/17.jpg)
Prószéky GáborPrószéky Gábor
Emlékezetfrissítés
Nyelv:füzérek halmazaReguláris nyelv:füzérek olyan halmaza, melykonkatenációval, iterációval és egyszerhalmazm veletekkelhozható létreReguláris kifejezés:a reguláris nyelvet leíró kompakt formulaVéges állapotú automata:egy olyan absztrakt gép, mely egy regulárisnyelvet fogad el
![Page 18: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/18.jpg)
Reguláris kifejezés nyelv VÁA
Prószéky GáborPrószéky Gábor
![Page 19: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/19.jpg)
Reguláris kifejezések VÁA-ként
Prószéky GáborPrószéky Gábor
![Page 20: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/20.jpg)
Újraírószabályok egy VÁA-ban
Prószéky GáborPrószéky Gábor
![Page 21: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/21.jpg)
Újraírószabályok egy VÁA-ban - 2
Prószéky GáborPrószéky Gábor
![Page 22: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/22.jpg)
Kétszintes megfogalmazások
Prószéky GáborPrószéky Gábor
![Page 23: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/23.jpg)
Párhuzamosság: VÁA-metszet
Prószéky GáborPrószéky Gábor
![Page 24: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/24.jpg)
Két szint: felszíni és lexikális
Prószéky GáborPrószéky Gábor
![Page 25: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/25.jpg)
A kétszintes szabályok
L:S => E
„Csak akkor, de nem mindig."
L csak az E környezetben realizálódik S-ként.
Az S-ként realizált L nem megengedett a ¬E környezetben.
Ha L:S, akkor annak E környezetben kell lennie.
Persze L:¬S is engedélyezett lehet az E környezetben.
L:S <= E
„Mindig, de nem csak akkor."
L mindig S-ként realizálódik az E környezetben.
Az ¬S-ként realizált L nincs megengedve az E környezetben.
Ha L illeszkedik az E környezetbe, akkor L:S.
Persze L:S el fordulhat máshol is.
![Page 26: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/26.jpg)
A kétszintes szabályok (2)
L:S <=> E
„Akkor és csak akkor"
Az L S-ként akkor és csak akkor realizálódik, ha E a környezet.
Mind L:S => E, mind L:S <= E fennáll.
L:S kötelez az E környezetben.
L:S sehol máshol nem fordulhat el .
L:S /<= E
„Soha."
L soha nem realizálódik S-ként az E környezetben.
Az S-ként realizált L nincs megengedve az E környezetben.
Ha L az E környezetben áll, akkor fenn kell álljon L:¬S.
![Page 27: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/27.jpg)
Egy konkrét kétszintes szabály
Prószéky GáborPrószéky Gábor
![Page 28: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/28.jpg)
A kétszintes rendszer
• a felhasználó környezetfügg szabályokat ír
• minden jelenségre egy szabály (a többi arendszer dolga)
• az ábécé(k) megadandó(k):
• lexikonok és folytatási osztályok
• metakarakterek használhatók
• speciális szimbólumok (üres, akármi)
• szabályfordító és táblázatos formaPrószéky GáborPrószéky Gábor
![Page 29: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/29.jpg)
Kés bb: szabályok és lexikonok
kompozíciója
Prószéky GáborPrószéky Gábor
![Page 30: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/30.jpg)
Szabályok és lexikonok metszete a
gyakorlatban
Prószéky GáborPrószéky Gábor
![Page 31: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/31.jpg)
Több szalag: felszíni és több lexikális
Prószéky GáborPrószéky Gábor
![Page 32: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/32.jpg)
Folytatási osztályok
Leegyszer sített magyar névszói toldalékolás:
S A C DFN PL ACC | DAT | INS
B
IGEÁS
ACC | DAT | INS
![Page 33: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/33.jpg)
Szóalaktani alapséma
nemterminális nemterminális terminális
t toldalék toldalék toldalék
(relatív) t / relatív toldalék
relatív t / relatív toldalék
relatív t / (relatív) toldalék
![Page 34: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/34.jpg)
HUMOR
High-speed Unification Morphology
folytatási osztályok (mátrix)
jegy-érték párok
unifikáció: részletes definíció kés bb
ld. Prolog, de nem rögzített aritás
unifikáció vs. unifikálhatóság
minden tulajdonság jegyként
nincs más „valós” m velet, csakaz unifikálhatóság-ellen rzés
![Page 35: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/35.jpg)
Jegyszerkezetek
![Page 36: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/36.jpg)
Unifikáció
![Page 37: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/37.jpg)
DAG-ok ábrázolása
![Page 38: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/38.jpg)
Az unifikáció definíciója
![Page 39: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/39.jpg)
Bináris kérdések
a magyar morfo-fonológiáról
= + = –1 névszó névszó ige2 fn f név melléknév, számnév3 szótári szótári alapalak nem szótári alapalak4 elöl elöl képzett hátul képzett5 kerek ajakkerekítéses nem ajakkerekítéses6 PL többes szám nem állhat többes számban7 PLköt PL köt hanggal PL nem köt hanggal8 PERS birt. szem.ragos nem kap birt. szem.ragot9 ACC van tárgyesete nem tárgyesetes10 ACCköt ACC köt hanggal ACC nem köt hanggal11 DAT van részesesete nincs részesesete12 INS:ß van eszk.h.esete nincs eszk.h.esete13 ÁS -ás/-és képz s nem kap -ás/-és képz t
![Page 40: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/40.jpg)
Szótövek tára
szó [][+névszó +fn +szótári –elöl –kerek –PL
–PERS +ACC –ACCköt +DAT +INS:V]
szav [][+névszó +fn –szótári –elöl –kerek +PL
+PLköt +PERS –ACC +DAT –INS]
képez [][–névszó +szótári +elöl –kerek –ÁS]
képz [][–névszó –szótári +elöl –kerek +ÁS]
...
![Page 41: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/41.jpg)
Toldalékok tára
ás [–névszó –elöl +ÁS][+névszó +fn +szótári –elöl –kerek +PL
+PLköt +ACC –ACCköt +DAT +INS:S]
és [–névszó +elöl +ÁS][+névszó +fn +szótári +elöl –kerek +PL
+PLköt +ACC –ACCköt +DAT +INS:S]
ak [+névszó –elöl –kerek +PL +PLköt ][+névszó –elöl –kerek –PL –PERS +ACC
+ACCköt +DAT +INS:K]
ek [+névszó +elöl –kerek +PL +PLköt ][+névszó +elöl –kerek –PL –PERS +ACC
+ACCköt +DAT +INS:K]
nak [+névszó –elöl +DAT ][]
nek [+névszó +elöl +DAT][]
...
![Page 42: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/42.jpg)
Unifikációs morfológia
szó [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V]
*szav [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC +DAT –INS]
szó+nak [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V][+névszó –elöl +DAT ]
*szav+nak [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC –DAT][+névszó –elöl +DAT]
*szó+vel [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V][+névszó +elöl +INS:V]
*szav [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC +DAT –INS]
képz+és+nek [–névszó –szótári +elöl –kerek +ÁS][–névszó +elöl +ÁS][+névszó +fn +szótári +elöl –kerek +PL +PLköt +ACC –ACCköt +DAT
+INS:S][+névszó +elöl +DAT]
![Page 43: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/43.jpg)
Morfo-fonológiai „guesser”
kacsónak + 0 FN + 0
kacsóna + k * FN + PL
kacsón + ak * FN + PL
kacsó + nak FN + DAT
kacsó + nak * IGE + PL3
kacs + ó + nak * IGE + MNI + DAT
ka | csónak + 0 * FN|FN
![Page 44: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/44.jpg)
Tipikus hibák a számítógéppel létrehozott
dokumentumokban
• karakterhibák
• valódi helyesírási hibák
• nyelvhelyességi hibák
• tipográfiai hibák
• helyesírás-ellen rzés a szavak szintjén
• a szóellen rzés és a nyelvhelyesség-ellen rzésviszonya
• a nyelvi programrendszer lehetséges hibái(kör/k r, -ít)
![Page 45: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/45.jpg)
A szóellen rzés menete
(1) Morfológiai elemzés
kérdésse <nincs ilyen szó a magyarban>
(2) Ajánlás
törlés:
érdésse, krdésse, kérésse, kédésse, kérdése, kérdéss
helycsere:
ékrdésse, krédésse, kérédsse, ..., kérdéses
nyelvspecifikus csere:
kérdéssé, kérdesse, ...
...
(3) Ellen rzés morfológiai elemzéssel
kérdése, kérdéses, kérdesse, kérdéssé
![Page 46: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/46.jpg)
Szóellen rzés morfológiával
kérdése
kérdés[FN]+e[PSe3] f névi
kérd[IGE]+és[IF]+e[PSe3] f névi
kérdéses
kérdéses[MN] melléknévi
kérdés[FN]+es[SKEP] melléknévi
kérd[IGE]+és[IF]+es[SKEP] melléknévi
kérdesse
kérd[IGE]+es[MUV]+se[TPe3] igei
kérdéssé
kérdés[FN]+sé[FAC] f névi
kérd[IGE]+és[IF]+sé[FAC] f névi
![Page 47: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/47.jpg)
Nyelvhelyesség-ellen rzés a szóhatáron túl
lehetséges-e mondatszint helyesírás-ellen rzés?
„grammar checker” ?parciális elemzések
hiba-nyelvtan vs. nyelvtan
hibaelemzések, a hibák súlyozása
a hiba és a nem-hiba határának elmosódása
a nyelvi vagy a formai természet hibáksz résének preferálása
stílusellen rzés számítógéppel
![Page 48: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/48.jpg)
A magyar elválasztás szabályai
Alap Elválasztva Példa
VV V–V ba-uxit
VC1C2V VC1–C2V er-kély
VCiCiV VCi–CiV vet-tem
VCc1c2V VC–c1c2V mor-zsa
Vc1c2CV Vc1c2–CV asz-tal
Vc11c12c21c22V Vc11c12–c21c22V tarisz-nya
Vc1c1c2V Vc1c2–c1c2V össze/ösz-sze
#VV #VV autó
#VC #VC alaki
VV# VV# hazai
![Page 49: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/49.jpg)
Automatikus szövegelválasztás
az elválasztás alkalmazásaautomatikus és interaktív módszereka morfológiai felülbírálás kérdésealternatív elválasztások kezelése(többértelm ség, illetve a szabályok„engedékenysége” miatt)tipográfiai szempontokkülönleges elválasztások (hosszú kett smássalhangzók, mássalhangzó-háromszorozódás) helyes kezelése
![Page 50: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/50.jpg)
Számítógépes szinonimaszótárak
és tezauruszok
a szinonimákrólszinonimaszótár vagy tezaurusz?
tárolási és keresési problémák
a rokonértelm ség definíciója
az automatikus csere problémáit visszaállítás
többértelm ségek kezelése
a lexikai és a szintaktikai szó különbségéb l adódónehézségekaz összetett szavak szinonimáinak problémája
morfológiai generálás minta alapján
![Page 51: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/51.jpg)
Szintaxis
közvetlen összetev s szerkezet
függ ségi szerkezet
Prószéky GáborPrószéky Gábor
![Page 52: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/52.jpg)
Összetev s szerkezet
![Page 53: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/53.jpg)
Függ ségi szerkezet
I gave him my address.
![Page 54: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/54.jpg)
A mondatszerkezet leírásának
f bb eszközei
Közvetlen összetev s nyelvtanok: el nyüka magasabb szint kategóriákbevezetésének lehet sége, hátrányuk aszintaktikai viszonyok egy részének„kifejezhetetlensége”Függ ségi szerkezet: el nyük a szintaktikaifügg ség kifejezésének lehet sége,hátrányuk a magasabb szint kategóriákkezelhetetlenségeEgy elegáns közös megoldás: az X-vonásnyelvtanok
![Page 55: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/55.jpg)
X-vonás: összetev k és függ ség
S NP VPAz összetev s szerkezetben az NP és a VP„testvérek”, azaz mindketten az S„gyermekei”, de ezt nem fejezi ki a függ ségileírásAzt viszont a közvetlen összetev s leírás nemfejezi ki, hogy testvérek bár, de nemegyforma súllyal, ui. a VP a szerkezet fejeX-vonás szabályként: V” N’ V’Azaz: a V” a V maximális projekciója, tehát amondat feje az ige!Csak endocentrikus szerkezetekre!(v.ö. exocentrikus)
![Page 56: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/56.jpg)
X-vonás szerkezetek
![Page 57: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/57.jpg)
X-vonás mondatszerkezet
![Page 58: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/58.jpg)
Balrekurzió, önbeágyazás
Önbeágyazás balrekurzióval (S NP VP, NP Pron S):0: A fiú elment.
1: A fiú, akit a barátom meghívott, elment.
2: A fiú, akit a barátom, akir l a kollégám mesélt, meghívott, elment.
3: A fiú, akit a barátom, akir l a kollégám, akivel egy iskolába jártam,mesélt, meghívott, elment.
Veremkezelés helyett egyszer utalás:Az a fiú elment, akit az a barátom hívott meg, akir l az a kollégám mesélt,akivel egy iskolába jártam.
![Page 59: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/59.jpg)
Jobbrekurzió
„az agyag
ölel karjai közül
kibontakozni akaró kocsikerék
rettent nyikorgásától
megriadt juhászkutya
bundájába
kapaszkodó kullancs
kidülledt félszeméb l
alácseppen könnycseppben
visszatükröz d holdvilág
fényét l
illuminált rablólovagvár
felvonóhídjából
kiálló vasszegek
kohéziós erejének
hatása”
(Fehér G.)
![Page 60: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/60.jpg)
A „PP-attachment” probléma
![Page 61: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/61.jpg)
RTN
(Recursive Transition Network)
![Page 62: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/62.jpg)
RTN
(kiegészítések a VÁA-hoz)
A szokásos VÁA m ködtetésén túl figyelni kell:
az aktuális bemeneti pozíciót,
az aktuális állapotot és
hogy hova kell visszatérni
összegezve: veremkezelés kell
![Page 63: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/63.jpg)
RTN
(összefoglalva)
az RTN egymást hívó VÁA-k hálózata:az élek címkéin megjelenik akategória, azaz más VÁA-k „neve”
a VÁA (a reguláris nyelvek) O(n) idalatt elemezhet k
az RTN viszont veremautomata, azazkörnyezet-független nyelvekelemzésére is alkalmas, tehát csakO(n3) elemzési id garantálható
![Page 64: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/64.jpg)
ATN(az RTN b vítése)
ÉLCÍMKÉK:
WRD *, CAT *, PUSH *, POP, JUMP *
ÉRTÉKEK:
GETR, *, QUOTE, GETF, BUILDQ *, APPEND
TESZTEK:
T, EQ, AND, OR, NOT
AKCIÓK:
SETR, TO
![Page 65: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/65.jpg)
Példák ATN-élekre
![Page 66: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/66.jpg)
Mire elég a szintaxis?
![Page 67: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/67.jpg)
Lehet, hogy többet érne a „jelentés”?
![Page 68: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/68.jpg)
Sok mondat - egy jelentés
![Page 69: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/69.jpg)
Hasonló mondat - különböz jelentés
![Page 70: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/70.jpg)
„Mély” esetek
![Page 71: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/71.jpg)
Híres fogalmi hálók
AZ MI kezdetén: Quillian, Minsky, Charniak, ...
Fogalmi függ ség: Schank
Logikák:Hendrix, Sowa (fogalmi gráfok), …
Ontológiák:CyC, MindNet, FrameNet, ...
WordNet (pszichológusok indították):WordNet, EuroWordNet,eXtendedWordNet, ...
Szemantikus web: (?)
![Page 72: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/72.jpg)
A fogalmi függ ség igeosztályai
![Page 73: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/73.jpg)
Eseményábrázolás a FF elméletében
![Page 74: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/74.jpg)
A fogalmi függ ség állapotosztályai
![Page 75: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/75.jpg)
Schank (1)
![Page 76: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/76.jpg)
Schank (2)
![Page 77: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/77.jpg)
Forgatókönyvek
![Page 78: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/78.jpg)
Az „étterem” forgatókönyve
(a tipikus eseménysor)
![Page 79: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/79.jpg)
Az „étterem” forgatókönyve
(alapismeretek)
![Page 80: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/80.jpg)
Az „étterem” teljes forgatókönyve
![Page 81: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/81.jpg)
Szótárak és terminológiakezelés
nyomtatott szótárak és elektronikus szótárak
terminológiai adatbázisok
közvetlen és közvetett elektronikus szótárak
egynyelv , kétnyelv és többnyelv szótárak
a forrásnyelv és a célnyelvek aszimmetriája
![Page 82: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/82.jpg)
Szerkesztési elvek
Az (önálló ill. utaló) szócikkek és felépítésükA szócikkfej: címszó, homonimák ésálhomonimák, alak- és írásváltozatok, kiejtés,elválasztás, szófaj, f bb toldalékos alakok,nyelvtani megjegyzés, stílusmin sítésJelentéscsoportok (alapjelentés ésjelentésárnyalatok): értelmezések (ekvivalensek)és példákSzóláshasonlatok, közmondások, más szavakkalalkotott összetételek, származékszók
![Page 83: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/83.jpg)
Keresés a szótár(ak)ban
bet szerintcsonkolt keresés
hasonlósági keresés (fuzzy, spell)
nyelvi alapú keresés a bemeneti oldalon
nyelvi alapú keresés a találati oldalona kifejezések kezelésének problémái:alcímszók, kulcsszó-választás, indexek,egyazon kifejezés több címszó alatt
„könyvespolc”: egységes felület
egyidej használat: párhuzamos(nak t n )keresés
![Page 84: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/84.jpg)
Többszavas kifejezések keresése
csak címszóként
bet szerint
teljes szöveg kereséssel
reguláris kifejezéskéntt indexekkel: készítéskor vagyelemzési id ben (is)
![Page 85: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/85.jpg)
A szótári jobboldal szerepe
papírszótárak esetében: csak tipográfiai
elektronikusan: új lehet ség
ábécé-környezet helyett szinonimáktöbbféle jelentés kezelése a baloldalicímszavak segítségével
új találati ablak
elektronikusan érdemes „kifordítani” aszótárakat
![Page 86: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/86.jpg)
Az elektronikus szótárak megfordíthatók
![Page 87: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/87.jpg)
Gyorsfordítók
amikor információ kell, pl. szótári, akkor:
csak amit kérek, nem többet,de azt gyorsan,
kevés aktív m velettel
és a lehet legautomatikusabban!
kialakul a „pop-up” viselkedésa kijelölhet ség, ill. az automatikusindíthatóság szerepe
![Page 88: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/88.jpg)
A „rávetít s” megoldás lépései
szöveg(rész)-felismerésnyelvi elemzés: morfológia, lemmák,szókapcsolatok (esetleg környezetelemzés)
szótári keresés: tövesítve vagy csakliterálisan
megjelenítés: buborékban vagy fixablakban
log: automatikus információgy jtéslehet sége
![Page 89: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/89.jpg)
A fordítómemória gondolata
A lefordítandó mondat:
After a few seconds, a window will appear in which you are
expected to enter a valid User ID and (if necessary) a password.
Korábban már fordítottuk ezt:
After 5 seconds, a window will appear on the screen in which you
are expected to enter a User ID and (if required) a password.
Méghozzá így:
Öt másodperc múlva egy ablak jelenik meg a képerny n, amelybe
be kell gépelni egy felhasználó-azonosítót és (ha szükséges) egy
jelszót.
Ebb l a következ fordítás könnyen el állhat:
Néhány másodperc múlva egy ablak jelenik meg, amelybe be kell
gépelni egy érvényes felhasználó-azonosítót és (ha szükséges) egy
jelszót.
![Page 90: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/90.jpg)
A fordítómemória mint eszköz
![Page 91: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/91.jpg)
Szövegszinkronizálás
bi-text
párhuzamos korpuszokszinkronizálás: valós id ben és utólag
pl. a Biblia
„You will not surely die,” the
serpent said to the woman.
(Genesis 3:4)
A kígyó erre azt mondta az
asszonynak: „Dehogy is haltok meg!”
(Ter 3,4)
![Page 92: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/92.jpg)
Szövegszinkronizálási szintek
bekezdésszint
mondatszint
frázis-szint (?)
szószint (??)mondathatár-problémák
horgonyok
statisztikai módszerek
![Page 93: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/93.jpg)
Nem feltétlenül 1-1 értelm
(1 = 1,2) O stylographe à laplume de platine, que tacourse rapide et sans heurttrace sur le papier au dossatiné les glyphesalphabétiques quitrans mettront aux hommesaux lunettes étin ce lantesle récit narcissique d’unedouble ren contre à lacause autobusilistique.
(1 = 1) Ó, platinahegytölt toll!
(2 = 1) Vajha tajtékos-gyorsfutásod a szaténhátúpapirosra róná amazalfabéta-cikornyákat,melyek a csillogó okulárésemberek tudomására hozzákaz autóbuszilisztikus-okútalálkozás önbálványozókrónikáját!
![Page 94: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/94.jpg)
A nyelvi szerkezetek hasonlóságáról
zöld kutyazöld macskasárga kutyasárga macskapiros egérkis asztalhét kis ágya tegnapi bulirólelmentem a tegnapi bulirólbeléptünk az EU-bajó napot!
![Page 95: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/95.jpg)
A gépi fordítás alapmódszerei
szabály-alapú:közvetlen fordításközvetít nyelves fordítástranszfer rendszerek
statisztikai
Egy szó mint száz...
![Page 96: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/96.jpg)
Becslések az európai nyelven írt internetes
szövegek lehetséges méretér l
![Page 97: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/97.jpg)
… milyen „min ség ” szövegek vannak a weben?
1 150 000
441 000
522 000
436 000
2 480 000
19 400 000
1 940 000
19 200 000
47 700
66 400
128 000
193 000
116 000
681 000
67 400
2 460 000 000
Full
.nternet
i.ternet
in.ernet
int.rnet
inte.net
inter.et
intern.t
interne.
niternet
itnernet
inetrnet
intrenet
intenret
interent
internte
internet
![Page 98: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/98.jpg)
Fordítási modellNyelvmodell
Bayes
Statisztikai gépi fordítás
Egy szó mint száz...
![Page 99: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/99.jpg)
• Nincs külön szótár és külön nyelvtan
• Csak minta-párok vannak: bemenet/interpretációszerkezet-párok
• Egyetlen elemzési menet: nincs rákövetkezm velet (pl. transzfer)
• Célszerkezet-generálás:az elemzés „melléktermékeként”
• Új:
MetaMorpho-elvek
Egy szó mint száz...
![Page 100: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/100.jpg)
Minták: általánosított nyelvészeti információk
• Rövid, specifikus minták:
szótári címszavak
• Hosszabb, specifikus minták:
többtagú kifejezések
• Részlegesen alulspecifikált minták:
kollokációk, idiómák
• Teljesen alulspecifikált minták:
nyelvészeti szabályok
• Fordítástámogató nyelv:
minta–interpretáció párok
Egy szó mint száz...
![Page 101: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/101.jpg)
A MetaMorpho projekt
Egy szó mint száz...
• A projekt: 1991-t l folyamatosan készített moduljainkfelhasználásával (kb. 100 emberév) 2000-ben indult,bels projektként (semmilyen küls támogatása nincs)
• Cél: mondatszint fordítás – új elven: a szavakkörnyezetének felhasználásával (egy n elemmondatban éppen n darab (n-1) elemb l álló környezetvan)
• Forrásnyelv: angol, magyar
• Célnyelv(ek): magyar, angol, …
• Szakterület: nincs de dinamikusan b víthet
• Minta-alapú: példák (TM) és szabályok (MT) egységesen
• Minták száma: kb. 200.000
• Lexikon: kb. 100.000 alapszó
• Elvárt sebesség: 50 karakter/s
• Felhasználói felület: MoBiCAT, MoBiWAP, MMO-Office,MorphoWord, MoBiWeb, webforditas.hu
![Page 102: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/102.jpg)
A MetaMorpho „belülr l”
EN: The whole class was obsessed with the coming match.
SFULL CS S SP SUBJ NP DET The 0122 0121 0120 0119 0112 0109 0108 Az [the]
NN ADJP ADJ whole 0105 0104 0098 egész [whole] N class 0091 osztályt [class+ACC] MPRED PRED VP TV TVR TVR BE was 0062 0061 0060 0059 0058 0057 0055 foglalkoztatta [deal+FAC+PAST+Sg3] V obsessed 0044 PPOBJ PREP with 0042 0039 OBJP NP DET the 0032 0031 0030 a [the] NN ADJP ADJ coming 0027 0026 0015 közelg [coming] N match 0002 mérk zés [match+NOM]
END . 0001
.
HU: Az egész osztályt foglalkoztatta a közelg mérk zés.
Egy szó mint száz...
![Page 103: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/103.jpg)
Angol-magyar gyorsfordító szolgáltatás
MoBiCAT: teljes mondatok fordítása(MoBiCAT-szerver akár intraneten vagy interneten)
![Page 104: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt](https://reader033.vdocuments.mx/reader033/viewer/2022060406/5f0f79dc7e708231d44459f2/html5/thumbnails/104.jpg)
Angol-magyar weblap-fordítás(MorphoWeb, webforditas.hu)