medjezično iskanje (mi) 1

Post on 04-Jan-2016

56 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Medjezično iskanje (MI) 1. Razlogi za razvoj MI, definicije in pregled postopkov MI, MI z večjezičnimi tezavri, računalniško prevajanje v MI. Motivacija za razvoj MI. Hiter razvoj omrežnega (spletnega) publiciranja sprožil razvoj iskalnikov spletnih dokumentov. - PowerPoint PPT Presentation

TRANSCRIPT

1

Medjezično iskanje (MI) 1

Razlogi za razvoj MI,

definicije in pregled postopkov MI,

MI z večjezičnimi tezavri,

računalniško prevajanje v MI.

2

Motivacija za razvoj MI Hiter razvoj omrežnega (spletnega)

publiciranja sprožil razvoj iskalnikov spletnih dokumentov.

Na začetku skoraj 100% dokumentov v angleščini – vsa metodologija spletnih iskalnikov prilagojena angleščini.

Danes porazdelitev jezikov spletnih dokumentov bistveno drugačna:60% angleščina,39% evropski, neangleški jeziki,10% ostalo.

3

Motivacija za razvoj MI

Taka porazdelitev se neposredno odraža v zbirkah velikih iskalnikov.

Gradnja zbirk in iskalni algoritmi spletnih iskalnikov so še vedno prilagojeni angleščini.

4

Motivacija za razvoj MI

Iskanje z iskalnimi zahtevami v naravnem jeziku: Primerjanje besed ali besednih zvez iz iskalne

zahteve z besedami ali besednimi zvezami v dokumentih.

Iskanje ne more dati rezultatov, če sta iskalna zahteva in dokument v različnih jezikih.

5

Motivacija za razvoj MI

Iskalec mora sestaviti ločene iskalne zahteve v jezikih dokumentov.

Težave: iskalec se tekoče izraža le v enem ali dveh

jezikih, ostali dokumenti nepoiskani, neizenačena kvaliteta rezultatov zaradi različnega

znanja jezikov pri istem iskalcu, multiplikati prevodov istega dokumenta, velik iskalni napor, ...

6

Definicije medjezičnega iskanja

V strokovni literaturi se pojavljajo različni izrazi: cross-language IR, cross-lingual IR, multilingual IR, translingual IR...,

ne da bi bila jasna razmejitev njihovih pomenov.

7

Definicije MI

Medjezično iskanje je iskanje, pri katerem je naravni jezik iskalne zahteve lahko različen

od jezika ali jezikov dokumentov v zbirki. Iskalna zahteva je v jeziku a ali b, dokumenti v zbirki so v jezikih a in b, poiskani relevantni dokumenti so v jezikih

a in b. MI je tudi iskanje po enojezični zbirki, če so

lahko iskalne zahteve v različnih jezikih.

8

Definicije MI

Enojezično ali istojezično iskanje (monolingual IR): Iskalna zahteva in poiskani dokumenti v zbirki

so v istem jeziku. Medjezično iskanje z enim delom svoje

definicije pokriva tudi enojezično iskanje.

9

Definicije MI

Najširši izraz je večjezično iskanje (multilingual IR), ki vključuje enojezično iskanje, medjezično iskanje, in iskanje dokumentov z deli v več jezikih.

Večjezične sisteme imenujemo tudi sisteme s pomnoženo enojezično funkcionalnostjo: ločene iskalne zahteve v različnih jezikih in priklic

dokumentov v teh jezikih.

10

Definicije MI

Ameriški zorni kot: medjezični sistemi so »sistemi, ki iskalcem

nudijo dokumente, ki jih ti ne znajo prebrati«.

11

Splošno o MI: IR vs. MI

Področji IR in MI imata mnogo skupnega: načine organiziranja dokumentov v zbirkah, metode avtomatskega indeksiranja, interpretiranje iskalnih zahtev, računanje relevantnosti dokumentov.

12

Splošno o MI: IR vs. MI

Med področji IR in MI obstaja bistvena razlika: klasični IR ne potrebuje prevajanja.

Vsak avtomatski postopek MI, ki ni vezan na ročno indeksiranje z večjezičnimi tezavri, vključuje neko vrsto računalniškega prevajanja.

13

Splošno o MI

Avtomatske metode medjezičnega iskanja

prevajanje iskalnih zahtev

kontroliran besednjak

naravni jezik

prevajanje dokumentov

popolni dokumenti zgoščeni opisi

formalizirano znanje korpusi

ontologije

tezavri

slovarji

poravnanebesede

poravnanistavki

poravnanidokumenti

vzporedni primerljivi tezavri kolokacij

14

Ontologije

Ontologija: predstavitev mreže ali hierarhije konceptov in

njihovih povezav

Tezaver: ontologija namenjena opisovanju in iskanju

dokumentov v kontroliranih pogojih

Dvojezični leksikon: ontologija namenjena strojnemu prevajanju

Dvojezični slovar: ontologija namenjena človeškemu prevajanju

15

MI z večjezičnim tezavrom

16

MI z večjezičnim tezavrom

Najstarejša oblika MI. Tezaver s prevodi konceptov v različne jezike. Ročno indeksiranje dokumenta v jezikih a, b, c

z deskriptorji v jezikih a, b, c. Iskanje z deskriptorji v jeziku a vrne

dokumente v jezikih a, b, c. Do 100% uspešnost v primerjavi z enojezičnim

iskanjem.

17

MI z večjezičnim tezavrom

Primer večjezičnega besednjaka:

EUROVOC: Večjezični tezaver, v katerem so vsa gesla

prevedena v 18 jezikov EU (+ hrvaščina, albanščina, bolgarščina, romunščina in ruščina).

Gesla pokrivajo področja, na katerih je aktivna EU.

Uporabljajo ga dokumentacijske službe vseh pomembnejših institucij EU, pri katerih nastajajo dokumenti, med drugim Evropski, nacionalni in regionalni partlamenti.

18

MI z večjezičnim tezavrom

Največja pomanjkljivost MI z večjezičnim tezavrom je cena ročnega indeksiranja.

Opravljeni zanimivi poskusi izrabe večjezičnih tezavrov za prevajanje iskalnih zahtev v naravnem jeziku.

Osnovna ideja: prevesti iskalne zahteve v naravnem jeziku v deskriptorje večjezičnega tezavra in izvesti MI.

19

MI z večjezičnim tezavrom

Primer: uporaba UMLS za MI s francoskimi in španskimi iskalnimi zahtevami v naravnem jeziku.

UMLS (Unified Medical Language System): “seštevek” 60+ tezavrov, osnova je MeSH (Medical Subject Headings).

Obstaja nekaj prevodov MeSH, vključenih v UMLS.

20

MI z večjezičnim specializiranim tezavrom

Povzetek postopka: Prevajanje francoskih in španskih iskalnih

zahtev v naravnem jeziku v francoske oz. španske prevode deskriptorjev MeSH.

Sestavljanje iskalne zahteve iz angleških ustreznic teh deskriptorjev.

Iskanje po zbirki Medline, ki je indeksirana z angleškimi deskriptorji.

21

MI z večjezičnim specializiranim tezavrom

Primer (nadaljevanje): Izbor francoskih (španskih) deskriptorjev v 3

korakih:1. izbrani enobesedni deskriptorji, ki so enaki

besedam iz iskalne zahteve,2. sestavljeni vsi možni pari preostalih besed in

izbrani dovolj podobni dvobesedni deskriptorji,3. za vsako besedo, preostalo po korakih 1 in 2

zbrani vsi deskriptorji, v katerih se pojavlja, poiskani njihovi angleški prevodi, angleški deskriptorji razbiti na besede, kot prevod v angleščino izbrana najfrekventnejša

beseda.

22

MI z večjezičnim specializiranim tezavrom

Primer (nadaljevanje): Uspešnost postopka, merjena kot %

natančnosti, ki bi jo dosegli z angleškimi deskriptorji, ki bi jih določil izkušen informacijski posrednik: španske iskalne zahteve – 71%, francoske iskalne zahteve – 61%.

Relativno uspešen poskus, vendar postopek omejen na specializirano ontologijo (MeSH) v relativno ozki domeni (medicina).

23

MI z računalniškim prevajanjem dokumentov

24

MI z računalniškim prevajanjem dokumentov

Dilema: prevajanje iskalnih zahtev ali prevajanje

dokumentov?

Prevajanje iskalnih zahtev: (teoretično) manjši računalniški napor, iskalec dobi rezultate v različnih jezikih, večji iskalčev napor pri razumevanju dokumentov.

25

MI z računalniškim prevajanjem dokumentov

Prevajanje dokumentov (v fazi gradnje zbirke) prevajanje vseh dokumentov v vse jezike

zbirke, iskanje je enojezično, uporabnik dobi dokumente v svojem jeziku, majhen iskalčev napor, velik (prevelik?)

računalniški napor.

26

MI z računalniškim prevajanjem dokumentov

Prevajanje dokumentov (po iskanju) prevajanje iskalnih zahtev, sledi medjezično

iskanje, iskalec je sposoben približnega razumevanja

dokumentov in odločanja o relevantnih dokumentih,

(varianta: sistem sposoben avtomatskega abstrahiranja in prevajanja zgoščene vsebine),

avtomatsko prevajanje najboljših relevantnih dokumentov,

prevodi se v sistemu kopičijo.

27

MI z računalniškim prevajanjem dokumentov

Eden redkih poskusov (Oard, 1998): Korpus 250.000 nemških dokumentov

računalniško preveden v angleščino. Iskanje z angleškimi iskalnimi zahtevami –

zelo velika natančnost. Za prevajanje porabljenih 10 procesorskih

mesecev na delovnih postajah Sun Sparc 20. Korpus relativno majhen in statičen – realnost

spleta, digitalnih knjižnic in števila jezikov je drugačna.

28

MI z računalniškim prevajanjem dokumentov

Konsenz srenje: računalniško prevajanje dokumentov je

prenaporno in prepočasno za zahteve MI. Zaenkrat je videti njegovo prihodnost le v

omejenih situacijah za prevajanje posameznih dokumentov.

29

MI s prevajanjem iskalnih zahtev

30

MI s prevajanjem iskalnih zahtev

Iskalna zahteva se z avtomatskimi postopki prevede v jezike dokumentov, potem sledi serija enojezičnih iskanj.

Na prvi pogled je pravo računalniško prevajanje iskalnih zahtev idealno tudi za potrebe MI, realnost je drugačna.

31

MI s prevajanjem iskalnih zahtev

Računalniško prevajanje temelji na metodah, kot so razčlenjevanje stavkov, označevanje besednih vrst, razreševanje dvoumnosti večpomenskih

(polisemih besed).

Cilj računalniškega prevajanja je generiranje sintaktično in semantično pravilnih

stavkov. Pri različnih prevodih besede se mora prevajalnik

odločiti le za enega.

32

MI s prevajanjem iskalnih zahtev

Računalniško prevajanje potrebuje dolge in pravilne besedilne strukture ter sobesedilo za ugotavljanje najverjetnejšega pomena besed.

Iskalne zahteve so kratka besedila, pogosto le zaporedja ključnih besed.

Uporaben rezultat prevajanja za potrebe MI so posamezne, nepovezane besede.

Različni prevodi besede so pogosto sinonimi in so zato lahko koristni v prevedeni iskalni zahtevi.

33

MI s prevajanjem iskalnih zahtev

Pravo računalniško prevajanje iskalnih zahtev uporabno le v redkih primerih: dolge, večstavčne iskalne zahteve, dokument kot iskalna zahteva in iskanje

najsorodnejših dokumentov v ciljnem jeziku.

top related