razumevanje naravnega jezika, tekst, kontekst

24
Razumevanje naravnega jezika, tekst, kontekst [email protected] AI urice IV

Upload: simon-belak

Post on 23-Jan-2015

1.158 views

Category:

Technology


8 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Razumevanje Naravnega Jezika, Tekst, Kontekst

Razumevanje naravnega jezika, tekst, kontekst

[email protected]

AI urice IV

Page 2: Razumevanje Naravnega Jezika, Tekst, Kontekst

Kaj pomeni pomen?

Page 3: Razumevanje Naravnega Jezika, Tekst, Kontekst

“Pomen je uporaba sama.”

– Wittgenstein

Page 4: Razumevanje Naravnega Jezika, Tekst, Kontekst

Od filozofije k nevroznanosti

Epizodičen spomin >>

• Konkreten dogodek• kontekst

• Hebbovo pravilo

semantičen spomin• Abstrakten koncept

Page 5: Razumevanje Naravnega Jezika, Tekst, Kontekst

Ozemljitev ali zakaj je mačka mačka

Page 6: Razumevanje Naravnega Jezika, Tekst, Kontekst

Ozemljitev

• Zunanji sklic– Čim komuniciramo prevajamo v prenosljivo

obliko

• Pomen gradimo sloj za slojem iz primitivnih izkustev

Page 7: Razumevanje Naravnega Jezika, Tekst, Kontekst

Pomen je uporaba

• Sopojavitve   krma kobilica krava

živina x   x

jadrnica x x  

travnik   x x

Page 8: Razumevanje Naravnega Jezika, Tekst, Kontekst

Od pomena k prostoru

Pomensko podobne besede blizu skupaj

Page 9: Razumevanje Naravnega Jezika, Tekst, Kontekst

Razdalja

• Kosinusnad = (/ (dot a b) (l2-norm a) (l2-norm b))

• Evklidskad = (sqrt (sum #’square (vector- a b)))

Page 10: Razumevanje Naravnega Jezika, Tekst, Kontekst

Problem: sopomenke

Rešitev: Latenten pomen

       

Izjemno x    

fantastično

  x x

odlično   x  

izvrstno x    

Page 11: Razumevanje Naravnega Jezika, Tekst, Kontekst

Latenten pomen

• Zmanjšanje dimenzionalnosti (kompresija)– Kategorije (ozemljitev)

• Sorodne besede se sesedejo v eno

Pomeni višjega reda (koncepti)

Page 12: Razumevanje Naravnega Jezika, Tekst, Kontekst

Z vsakim branjem vnašamo pomen

Page 13: Razumevanje Naravnega Jezika, Tekst, Kontekst

Praktični pomisleki

Page 14: Razumevanje Naravnega Jezika, Tekst, Kontekst

Obteževanje

Besede nosijo različno pomena:

vsaj v. dideskalije

• Stopwords

• Tf-idf

• Kurtoza

Page 15: Razumevanje Naravnega Jezika, Tekst, Kontekst

Stopwords

• Prepogoste besede

• Preredke besede

Page 16: Razumevanje Naravnega Jezika, Tekst, Kontekst

Tf-idf

(defun tf-idf (word document documents)

(* (/ (count word document)

(length document))

(/ (length documents)

(count (lambda (document)

(find word document)) documents)))

Page 17: Razumevanje Naravnega Jezika, Tekst, Kontekst

Kurtoza

(defun mean (xs) (/ (sum xs) (length xs)))

(defun central-moment (k xs) (/ (sum (lambda (x)

(expt (- x (mean xs)) k)) xs)(length xs))

(defun kurtosis (xs) (/ (central-moment 4 xs))

(expt (central-moment 2 xs) 2)))

Page 18: Razumevanje Naravnega Jezika, Tekst, Kontekst

Kurtoza = 7.6

Kurtoza = 1.4

Kurtoza = 5.1

Page 19: Razumevanje Naravnega Jezika, Tekst, Kontekst

Korenske oblike

• Sklon/spregatev, število, spol, velike/male črke

• Problem: včasih oblike niso enakomerno porazdeljene po vseh pomenih

Page 20: Razumevanje Naravnega Jezika, Tekst, Kontekst

Random Indexing

Page 21: Razumevanje Naravnega Jezika, Tekst, Kontekst

Ideja

• Beseda je vsota svojih kontekstov

• Kontekst je vsota svojih besed

Page 22: Razumevanje Naravnega Jezika, Tekst, Kontekst

Random indexing

Za vsak kontekst:

1. Nov indeks konteksta[epizodični

spomin]

2. Prištej indeks konteksta [Hebbovo

vsem besedam konteksta pravilo]

Page 23: Razumevanje Naravnega Jezika, Tekst, Kontekst

Indeks konteksta

• Visoko-dimenzionalen (> 1000)

• Naključen

• Redek

• Trojiški

• Skoraj pravokotni (ohranjanje razdalj)

Peščica naključno posejanih 1 in -1

Page 24: Razumevanje Naravnega Jezika, Tekst, Kontekst

Uporaba

• Primerjanje besed med sabo– Dopolnjevanje poizvedb

• Primerjanje teksta s tekstom– Grozdenje– Iskanje– Priporočila

• Primerjanje teksta in besede– Iskanje ključnih besed– Priporočanje tagov