razumevanje naravnega jezika, tekst, kontekst
DESCRIPTION
TRANSCRIPT
Kaj pomeni pomen?
“Pomen je uporaba sama.”
– Wittgenstein
Od filozofije k nevroznanosti
Epizodičen spomin >>
• Konkreten dogodek• kontekst
• Hebbovo pravilo
semantičen spomin• Abstrakten koncept
Ozemljitev ali zakaj je mačka mačka
Ozemljitev
• Zunanji sklic– Čim komuniciramo prevajamo v prenosljivo
obliko
• Pomen gradimo sloj za slojem iz primitivnih izkustev
Pomen je uporaba
• Sopojavitve krma kobilica krava
živina x x
jadrnica x x
travnik x x
Od pomena k prostoru
Pomensko podobne besede blizu skupaj
Razdalja
• Kosinusnad = (/ (dot a b) (l2-norm a) (l2-norm b))
• Evklidskad = (sqrt (sum #’square (vector- a b)))
Problem: sopomenke
Rešitev: Latenten pomen
Izjemno x
fantastično
x x
odlično x
izvrstno x
Latenten pomen
• Zmanjšanje dimenzionalnosti (kompresija)– Kategorije (ozemljitev)
• Sorodne besede se sesedejo v eno
Pomeni višjega reda (koncepti)
Z vsakim branjem vnašamo pomen
Praktični pomisleki
Obteževanje
Besede nosijo različno pomena:
vsaj v. dideskalije
• Stopwords
• Tf-idf
• Kurtoza
Stopwords
• Prepogoste besede
• Preredke besede
Tf-idf
(defun tf-idf (word document documents)
(* (/ (count word document)
(length document))
(/ (length documents)
(count (lambda (document)
(find word document)) documents)))
Kurtoza
(defun mean (xs) (/ (sum xs) (length xs)))
(defun central-moment (k xs) (/ (sum (lambda (x)
(expt (- x (mean xs)) k)) xs)(length xs))
(defun kurtosis (xs) (/ (central-moment 4 xs))
(expt (central-moment 2 xs) 2)))
Kurtoza = 7.6
Kurtoza = 1.4
Kurtoza = 5.1
Korenske oblike
• Sklon/spregatev, število, spol, velike/male črke
• Problem: včasih oblike niso enakomerno porazdeljene po vseh pomenih
Random Indexing
Ideja
• Beseda je vsota svojih kontekstov
• Kontekst je vsota svojih besed
Random indexing
Za vsak kontekst:
1. Nov indeks konteksta[epizodični
spomin]
2. Prištej indeks konteksta [Hebbovo
vsem besedam konteksta pravilo]
Indeks konteksta
• Visoko-dimenzionalen (> 1000)
• Naključen
• Redek
• Trojiški
• Skoraj pravokotni (ohranjanje razdalj)
Peščica naključno posejanih 1 in -1
Uporaba
• Primerjanje besed med sabo– Dopolnjevanje poizvedb
• Primerjanje teksta s tekstom– Grozdenje– Iskanje– Priporočila
• Primerjanje teksta in besede– Iskanje ključnih besed– Priporočanje tagov