semântica e similaridade de palavras: parte...
TRANSCRIPT
-
1
Semntica e similaridade de palavras:Parte I
MCZA017-13Processamento de Linguagem Natural
Prof. Jess P. [email protected]
1Q-2018
mailto:[email protected]
-
2
Bibliografia
Daniel Jurafsky & James H. Martin.Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Pearson/Prentice Hall.
University of Colorado, Boulder
Stanford University
2000 2009
2019?
-
3
Bibliografia Captulo 15
https://web.stanford.edu/~jurafsky/slp3/
https://web.stanford.edu/~jurafsky/slp3/
-
4
Cinco definies importantes sobre significado de palavras
-
5
Da aula 04: Stemming x Lemmatization
Stemming (a ao de reduzir em stems)Stem: Parte de uma palavraStemmer: O artefato (programa)
Lemmatization (a ao de reduzir em Lemmas)Lemma: Forma bsica da palavraLemmatizer: O artefato (programa)
Produc
Produce
Produced
-
6
Lemma e Wordform
Lemma: a forma bsica da palavra.
Wordform: uma palavra com inflexo.
wordform Lemma
Banks Bank
Sung Sing
Durmiu dormir
Bancos Banco
-
7
Diferentes significados?
Um determinado lemma pode ter significados diferentes.
-
8
Diferentes significados?
Um determinado lemma pode ter significados diferentes.
Exemplo:
um banco pode manter investimentos dos correntistas ...
os mtodos implementados em um banco de dados...
trocaram de cor o banco de madeira ...
-
9
1) Homnimos
So palavras que compartilham a mesma forma mas com significados diferentes (origens diferentes).
Banco: Instituio financeira.Banco: Artefato para armazenamento de dados. Banco: Assento.
Homnimos podem ser:Homgrafos, i.e., mesma forma de escrita (banco/banco)Homfonos, i.e., mesma forma de fala (Concerto/conserto)
-
10
Homnimos criam problemas em PLN
Em recuperao de informaobanco quebrado (a instituio ou o assento?)
Em traduo de textosbat: morcego
bat: basto
Em aplicaes text-to-speech (a pronuncia diferente)bass (instumento musical)
bass (peixe)
-
11
2) Polissemia (muitos significados)
a propriedade de uma palavra tem de apresentar vrios significados.
Uma palavra polissmica tem significados relacionados. (origens similares):
Letra: Elemento bsico de um alfabeto.Letra: Texto de uma cano.Letra: Caligrafia de uma determinado indivduo.
-
12
Relaes sistemticas (metonmia)
Muitos tipos de polissemia so sistemticos:
RdioUniversidadeEscolaHospital
Prdio Organizao
-
13
Relaes sistemticas (metonmia)
Muitos tipos de polissemia so sistemticos:
RdioUniversidadeEscolaHospital
Outros tipos de relaes sistemticas:
Eu amo J. K. RowlingEu amo (as obras de) J. K. Rowling
Maracuj tem lindas floresOntem experimentei maracuj
Prdio Organizao
Autor Trabalhos de autorAutor Trabalhos de autor
rvore Fruto
-
14
Como determinar se uma palavra tem mais de um significado?
Usando o teste Zeugma (figura de linguagem ou estilo)
... construir uma universidade de mrmore pedir universidade de Joo ...
-
15
Como determinar se uma palavra tem mais de um significado?
Usando o teste Zeugma (figura de linguagem ou estilo)
... construir uma universidade de mrmore pedir universidade de Joo ...
Teste:Se a construo no faz sentido (coerente), provavelmente a palavra seja polissmica: construir uma universidade de mrmore e de Joo?
-
16
3) Sinnimos
Palavras que tem o mesmo significado em alguns ou todos os contextos.
Caderno CadernetaCarro AutomvelSof DivAgua H2OComputador PC
Duas palavras so sinnimas se:Ambas podem ser substitudas em todas as situaes.Ambas tm o mesmo significado proposicional.
-
17
4) Antnimos
Palavras que tem significado oposto em relao a uma caracterstica.
escuro claroquente friocurto longopara cima para baixorpido lento
-
18
5) Hiponmia e Hiperonmia
Indicam relao hierarquica de significados entre palavras.
Uma palavra A hiponmia de B, se o significado de A mais especfico que B:
Carro uma hiponmia de AutomvelSandlia uma hiponmia de Calado
Se modo inverso:Automvel uma hiperonmia de CarroCalado uma hiperonmia de Sandlia
sub super
-
19
Wordnet:Um repositrio (tesauro) muito til em PLN
-
20
Wordnet wordnet.princeton.edu
A Wordnet uma base de dados (1985) usada na rea de lingustica computacional, em ingls.
Wordnet est organizado em base de relaes (hierarquicas).
Usado para desambiguar o significado das palavras.
Verso 3.0, contem mais substantivos
-
21
-
22
-
23
Synset = Synonym set
um conjunto de sinnimos (prximos) a uma palavra
-
24
Synset = Synonym set
Hierarquia de hiperonomios
-
25
Wordnet diferentes iniciativas
http://www.globalwordnet.org/gwa/wordnet_table.html
http://www.globalwordnet.org/gwa/wordnet_table.html
-
26
Wordnet em portugus
http://wnpt.brlcloud.com/wn/search?term=banana
http://wnpt.brlcloud.com/wn/search?term=banana
-
27
Similaridade entre palavra?
-
28
Similaridade entre palavras
Duas palavras so similares se ambas compartilham o mesmo significado.
As palavras similares mantem uma relao de significado.
Instituio financeira:
Banco similar a fundo
Objeto:
Caderno similar a caderneta
-
29
Porque importante avaliar similaridade?
A similaridade de palavras pode ser til em diferentes tipos de aplicaes, como por exemplo:
Recuperao de Informao (IR)
Busca por elementos similares
Deteco de plgio
Busca por regies similares
Agrupamento de textos
Busca por conjuntos de textos similares
-
30
Porque importante avaliar similaridade?
-
31
Similaridade entre palavras e palavras correlatas
Verso mais flexvel:
A similaridade entre palavras pode ser estimadada por uma medida de proximidade de significado: Quase sinnimos
Carro similar a Bicicleta
Exemplo de palavras correlatas:
Carro est relacionado com Gasolina
-
32
Algoritmos
Duas abordagens para identificar similaridade entre palavras:
(1) Algoritmos baseados em tesauro:
Duas palavras so similares se uma hiponmia de outra
Carro uma hiponmia de AutomvelSandlia uma hiponmia de Calado
Ou se compartilham a mesma definio (gloss)
-
33
Algoritmos
Duas abordagens para identificar similaridade entre palavras:
(2) Algoritmos baseados em distribuio de palavras:
No precisam de um tesauro, mas de um corpus grande no qual sejam evidenciados diferentes pares de palavras...
-
34
(1) Algoritmos de similaridade de palavrasbasedos em tesauro(s)
-
35
Similaridade usando tesauro
Denomiado de path based similarity:
Duas palavras so similares se ambas esto na mesma hierarquia (ou bem prximas).
Pensamento computacional:
distncia do menor caminho entre eles.
Assumindo que as palavras tem comprimento igual a 1 para si mesmos
-
36
Formalizando as medidas
Pathlen(c1, c2) = 1 + comprimento do caminho entre c1 e c2 na rvore de hiponmia.
-
37
Exemplo
-
38
Problema
Podemos discutir um problema dessa abordagem:
Assumimos que cada aresta representa distncia uniforme.
simpath(nickel, money) == simpath(nickel, standard)
Os vrtices em hierarquias
superiores so mais
abstratos!
-
39
Problema
Podemos discutir um problema dessa abordagem:
Assumimos que cada aresta representa distncia uniforme.
simpath(nickel, money) == simpath(nickel, standard)
Os vrtices em hierarquias
superiores so mais
abstratos!
Palavras conectadas porum vrtice abstrado deveriam ser
menos similares
Deveria ser possvel representar o custo decada aresta de forma independente
-
40
Contornando o problema
Utiliza um corpus para captar da melhor forma a distncia entre 2 conceitos ou 2 palavras
-
41
Contornando o problema
Utiliza um corpus para captar da melhor forma a distncia entre 2 conceitos ou 2 palavras
1988
-
42
Contornando o problema
-
43
Interfaces
NLTK oferece mtodos para calculo de similaridade de palavras baseada em wordnet.
Por outro lado existem outras iniciativas on line:
http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi
http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi
-
44
Interfaces
-
45
(2) Algoritmos de similaridade de palavrasbasedos em distribuio de palavras
Porque?
-
46
Por que necessrio este tipo de abordagem?
As mtricas apresentadas nos slides anteriores so dependentes de um tesauro.
Dependem da completude das palavras (dicionrio), ie. no so flexveis.
No Tesauro algumas relaes no esto representadas.
Adjetivos e verbos so menos representados nos tesauros:
Wordnet Verso 3.0, contem mais substantivos
-
47
Por que necessrio este tipo de abordagem?
A semantica muda/evolue ao longo do tempo
-
48
Abordagem baseada em distribuio de palavras
Obras similares esto geralmente prximas
Em PLN:
Palavras que esto em contextos similares, tendem a ser semanticamente similares
-
49
Abordagem baseada em distribuio de palavras
Na literatura isso conhecido como:
Distributional semantics.
Vector semantics.
O significado de uma palavra calculada a partir da distribuio de palavras que ao redor dela.
As palavras so representadas como um vetor de nmeros.
-
50
Abordagem baseada em distribuio de palavras
-
51
Abordagem baseada em distribuio de palavras
Podemos no saber o que tesguino (certamente no estar presente em algum tesauro), mas pelo contexto podemos intuir que trata-se de uma bebida alcolica.
--> Duas palavras sero similares se ambas esto em contextos similares.
-
52
Matriz: termo-documento
-
53
Matriz: termo-documento
-
54
Matriz: termo-documento
-
55
Matriz: termo-documento
-
56
Agrupamento hierarquico
-
57
Capturar significa relacional
First Slide ExampleSlide 2Slide 3Slide 4Slide 5Slide 6Slide 7Slide 8Slide 9Slide 10Slide 11Slide 12Slide 13Slide 14Slide 15Slide 16Slide 17Slide 18Slide 19Slide 20Slide 21Slide 22Slide 23Slide 24Slide 25Slide 26Slide 27Slide 28Slide 29Slide 30Slide 31Slide 32Slide 33Slide 34Slide 35Slide 36Slide 37Slide 38Slide 39Slide 40Slide 41Slide 42Slide 43Slide 44Slide 45Slide 46Slide 47Slide 48Slide 49Slide 50Slide 51Slide 52Slide 53Slide 54Slide 55Slide 56Slide 57