semântica e similaridade de palavras: parte...

57
1 Semântica e similaridade de palavras: Parte I MCZA017-13 Processamento de Linguagem Natural Prof. Jesús P. Mena-Chalco [email protected] 1Q-2018

Upload: trinhkhue

Post on 29-Nov-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

  • 1

    Semntica e similaridade de palavras:Parte I

    MCZA017-13Processamento de Linguagem Natural

    Prof. Jess P. [email protected]

    1Q-2018

    mailto:[email protected]

  • 2

    Bibliografia

    Daniel Jurafsky & James H. Martin.Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Pearson/Prentice Hall.

    University of Colorado, Boulder

    Stanford University

    2000 2009

    2019?

  • 3

    Bibliografia Captulo 15

    https://web.stanford.edu/~jurafsky/slp3/

    https://web.stanford.edu/~jurafsky/slp3/

  • 4

    Cinco definies importantes sobre significado de palavras

  • 5

    Da aula 04: Stemming x Lemmatization

    Stemming (a ao de reduzir em stems)Stem: Parte de uma palavraStemmer: O artefato (programa)

    Lemmatization (a ao de reduzir em Lemmas)Lemma: Forma bsica da palavraLemmatizer: O artefato (programa)

    Produc

    Produce

    Produced

  • 6

    Lemma e Wordform

    Lemma: a forma bsica da palavra.

    Wordform: uma palavra com inflexo.

    wordform Lemma

    Banks Bank

    Sung Sing

    Durmiu dormir

    Bancos Banco

  • 7

    Diferentes significados?

    Um determinado lemma pode ter significados diferentes.

  • 8

    Diferentes significados?

    Um determinado lemma pode ter significados diferentes.

    Exemplo:

    um banco pode manter investimentos dos correntistas ...

    os mtodos implementados em um banco de dados...

    trocaram de cor o banco de madeira ...

  • 9

    1) Homnimos

    So palavras que compartilham a mesma forma mas com significados diferentes (origens diferentes).

    Banco: Instituio financeira.Banco: Artefato para armazenamento de dados. Banco: Assento.

    Homnimos podem ser:Homgrafos, i.e., mesma forma de escrita (banco/banco)Homfonos, i.e., mesma forma de fala (Concerto/conserto)

  • 10

    Homnimos criam problemas em PLN

    Em recuperao de informaobanco quebrado (a instituio ou o assento?)

    Em traduo de textosbat: morcego

    bat: basto

    Em aplicaes text-to-speech (a pronuncia diferente)bass (instumento musical)

    bass (peixe)

  • 11

    2) Polissemia (muitos significados)

    a propriedade de uma palavra tem de apresentar vrios significados.

    Uma palavra polissmica tem significados relacionados. (origens similares):

    Letra: Elemento bsico de um alfabeto.Letra: Texto de uma cano.Letra: Caligrafia de uma determinado indivduo.

  • 12

    Relaes sistemticas (metonmia)

    Muitos tipos de polissemia so sistemticos:

    RdioUniversidadeEscolaHospital

    Prdio Organizao

  • 13

    Relaes sistemticas (metonmia)

    Muitos tipos de polissemia so sistemticos:

    RdioUniversidadeEscolaHospital

    Outros tipos de relaes sistemticas:

    Eu amo J. K. RowlingEu amo (as obras de) J. K. Rowling

    Maracuj tem lindas floresOntem experimentei maracuj

    Prdio Organizao

    Autor Trabalhos de autorAutor Trabalhos de autor

    rvore Fruto

  • 14

    Como determinar se uma palavra tem mais de um significado?

    Usando o teste Zeugma (figura de linguagem ou estilo)

    ... construir uma universidade de mrmore pedir universidade de Joo ...

  • 15

    Como determinar se uma palavra tem mais de um significado?

    Usando o teste Zeugma (figura de linguagem ou estilo)

    ... construir uma universidade de mrmore pedir universidade de Joo ...

    Teste:Se a construo no faz sentido (coerente), provavelmente a palavra seja polissmica: construir uma universidade de mrmore e de Joo?

  • 16

    3) Sinnimos

    Palavras que tem o mesmo significado em alguns ou todos os contextos.

    Caderno CadernetaCarro AutomvelSof DivAgua H2OComputador PC

    Duas palavras so sinnimas se:Ambas podem ser substitudas em todas as situaes.Ambas tm o mesmo significado proposicional.

  • 17

    4) Antnimos

    Palavras que tem significado oposto em relao a uma caracterstica.

    escuro claroquente friocurto longopara cima para baixorpido lento

  • 18

    5) Hiponmia e Hiperonmia

    Indicam relao hierarquica de significados entre palavras.

    Uma palavra A hiponmia de B, se o significado de A mais especfico que B:

    Carro uma hiponmia de AutomvelSandlia uma hiponmia de Calado

    Se modo inverso:Automvel uma hiperonmia de CarroCalado uma hiperonmia de Sandlia

    sub super

  • 19

    Wordnet:Um repositrio (tesauro) muito til em PLN

  • 20

    Wordnet wordnet.princeton.edu

    A Wordnet uma base de dados (1985) usada na rea de lingustica computacional, em ingls.

    Wordnet est organizado em base de relaes (hierarquicas).

    Usado para desambiguar o significado das palavras.

    Verso 3.0, contem mais substantivos

  • 21

  • 22

  • 23

    Synset = Synonym set

    um conjunto de sinnimos (prximos) a uma palavra

  • 24

    Synset = Synonym set

    Hierarquia de hiperonomios

  • 25

    Wordnet diferentes iniciativas

    http://www.globalwordnet.org/gwa/wordnet_table.html

    http://www.globalwordnet.org/gwa/wordnet_table.html

  • 26

    Wordnet em portugus

    http://wnpt.brlcloud.com/wn/search?term=banana

    http://wnpt.brlcloud.com/wn/search?term=banana

  • 27

    Similaridade entre palavra?

  • 28

    Similaridade entre palavras

    Duas palavras so similares se ambas compartilham o mesmo significado.

    As palavras similares mantem uma relao de significado.

    Instituio financeira:

    Banco similar a fundo

    Objeto:

    Caderno similar a caderneta

  • 29

    Porque importante avaliar similaridade?

    A similaridade de palavras pode ser til em diferentes tipos de aplicaes, como por exemplo:

    Recuperao de Informao (IR)

    Busca por elementos similares

    Deteco de plgio

    Busca por regies similares

    Agrupamento de textos

    Busca por conjuntos de textos similares

  • 30

    Porque importante avaliar similaridade?

  • 31

    Similaridade entre palavras e palavras correlatas

    Verso mais flexvel:

    A similaridade entre palavras pode ser estimadada por uma medida de proximidade de significado: Quase sinnimos

    Carro similar a Bicicleta

    Exemplo de palavras correlatas:

    Carro est relacionado com Gasolina

  • 32

    Algoritmos

    Duas abordagens para identificar similaridade entre palavras:

    (1) Algoritmos baseados em tesauro:

    Duas palavras so similares se uma hiponmia de outra

    Carro uma hiponmia de AutomvelSandlia uma hiponmia de Calado

    Ou se compartilham a mesma definio (gloss)

  • 33

    Algoritmos

    Duas abordagens para identificar similaridade entre palavras:

    (2) Algoritmos baseados em distribuio de palavras:

    No precisam de um tesauro, mas de um corpus grande no qual sejam evidenciados diferentes pares de palavras...

  • 34

    (1) Algoritmos de similaridade de palavrasbasedos em tesauro(s)

  • 35

    Similaridade usando tesauro

    Denomiado de path based similarity:

    Duas palavras so similares se ambas esto na mesma hierarquia (ou bem prximas).

    Pensamento computacional:

    distncia do menor caminho entre eles.

    Assumindo que as palavras tem comprimento igual a 1 para si mesmos

  • 36

    Formalizando as medidas

    Pathlen(c1, c2) = 1 + comprimento do caminho entre c1 e c2 na rvore de hiponmia.

  • 37

    Exemplo

  • 38

    Problema

    Podemos discutir um problema dessa abordagem:

    Assumimos que cada aresta representa distncia uniforme.

    simpath(nickel, money) == simpath(nickel, standard)

    Os vrtices em hierarquias

    superiores so mais

    abstratos!

  • 39

    Problema

    Podemos discutir um problema dessa abordagem:

    Assumimos que cada aresta representa distncia uniforme.

    simpath(nickel, money) == simpath(nickel, standard)

    Os vrtices em hierarquias

    superiores so mais

    abstratos!

    Palavras conectadas porum vrtice abstrado deveriam ser

    menos similares

    Deveria ser possvel representar o custo decada aresta de forma independente

  • 40

    Contornando o problema

    Utiliza um corpus para captar da melhor forma a distncia entre 2 conceitos ou 2 palavras

  • 41

    Contornando o problema

    Utiliza um corpus para captar da melhor forma a distncia entre 2 conceitos ou 2 palavras

    1988

  • 42

    Contornando o problema

  • 43

    Interfaces

    NLTK oferece mtodos para calculo de similaridade de palavras baseada em wordnet.

    Por outro lado existem outras iniciativas on line:

    http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi

    http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi

  • 44

    Interfaces

  • 45

    (2) Algoritmos de similaridade de palavrasbasedos em distribuio de palavras

    Porque?

  • 46

    Por que necessrio este tipo de abordagem?

    As mtricas apresentadas nos slides anteriores so dependentes de um tesauro.

    Dependem da completude das palavras (dicionrio), ie. no so flexveis.

    No Tesauro algumas relaes no esto representadas.

    Adjetivos e verbos so menos representados nos tesauros:

    Wordnet Verso 3.0, contem mais substantivos

  • 47

    Por que necessrio este tipo de abordagem?

    A semantica muda/evolue ao longo do tempo

  • 48

    Abordagem baseada em distribuio de palavras

    Obras similares esto geralmente prximas

    Em PLN:

    Palavras que esto em contextos similares, tendem a ser semanticamente similares

  • 49

    Abordagem baseada em distribuio de palavras

    Na literatura isso conhecido como:

    Distributional semantics.

    Vector semantics.

    O significado de uma palavra calculada a partir da distribuio de palavras que ao redor dela.

    As palavras so representadas como um vetor de nmeros.

  • 50

    Abordagem baseada em distribuio de palavras

  • 51

    Abordagem baseada em distribuio de palavras

    Podemos no saber o que tesguino (certamente no estar presente em algum tesauro), mas pelo contexto podemos intuir que trata-se de uma bebida alcolica.

    --> Duas palavras sero similares se ambas esto em contextos similares.

  • 52

    Matriz: termo-documento

  • 53

    Matriz: termo-documento

  • 54

    Matriz: termo-documento

  • 55

    Matriz: termo-documento

  • 56

    Agrupamento hierarquico

  • 57

    Capturar significa relacional

    First Slide ExampleSlide 2Slide 3Slide 4Slide 5Slide 6Slide 7Slide 8Slide 9Slide 10Slide 11Slide 12Slide 13Slide 14Slide 15Slide 16Slide 17Slide 18Slide 19Slide 20Slide 21Slide 22Slide 23Slide 24Slide 25Slide 26Slide 27Slide 28Slide 29Slide 30Slide 31Slide 32Slide 33Slide 34Slide 35Slide 36Slide 37Slide 38Slide 39Slide 40Slide 41Slide 42Slide 43Slide 44Slide 45Slide 46Slide 47Slide 48Slide 49Slide 50Slide 51Slide 52Slide 53Slide 54Slide 55Slide 56Slide 57