classificació de sentiments: l’humor

33
Classificació de sentiments: L’humor Cristina España i Bonet 18 de desembre de 2006 __Processament del Llenguatge Natural per al Processament Massiu d'Informació Textual__

Upload: honora

Post on 12-Jan-2016

49 views

Category:

Documents


0 download

DESCRIPTION

Classificació de sentiments: L’humor. Cristina España i Bonet 18 de desembre de 2006 __Processament del Llenguatge Natural per al Processament Massiu d'Informació Textual__. Í NDEX. Què és l’humor... per a un ordinador? Reconeixement de one-liners (Refs. [1,2]) Corpus Mètodes - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Classificació de sentiments: L’humor

Classificació de sentiments:

L’humor

Cristina España i Bonet18 de desembre de 2006

__Processament del Llenguatge Natural per al Processament Massiu d'Informació

Textual__

Page 2: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________2

ÍNDEX

Què és l’humor... per a un ordinador?

Reconeixement de one-liners (Refs. [1,2])

Corpus

Mètodes

Resultats

Conclusions

Classificació d’acudits (Refs. [3,4])

Reconeixement de jocs de paraules

Conclusió

Referències

Page 3: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________3

ÍNDEX

Què és l’humor... per a un ordinador?

Reconeixement de one-liners

Corpus

Mètodes

Resultats

Conclusions

Classificació d’acudits

Reconeixement de jocs de paraules

Conclusió

Referències

Page 4: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________4

HUMOR

Definició

Facultat de descobrir i expressar elements còmics o absurdament incongruents en idees, situacions, esdeveniments, actes, etc...

Persona

Ordinador

Definició

Facultat de descobrir i expressar verbalment elements còmics (one-liners) o absurdament incongruents (knock-knock).

Page 5: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________5

HUMOR

Generació d’humor

(tasca més explorada)

Sistemes:

• JAPE

• HAHAcronym

Reconeixement automàtic d’humor

Massa genèric (complicat):

• acudits

• one-liners

• jocs de paraules

• acudits “knock, knock”

Tasca A Tasca B

Page 6: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________6

ÍNDEX

Què és l’humor... per a un ordinador?

Reconeixement de one-liners

Corpus

Mètodes

Resultats

Conclusions

Classificació d’acudits

Reconeixement de jocs de paraules

Conclusió

Referències

R. Mihalcea &

C. Strapparava

Page 7: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________7

ONE-LINERS

Què és un one-liner

Què no és un one-liner

Take my advice; I don’t use it anyway.

Característiques:

• frases curtes (<15 paraules)

• sintaxi simple

• ús de recursos estilístics

I believe no tales from an enemy’s tongue.

Estructures similars:

• refranys

• titulars

• proverbis

Page 8: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________8

ONE-LINERS: CORPUS

Exemples positius(bootstrap sobre el web)

• llavor: 10 one-liners

• 2 iter.: 24000 one-liners

• eliminació de duplicats:

16000 one-liners

• soroll: 9%

(inspecció manual 200)

Page 9: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________9

ONE-LINERS: CORPUS

Exemples negatius

Titulars de Reuters

Frases del British National

Corpus (BNC)

Proverbis extrets d’una

col·lecció online.

2006

Estructures similars

Page 10: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________10

ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE

S’han de buscar característiques significatives i “implementables”:

Al·literacions

Repetició d’estructura i fonètica per cridar l’atenció:

Veni, Vidi, Visa: I came, I saw, I did a little shopping.

Antonímia

Per expressar incongruències o contradiccions:

A clean desk is a sign of a cluttered desk drawer.

Argot (adult)

Per cridar l’atenció:

The sex was so good that even the neighbours had a cigarette.

Page 11: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________11

ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE

Com es troben a la pràctica?

Al·literacions

CMU Diccionari de pronúncia, comparació de cadenes.

També es troben en jocs de paraules, titulars o anuncis.

Antonímia

WordNet, relació d’antonímia.

No complet. A més, caldria desambiguar.

Argot (adult)

Lexicó extret de WordNetDomains, domini: sexuality.

No complet.

Page 12: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________12

ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE

Com es quantifiquen?

Cal definir un valor llindar per a cada recurs estilístic: per sobre d’ell el text serà humorístic per sota no.

El llindar s’aprèn automàticament:

Arbre de decisió aplicat sobre 1000 exemples.

(resultats similars amb més exemples)

Els resultats s’obtenen amb la resta d’exemples.

Page 13: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________13

ONE-LINERS MÈTODE 2: APRENENTATGE AMB CLASSIFICADORS

Donat el corpus amb exemples positius i negatius, aplicar un classificador:

Multinomial Naïve Bayes

En un conjunt de paraules independents, la probabilitat de pertànyer a una categoria és la probabilitat conjunta de paraules i categoria.

Support vector machines

El mínim marge màxim divideix l’espai de manera que separa els exemples positius dels negatius.

(Resultats: 10-fold CV)

Page 14: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________14

ONE-LINERS MÈTODE 3: COMBINACIÓ DELS ANTERIORS

Utilització d’un stacked learner per aprofitar els resultats dels dos mètodes anteriors:

Primera etapa d’aprenentatge: Utilització del classificador.

Crea un vector de característiques amb la sortida del classificador i els tres recursos estilístics.

Segona etapa d’aprenentatge: Utilització d’un sistema d’aprenentatge basat en memòria, per no perdre la informació de les característiques menys importants. (Timbl)

Page 15: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________15

L’al·literació és la característica més distintiva.

Els titulars són el més llunyà a un one-liner i els proverbis el més similar.

En la majoria de casos, una sola característica gairebé no millora el baseline (50%).

ONE-LINERS RESULTATS: HEURÍSTIQUES

Page 16: Classificació de sentiments: L’humor

One-linersMix

63.76%

Reconeixement d’humor en textos___________________________________________________________________16

Barrejant els exemples negatius s’obtenen resultats propers als del BNC.

Dificultar el problema (més exemples negatius que positius) encara millora els resultats (però baseline més alt).

ONE-LINERS RESULTATS: HEURÍSTIQUES

No:75% Si:25% 87.49% 77.62% 76.20%

Page 17: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________17

ONE-LINERS RESULTATS: CLASSIFICADORS

Millores significatives respecte a les característiques estilístiques.

Els titulars són el més llunyà a un one-liner i els textos del BNC el més similar.

Millora especial en els proverbis: similars estilísticament, però amb continguts diferents.

Page 18: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________18

ONE-LINERS RESULTATS: CLASSIFICADORS

Amb els mateixos nous experiments que per als recursos estilístics s’observen les mateixes tendències:

Barrejant els exemples negatius s’obtenen resultats propers als del BNC.

Dificultar el problema encara millora els resultats amb un classificador Naïve Bayes.

One-linersMix

77.82%79.23%

No:75% Si:25% 96.19% 81.56% 87.86%

Page 19: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________19

ONE-LINERS RESULTATS: CLASSIFICADORS

Reuters

Proverbis

BNC

Corbes d’aprenentatge

Excepte per BNC, NB dóna resultats lleugerament millors a SVM.

Amb el 60% d’exemples (104 + 104) ja es deixa d’aprendre.

No és important ampliar el conjunt d’exemples, potser reduir el soroll.

Page 20: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________20

ONE-LINERS RESULTATS: COMBINACIÓ

Combination

+1 +2 +0

Page 21: Classificació de sentiments: L’humor

Reconeixement d’humor en textos___________________________________________________________________21

ONE-LINERS CONCLUSIONS

En general, i contra els exemples negatius triats aquí, la classificació automàtica de one-liners és força efectiva.

El número d’exemples del corpus és més que suficient (corba d’aprenentatge): millor centrar-se amb les característiques i reduir el soroll.

Al contrari del que pressuposaven els autors, el més difícil és diferenciar-los del text genèric (BNC).

Manera de triar les frases?

Els classificadors donen molt millors resultats que els recursos estilístics triats.

La millora amb la combinació dels dos mètodes és estadísticament significativa.

Page 22: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________22

ÍNDEX

Què és l’humor... per a un ordinador?

Reconeixement de one-liners

Corpus

Mètodes

Resultats

Conclusions

Classificació d’acudits

Reconeixement de jocs de paraules

Conclusió

Referències

J.M. Taylor &

L.J. Mazlack

Page 23: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________23

ACUDITS

Què és un acudit?

Part I: Preparació (setup) Interpretació I

Part II: Conclusió (punchline) Interpretació II

Interpretació I ≠ Interpretació II

Jocs de paraules

Acudits amb paraules amb la mateixa pronunciació i/o escriptura:

Diane: I want to go to Tibet on our honeymoon.

Sam: Of course, we’ll go to bed.

Page 24: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________24

ACUDITS: RECONEIXEMENT FORMAT I

Acudits amb una pregunta com a setup i el punchline com a resposta.

Infermera: Can I get your weight today? WEIGHT

Pacient: Three hours and twelve minutes. WAIT

Algoritme de reconeixement:

1r Validació del format anterior.

2n Buscar paraules/anotacions semàntiques ortogràficament similars:

LCSR = Longitud subcadena comú / longitud cadena més llargaLCSR = l(we) / l(weight) = 0.33 (twelve vs. weight)

: : LCSR = l(wit) / l(weight) = 0.50 (wait vs. weight)

Page 25: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________25

ACUDITS: RECONEIXEMENT FORMAT I

3r Parella amb major similitud: Substitució de sons per passar d’una a l’altra.

3a. Si el pas és possible 4t.

3b. Si no Provar amb la següent millor similitud.

4t Substituir el joc de paraules trobat al setup.

5è Verificació sintàctica: Ús d’un parser.

n arbres sintàctics per al setup

6è Verificació semàntica per a cada arbre: Ús d’ontologies, CycL.

Sortida: Almenys 1 arbre no entra en conflicte semàntic amb el punchline ACUDIT

Page 26: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________26

ACUDITS RECONEIXEMENT FORMAT I: RESULTATS

?

Page 27: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________27

ACUDITS: RECONEIXEMENT FORMAT II

Acudits amb l’estructura Knock-Knock:

Acudit en forma de diàleg amb un joc de paraules en el punchline. Estructura:

Linia1: “Knock, Knock”

Linia2: “Who’s there?”

Linia3: resposta3

Linia4: Linia3 + “who?”

Linia5: punchline (joc de paraules)

Knock, Knock

Who’s there?

Justin

Justin who?

Just in time for dinner.

Page 28: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________28

ACUDITS: RECONEIXEMENT FORMAT II

Algoritme de reconeixement:

1r Validació del format anterior.

2n Generació de jocs de paraules amb Linia3.

Donada una paraula A, reemplaçar sons (taula de Frish) fins a arribar a B.

Es calcula la similitud per cada B trobada i s’ordenen.

Se separa per paraules i s’agafa la 1a cadena que tingui sentit.

3r Construcció d’una base de dades amb una taula de bi/trigrames:

Es trien textos amb el joc de paraules i les dues paraules següents del punchline.

S’introdueix a la taula totes les parelles/trios d’aquests texts.

Page 29: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________29

ACUDITS: RECONEIXEMENT FORMAT II

4t Validació de la seqüència de jocs de paraules en el context.

Taula de bigrames: S’agafa la sortida del generador, se separa en paraules i es mira d’una amb una i amb la següent si la combinació surt a la BD.

5è Validació del joc de paraules amb el punchline.

Taula de trigrames: Es busca wp1,wp2,punch1 a la BD.

Taula de trigrames: Es busca wpf,punch1,punch2 a la BD.

Sortida: Es troba wp1,wp2,punch1 i wpf,punch1,punch2

ACUDIT

Page 30: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________30

ACUDITS RECONEIXEMENT FORMAT II: RESULTATS

El corpus:

Set d’entrenament: 66 acudits KK. A partir d’aquests es busquen els textos per generar les taules de bi/trigrames.

Taula de similitud ampliada per incloure tots els casos.

Set de test: 130 acudits KK i 65 diàlegs amb estructura similar.

Els números:

85/130 jocs de paraules reconeguts: 65,38%

17/130 (17/122) KK identificats: 13,08% (13,93%)

62/65 no acudits reconeguts: 95,38%

Total: 79/195 40,51% << baseline!

Page 31: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________31

ÍNDEX

Què és l’humor... per a un ordinador?

Reconeixement de one-liners

Corpus

Mètodes

Resultats

Conclusions

Classificació d’acudits

Reconeixement de jocs de paraules

Conclusió

Referències

Page 32: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________32

CONCLUSIONS

Detectar humor genèricament és una tasca inabordable.

Aquí s’han comentat 2 aproximacions:

Els one-liners es detecten amb una precisió de fins al 96% més gràcies al seu contingut que a les característiques estilístiques.

Els jocs de paraules es poden generar per intercanvis de sons amb un èxit moderat i detectar-se mitjançant bigrames amb un 65,38%.

El resultats d’acudits basats en jocs de paraules són, per contra, molt dolents (13,93%) a l’espera dels resultats d’un nou mètode no basat en n-grames.

Aquestes tasques concretes s’estan aplicant amb èxit a algunes aplicacions. Ex: Introducció d’un one-liner al final d’un mail.

Page 33: Classificació de sentiments: L’humor

Reconeixement d’humor en textos__________________________________________________________________33

REFERÈNCIES

[1] R. Mihalcea, C. Strapparava. Making Computers Laugh: Investigations in Automatic Humor Recognition. Proceedings of the Joint Conference on Human Language Technology / Empirical Methods in Natural Language Processing (HLT/EMNLP), Vancouver, October, 2005.

[2] R. Mihalcea, C. Strapparava. Technologies That Make You Smile: Adding Humor to Text-Based Applications. IEEE Intelligent Systems, October, 2006, Vol. 21, No. 5, P. 33.

[3] J.M. Taylor, L.J. Mazlack. Computationally Recognizing Wordplay In Jokes. Cognitive Science Conference Proceedings (CogSci 2004), August, 2004, Chicago, 1315-1320.

[4] J.M. Taylor, L.J. Mazlack. Toward Computational Recognition of Humorous Intent. Cognitive Science Conference 2005 Proceedings (CogSci 2005), Stresa, Italy, July, 2005, 2166-2171.