pedersen acl disco-2011 workshop

Download Pedersen ACL Disco-2011 workshop

If you can't read please download the document

Upload: university-of-minnesota-duluth

Post on 16-Apr-2017

647 views

Category:

Education


1 download

TRANSCRIPT

Identifying Collocations
to Measure Compositionality : Shared Task System Description

Ted PedersenDepartment of Computer ScienceUniversity of Minnesota, Duluthhttp://www.d.umn.edu/~tpederse

My original intent...

Cluster contexts that contain the candidate pair

Identify the number of clusters automatically http://senseclusters.sourceforge.net

If a small number of clusters found...A single underlying meaning exists

Non-compositional!

If a larger number of clusters found No systematic underlying meaning

compositional

Revised Idea

Methods that identify collocations often claim that what they find are non-compositional, or interesting in some way

The Duluth systems seek to evaluate that claim by using various measures of association commonly employed to identify collocationsText::NSP the Ngram Statistics Package

http://ngram.sourceforge.net

Hypothesis #1

An ngram that has a high score according to a measure of association (for identifying collocations) will be less compositional (and less literal) than those that have lower scoresNote that the hypothesis is stated in relative terms, not absolute

Well suited for shared task

Measures of Association

Log-likelihood ratio (ll)

Mutual Information (tmi)

Pearson's chi-squared test (x2)

Pointwise Mutual Information (pmi)

Poisson-Stiring (ps)

Fisher's Exact Test (leftFisher)

Jaccard Coefficient (jaccard)

Odds Ratio (odds)

Dice Coefficient (dice)

T-score (tscore)

Measures of Association

In general these compare the frequency of a word or pair of words with an expected value based on the assumption of independencep(w1,w2) = p(w1)*p(w2) ??

If the frequency of a word or pair of words is about what would be expected if they were independent, then these get a low score and aren't considered interestingLess likely to be non-compositional

Comparing Observed with Expected

p(w1,w2) = n_11 / n_++

p(w1) = n_1+ / n_++

p(w2) = n_+1 / n_++

m_11 = (n_1+ * n_+1) / n_++Generalizes to m_ij

W2 NOT W2W1n_11n_12n_1+

NOT W1n_21n_22n_2+

n_+1n_+2n_++

ACL 2011 abstract corpus
http://www.d.umn.edu/~tpederse/acl2011.abstracts.txt

translation NOT translationmachinen_11 = 65m_11 = 1.58n_12 = 14m_12 = 77.4179

NOT machinen_21 = 48m_21 = 111.42n_22 = 5,512m_22 = 5448.585,560

1135,5265,639

Do n_ij and m_ij diverge enough to reject the model of independence?Different measures answer this question different ways

Counting with windows

Text : a b c d e f g h i j k

Window 2 (w1 w2)a b, b c, c d, d e, e f, f g,

Window 4 (w1 * * w2)a b, a c, a d, b c, b d, b e, c d, c e, c f, ...

Window 10 (w1 * * * * * * * * w2)a b, a c, a d, a e, a f, a g, a h, a i, a j, b c, b d ...

Development of Duluth Systems

Duluth-1 (aka The Flagship) : based on the measure that had the highest correlation with the fine grained gold standard data

Duluth-2 (aka Coward's Comfort) : use the measure most distinct from Duluth-1

Duluth-3 (aka Why not?) : three submissions allowed, so why not...

Rank correlation with
fine grained gold standard

2410

tscore0.14810.21140.2674

tmi0.13350.19080.2361

ll0.13360.19130.2358

frequency0.18650.21000.2126

ps0.09920.15540.1874

x20.11570.11720.1654

phi0.12530.11670.1646

jaccard0.12530.12550.1602

dice0.12530.12550.1602

odds0.02160.00600.0257

pmi-0.0241-0.01450.0143

rightFisher-0.1768-0.08170.0740

leftFisher0.13160.0686-0.0870

twotailed-0.1445-0.0651-0.1064

So many tests??
I suggested the t-score in 1991...

The Flagship : Duluth-1

t-score with a window size of 10Rank correlation of 0.2674

t = ( n_11 m_11 ) / sqrt (n_11)

BUT...

t-score with window size of 2 has huge rank correlation with frequency (0.9857)Somewhat less with window size of 10 (0.8477) but still high...

Can a measure that correlates so well with frequency really be effective?

Hypothesis #2

Very frequent word pairs are more likely to be compositional (i.e., highly literal) than are less frequent word pairsHighly frequent word pairs tend to be very literal and non-compositional (e.g., for the) and it would in general be a surprise to expect a compositional pair to attain as high a frequency

Coward's Comfort?

PMI with window size of 2Rank correlation of -0.0241 with gold standard

Low correlation of 0.2487 with frequency

PMI = log (n_11/m_11)

RightFisher and two tailed Fisher had lower correlation, but aren't really suitable for collocation discovery

PMI has long history of use in collocation discovery

I'm no coward, and I like PMI!

Why not? .. Duluth-3

PMI with a window size of 2

PMI very biased towards word pairs that only occur togetherHighest score always for pairs that occur just 1 time and only with each other

Wide window in Duluth-2 means that pairs with high PMI scores generally occur only together

Narrow window in Duluth-3 might tend to miss other occurrences of words (outside window)

Scoring

Shared task scoring on a scale of 0 100 where 100 means highly literal.

In measures of association higher scores mean less literal (at least according to hypothesis 1)

Association scores converted to 0 100 scale by normalizing and subtracting from 100100 * (1 m(w1,w)/max(m(W1,W2)))

Binned 0-33 low, 34-66 medium, 67-100 high

Results

Duluth-1 top ranked for coarse evaluation Duluth-3 top ranked for coarse EN_V_SUBJ (by a large margin...??)

Duluth-1 middle of pack for numerical scoring

Duluth-2 and Duluth-3 generally less effective for both coarse and numerical scoring

No correlation with numerical scoring?I found correlations with training data...?

Conclusions

Standard techniques for ranking collocations are effective at identifying compositionality

Scoring of compositionality is less successful

The t-score is successful because it optimizes two potentially competing hypotheses : word pairs with high association scores are more likely to be non-compositional, and

more frequent word pairs are likely to be compositional

Thank You!

All experiments conducted with version 1.23 of the Ngram Statistics Package

http://ngram.sourceforge.net

Click to edit the title text format

Click to edit the title text format

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Click to edit the title text format

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Made with OpenOffice.org

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Pulse para editar el formato del texto de ttulo

Pulse para editar los formatos del texto del esquemaSegundo nivel del esquemaTercer nivel del esquemaCuarto nivel del esquemaQuinto nivel del esquemaSexto nivel del esquemaSptimo nivel del esquemaOctavo nivel del esquemaNoveno nivel del esquema

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Pulse para editar el formato del texto de ttulo

Pulse para editar los formatos del texto del esquemaSegundo nivel del esquemaTercer nivel del esquemaCuarto nivel del esquemaQuinto nivel del esquemaSexto nivel del esquemaSptimo nivel del esquemaOctavo nivel del esquemaNoveno nivel del esquema

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Click to edit the title text format

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Pulse para editar el formato del texto de ttulo

Pulse para editar los formatos del texto del esquemaSegundo nivel del esquemaTercer nivel del esquemaCuarto nivel del esquemaQuinto nivel del esquemaSexto nivel del esquemaSptimo nivel del esquemaOctavo nivel del esquemaNoveno nivel del esquema

23456789

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte RegierungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

,

OpenOffice.org

Pulse para editar el formato del texto de ttulo

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Click to edit the title text format

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Klicken Sie, um das Format des Titeltextes zu bearbeiten

Klicken Sie, um die Formate des Gliederungstextes zu bearbeitenZweite GliederungsebeneDritte GliederungsebeneVierte GliederungsebeneFnfte GliederungsebeneSechste GliederungsebeneSiebente GliederungsebeneAchte GliederungsebeneNeunte Gliederungsebene

Click to edit the title text format

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level