hmm part-of-speech tagging - natural language processing

23
Προχωρηµένα Θέµατα Γλωσσικής Τεχνολογίας Part Of Speech Tagging Hidden Markov Model Ιόνιο Πανεπιστήµιο, Μεταπτυχιακό Πληροφορικής Βασίλειος Κοµιανός – Σοφία Φαναριώτη Νοέµβριος 2011

Upload: -

Post on 11-May-2015

340 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: HMM Part-Of-Speech Tagging - Natural Language Processing

Προχωρηµένα Θέµατα ΓλωσσικήςΤεχνολογίας

Part Of Speech Tagging

Hidden Markov Model

Ιόνιο Πανεπιστήµιο, Μεταπτυχιακό Πληροφορικής

Βασίλειος Κοµιανός – Σοφία Φαναριώτη

Νοέµβριος 2011

Page 2: HMM Part-Of-Speech Tagging - Natural Language Processing

Κατηγορίες αλγόριθµων POS tagging

Βασισµένοι σε κανόνες

Στοχαστικοί (HMM)

Συνδυασµοί των δύο παραπάνω (Brill)

Page 3: HMM Part-Of-Speech Tagging - Natural Language Processing

Αλγόριθµοι βασισµένοι σεκανόνες

Εργάζονται σε δυο φάσεις:

1. Αποδίδονται στην λέξη πιθανά POS tags µεχρήση λεξικού.

2. Αν υπάρχουν περισσότερα του ενός tagsακολουθούνται κανόνες.

Page 4: HMM Part-Of-Speech Tagging - Natural Language Processing

Στοχαστικά µοντέλα

Τα στοχαστικά µοντέλα µαθαίνουν µέσωπαραδειγµάτων εκµάθησης. Πρόκειται γιασώµατα κειµένου, corpus, στα οποία οι λέξειςέχουν επισηµανθεί χειρωνακτικά. Όταν εισάγεταικείµενο για POS tagging συγκρίνεται µε τα όσατο µοντέλο έχει µάθει και γίνεται η απόδοση.

Page 5: HMM Part-Of-Speech Tagging - Natural Language Processing

Hidden Markov Model

Ο αλγόριθµος αυτός αναζητά ποιά σειρά από POS tagsταιριάζει καλύτερα µε την σειρά των λέξεων που τουδόθηκαν.

Η λειτουργία του βασίζεται σε δύο χαρακτηριστικά:

Το περιορισµένο εύρος εξάρτησης (limited horizon) και

Την στατικότητα των αποδοθέντων POS tags (time invariant)

Page 6: HMM Part-Of-Speech Tagging - Natural Language Processing

Hidden Markov Model

Το εύρος εξάρτησης (limited horizon): καθορίζει τοναριθµό των προηγούµενων λέξεων που λαµβάνονταιυπόψη για την εύρεση του POS.

Bi-gram: λαµβάνει υπόψη µόνο την προηγούµενηλέξη (wordn-1)

Tri-gram: λαµβάνει υπόψη τις δύο προηγούµενεςλέξεις.

Στατικότητα αποδοθέντων POS tags σηµαίνει ότι τααποδοθέντα tags δεν γίνεται να αλλάξουν καθώς ηδιαδικασία προχωράει.

Page 7: HMM Part-Of-Speech Tagging - Natural Language Processing

Λειτουργία ΗΜΜ και λεξικολογικές πιθανότητες

Εξετάζονται τα παραδείγµατα εκµάθησης καιυπολογίζονται οι πιθανότητες εµφάνισης:

για κάθε µέρος του λόγου π.χ. P(article),

για κάθε ξεχωριστή λέξη που βρέθηκε, P(the),

των µερών του λόγου για κάθε λέξη P(the|article).

Page 8: HMM Part-Of-Speech Tagging - Natural Language Processing

Λειτουργία ΗΜΜ και πιθανότητες bi-grams

Ως bi-gram ορίζεται η ακολουθία δύο λέξεων, δεν µας ενδιαφέρουν οι λέξεις αλλά το µέρος του λόγου µε το οποίο παρουσιάζονται και υπολογίζονται οι πιθανότητες εµφάνισης τους στα παραδείγµατα εκµάθησης.

∆ηλαδή για το bi-gram Article – Noun έχουµε P(N|ART).

Page 9: HMM Part-Of-Speech Tagging - Natural Language Processing

Λειτουργία HMM, εξέταση των πιθανών συνδυασµών του προς επισήµανση κειµένου

Για το τµήµα κειµένου που εξετάζουµε και σε ότι αφορά τα µέρη του λόγου, µελετούµε όλους τους πιθανούς συνδυασµούς τόσο για τις λεξικολογικές πιθανότητες όσο και για τις bi-grams. Ο συνδυασµός µε τη µεγαλύτερη πιθανότητα θεωρείται σωστός.

Page 10: HMM Part-Of-Speech Tagging - Natural Language Processing

Σχεδίαση Μοντέλων Markov

Τα µοντέλα Markov βρίσκουν εφαρµογή στην απεικόνιση των bi-grams. Κάθε κατάσταση (POS) αναπαρίσταται µε ένα κόµβο και συνδέεται µε κατευθυντική σχέση µε τις καταστάσεις όπου βρέθηκε να γειτνιάζει (αυτές που έπονται), κάθε σχέση έχει ως ιδιότητα την πιθανότητα µετάβασης από την µια κατάσταση στην άλλη. Το άθροισµα των εξερχόµενων πιθανοτήτων από µια κατάσταση είναι ίσο µε 1.

Page 11: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 1 – Λεξικολογικές πιθανότητες

Με βάση τον ακόλουθο πίνακα να εξαχθούν οι πιθανότητες

Ν V ART P TOTAL

flies 21 23 0 0 44

fruit 49 5 1 0 55

like 10 30 0 21 61

a 1 0 201 0 202

the 1 0 300 2 303

flower 53 15 0 0 68

flowers 42 16 0 0 58

birds 64 1 0 0 65

Other words 592 210 56 284 1142

TOTAL 833 300 558 307 1998

Page 12: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 1 – Λεξικολογικές πιθανότητες

P(ART) = 558/1998 = 0.28, P(the) = 303/1998 = 0.15,

P(ART|the) = 300/303 = 0.99, P(the|ART) = 300/558 = 0.54, …,

…,

P(flies|N) = 21/833 = 0.025,

P(like|V) = 30/300 = 0.1,

P(like|P) = 21/307 = 0.06,

P(a|ART) = 201/558 = 0.36,

P(flower|N) = 53/833 = 0.06,

Page 13: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 2 – πιθανότητες bi-grams

Με βάση τον ακόλουθο πίνακα να υπολογιστούν οι πιθανότητες bi-grams P(Ci|Ci-1):

Category Count at i Pair Count at i,i+1

Ø 300 Ø, ART 213

Ø 300 Ø, N 87

ART 558 ART, N 558

N 833 N, V 358

N 833 N, N 108

N 833 N, P 366

V 300 V, N 75

V 300 V, ART 194

P 307 P, ART 226

P 307 P, N 81

Page 14: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 2- Πιθανότητες bigrams

Pair Πιθανότητα

Ø,ART P(ART|Ø) = 213/300 = 0.71Ø,N P(N|Ø) = 87/300 = 0.29ART,N P(N|ART) = 558/558 = 1Ν,V P(V|N) = 358/833 = 0.43N,P P(P|N) = 366/833 = 0.44V,ART P(ART|V) = 194/300 = 0.65P,ART P(ART|P) = 226/307 = 0.74...

Page 15: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 3 – εξέταση των πιθανών συνδυασµών

Θεωρούµε τις µετρήσεις των ασκήσεων 1 και 2

Να υπολογιστεί η πιο πιθανή λύση POS Tagging για την πρόταση “Flies like a flower”.

Να γίνει χρήση του µοντέλου bi-grams µε λεξικολογικές πιθανότητες, στα bi-grams που δεν υπάρχουν µετρήσεις να αποδοθεί τιµή 0.0001.

Page 16: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 3 – εξέταση των πιθανών συνδυασµών

Αν υπάρχουν wn λέξεις και κάθε λέξη έχει C κατηγορίες, οιπιθανοί συνδυασµοί είναι

w1C * w2C *… * wnC

Flies like a flowerN N ART NV V V

P

Αριθµός συνδυασµών 12

Page 17: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 3 – εξέταση των πιθανών συνδυασµών bi-grams

Flies like a flower

Ν V ART N

P(N|Ø) * P(V|N) * P(ART|V) * P(N|ART)

0.29 0.43 0.65 1 = 0.081

.

.

N P ART N

P(N|Ø) * P(P|N) * P(ART|P) * P(N|ART)

0.29 0.44 0.74 1 = 0.094

.

.

Page 18: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 3 – εξέταση των λεξικολογικών πιθανοτήτων

Flies like a flower

Ν V ART N

P(flies|N) * P(like|V) * P(a|ART) * P(flower|N)

0.025 0.1 0.36 0.063=0.0000567

.

.

N P ART N

P(flies|N) * P(like|P) * P(a|ART) * P(flower|N)

0.025 0.068 0.36 0.063=0.0000385

.

.

Page 19: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 3 – πιθανότητες των συνδυασµών των bi-grams και των λεξικολογικών πιθανοτήτων

Flies like a flower

N V ART N -> 0.081 * 0.0000567 =

N P ART N -> 0.094 * 0.0000385 =

N V ART N = 0.000004592

N P ART N = 0.000003619

N V ART N > N P ART N

Επιλέγεται ο συνδυασµός µε την µεγαλύτερη πιθανότητα.

Page 20: HMM Part-Of-Speech Tagging - Natural Language Processing

Άσκηση 4 – αλυσίδα Markov και κρυµµένο µοντέλο Markov

Με τα δεδοµένα των προηγούµενων ασκήσεων:

να κατασκευαστεί µια αλυσίδα Markov, ένα κρυµµένο µοντέλο Markov και να

υπολογιστεί η πιθανότητα του συνδυασµού N V ART N για την πρόταση “Flies like a

flower”.

Page 21: HMM Part-Of-Speech Tagging - Natural Language Processing

Αλυσίδα Markov

Page 22: HMM Part-Of-Speech Tagging - Natural Language Processing

Κρυµµένο Μοντέλο Markov –Hidden Markov Model

Page 23: HMM Part-Of-Speech Tagging - Natural Language Processing

Τέλος µαθήµατος

Τι πρέπει να θυµάστε:

Λεξικολογικές πιθανότητες Πιθανότητες δίγραµµων (bi-grams)

Μοντέλο Markov