Προχωρηµένα Θέµατα ΓλωσσικήςΤεχνολογίας
Part Of Speech Tagging
Hidden Markov Model
Ιόνιο Πανεπιστήµιο, Μεταπτυχιακό Πληροφορικής
Βασίλειος Κοµιανός – Σοφία Φαναριώτη
Νοέµβριος 2011
Κατηγορίες αλγόριθµων POS tagging
Βασισµένοι σε κανόνες
Στοχαστικοί (HMM)
Συνδυασµοί των δύο παραπάνω (Brill)
Αλγόριθµοι βασισµένοι σεκανόνες
Εργάζονται σε δυο φάσεις:
1. Αποδίδονται στην λέξη πιθανά POS tags µεχρήση λεξικού.
2. Αν υπάρχουν περισσότερα του ενός tagsακολουθούνται κανόνες.
Στοχαστικά µοντέλα
Τα στοχαστικά µοντέλα µαθαίνουν µέσωπαραδειγµάτων εκµάθησης. Πρόκειται γιασώµατα κειµένου, corpus, στα οποία οι λέξειςέχουν επισηµανθεί χειρωνακτικά. Όταν εισάγεταικείµενο για POS tagging συγκρίνεται µε τα όσατο µοντέλο έχει µάθει και γίνεται η απόδοση.
Hidden Markov Model
Ο αλγόριθµος αυτός αναζητά ποιά σειρά από POS tagsταιριάζει καλύτερα µε την σειρά των λέξεων που τουδόθηκαν.
Η λειτουργία του βασίζεται σε δύο χαρακτηριστικά:
Το περιορισµένο εύρος εξάρτησης (limited horizon) και
Την στατικότητα των αποδοθέντων POS tags (time invariant)
Hidden Markov Model
Το εύρος εξάρτησης (limited horizon): καθορίζει τοναριθµό των προηγούµενων λέξεων που λαµβάνονταιυπόψη για την εύρεση του POS.
Bi-gram: λαµβάνει υπόψη µόνο την προηγούµενηλέξη (wordn-1)
Tri-gram: λαµβάνει υπόψη τις δύο προηγούµενεςλέξεις.
Στατικότητα αποδοθέντων POS tags σηµαίνει ότι τααποδοθέντα tags δεν γίνεται να αλλάξουν καθώς ηδιαδικασία προχωράει.
Λειτουργία ΗΜΜ και λεξικολογικές πιθανότητες
Εξετάζονται τα παραδείγµατα εκµάθησης καιυπολογίζονται οι πιθανότητες εµφάνισης:
για κάθε µέρος του λόγου π.χ. P(article),
για κάθε ξεχωριστή λέξη που βρέθηκε, P(the),
των µερών του λόγου για κάθε λέξη P(the|article).
Λειτουργία ΗΜΜ και πιθανότητες bi-grams
Ως bi-gram ορίζεται η ακολουθία δύο λέξεων, δεν µας ενδιαφέρουν οι λέξεις αλλά το µέρος του λόγου µε το οποίο παρουσιάζονται και υπολογίζονται οι πιθανότητες εµφάνισης τους στα παραδείγµατα εκµάθησης.
∆ηλαδή για το bi-gram Article – Noun έχουµε P(N|ART).
Λειτουργία HMM, εξέταση των πιθανών συνδυασµών του προς επισήµανση κειµένου
Για το τµήµα κειµένου που εξετάζουµε και σε ότι αφορά τα µέρη του λόγου, µελετούµε όλους τους πιθανούς συνδυασµούς τόσο για τις λεξικολογικές πιθανότητες όσο και για τις bi-grams. Ο συνδυασµός µε τη µεγαλύτερη πιθανότητα θεωρείται σωστός.
Σχεδίαση Μοντέλων Markov
Τα µοντέλα Markov βρίσκουν εφαρµογή στην απεικόνιση των bi-grams. Κάθε κατάσταση (POS) αναπαρίσταται µε ένα κόµβο και συνδέεται µε κατευθυντική σχέση µε τις καταστάσεις όπου βρέθηκε να γειτνιάζει (αυτές που έπονται), κάθε σχέση έχει ως ιδιότητα την πιθανότητα µετάβασης από την µια κατάσταση στην άλλη. Το άθροισµα των εξερχόµενων πιθανοτήτων από µια κατάσταση είναι ίσο µε 1.
Άσκηση 1 – Λεξικολογικές πιθανότητες
Με βάση τον ακόλουθο πίνακα να εξαχθούν οι πιθανότητες
Ν V ART P TOTAL
flies 21 23 0 0 44
fruit 49 5 1 0 55
like 10 30 0 21 61
a 1 0 201 0 202
the 1 0 300 2 303
flower 53 15 0 0 68
flowers 42 16 0 0 58
birds 64 1 0 0 65
Other words 592 210 56 284 1142
TOTAL 833 300 558 307 1998
Άσκηση 1 – Λεξικολογικές πιθανότητες
P(ART) = 558/1998 = 0.28, P(the) = 303/1998 = 0.15,
P(ART|the) = 300/303 = 0.99, P(the|ART) = 300/558 = 0.54, …,
…,
P(flies|N) = 21/833 = 0.025,
P(like|V) = 30/300 = 0.1,
P(like|P) = 21/307 = 0.06,
P(a|ART) = 201/558 = 0.36,
P(flower|N) = 53/833 = 0.06,
…
Άσκηση 2 – πιθανότητες bi-grams
Με βάση τον ακόλουθο πίνακα να υπολογιστούν οι πιθανότητες bi-grams P(Ci|Ci-1):
Category Count at i Pair Count at i,i+1
Ø 300 Ø, ART 213
Ø 300 Ø, N 87
ART 558 ART, N 558
N 833 N, V 358
N 833 N, N 108
N 833 N, P 366
V 300 V, N 75
V 300 V, ART 194
P 307 P, ART 226
P 307 P, N 81
Άσκηση 2- Πιθανότητες bigrams
Pair Πιθανότητα
Ø,ART P(ART|Ø) = 213/300 = 0.71Ø,N P(N|Ø) = 87/300 = 0.29ART,N P(N|ART) = 558/558 = 1Ν,V P(V|N) = 358/833 = 0.43N,P P(P|N) = 366/833 = 0.44V,ART P(ART|V) = 194/300 = 0.65P,ART P(ART|P) = 226/307 = 0.74...
Άσκηση 3 – εξέταση των πιθανών συνδυασµών
Θεωρούµε τις µετρήσεις των ασκήσεων 1 και 2
Να υπολογιστεί η πιο πιθανή λύση POS Tagging για την πρόταση “Flies like a flower”.
Να γίνει χρήση του µοντέλου bi-grams µε λεξικολογικές πιθανότητες, στα bi-grams που δεν υπάρχουν µετρήσεις να αποδοθεί τιµή 0.0001.
Άσκηση 3 – εξέταση των πιθανών συνδυασµών
Αν υπάρχουν wn λέξεις και κάθε λέξη έχει C κατηγορίες, οιπιθανοί συνδυασµοί είναι
w1C * w2C *… * wnC
Flies like a flowerN N ART NV V V
P
Αριθµός συνδυασµών 12
Άσκηση 3 – εξέταση των πιθανών συνδυασµών bi-grams
Flies like a flower
Ν V ART N
P(N|Ø) * P(V|N) * P(ART|V) * P(N|ART)
0.29 0.43 0.65 1 = 0.081
.
.
N P ART N
P(N|Ø) * P(P|N) * P(ART|P) * P(N|ART)
0.29 0.44 0.74 1 = 0.094
.
.
Άσκηση 3 – εξέταση των λεξικολογικών πιθανοτήτων
Flies like a flower
Ν V ART N
P(flies|N) * P(like|V) * P(a|ART) * P(flower|N)
0.025 0.1 0.36 0.063=0.0000567
.
.
N P ART N
P(flies|N) * P(like|P) * P(a|ART) * P(flower|N)
0.025 0.068 0.36 0.063=0.0000385
.
.
Άσκηση 3 – πιθανότητες των συνδυασµών των bi-grams και των λεξικολογικών πιθανοτήτων
Flies like a flower
N V ART N -> 0.081 * 0.0000567 =
N P ART N -> 0.094 * 0.0000385 =
N V ART N = 0.000004592
N P ART N = 0.000003619
N V ART N > N P ART N
Επιλέγεται ο συνδυασµός µε την µεγαλύτερη πιθανότητα.
Άσκηση 4 – αλυσίδα Markov και κρυµµένο µοντέλο Markov
Με τα δεδοµένα των προηγούµενων ασκήσεων:
να κατασκευαστεί µια αλυσίδα Markov, ένα κρυµµένο µοντέλο Markov και να
υπολογιστεί η πιθανότητα του συνδυασµού N V ART N για την πρόταση “Flies like a
flower”.
Αλυσίδα Markov
Κρυµµένο Μοντέλο Markov –Hidden Markov Model
Τέλος µαθήµατος
Τι πρέπει να θυµάστε:
Λεξικολογικές πιθανότητες Πιθανότητες δίγραµµων (bi-grams)
Μοντέλο Markov