hmm part-of-speech tagging - natural language processing

Προχωρηµένα Θέµατα ΓλωσσικήςΤεχνολογίας

Part Of Speech Tagging

Hidden Markov Model

Ιόνιο Πανεπιστήµιο, Μεταπτυχιακό Πληροφορικής

Βασίλειος Κοµιανός – Σοφία Φαναριώτη

Νοέµβριος 2011

Κατηγορίες αλγόριθµων POS tagging

Βασισµένοι σε κανόνες

Στοχαστικοί (HMM)

Συνδυασµοί των δύο παραπάνω (Brill)

Αλγόριθµοι βασισµένοι σεκανόνες

Εργάζονται σε δυο φάσεις:

1. Αποδίδονται στην λέξη πιθανά POS tags µεχρήση λεξικού.

2. Αν υπάρχουν περισσότερα του ενός tagsακολουθούνται κανόνες.

Στοχαστικά µοντέλα

Τα στοχαστικά µοντέλα µαθαίνουν µέσωπαραδειγµάτων εκµάθησης. Πρόκειται γιασώµατα κειµένου, corpus, στα οποία οι λέξειςέχουν επισηµανθεί χειρωνακτικά. Όταν εισάγεταικείµενο για POS tagging συγκρίνεται µε τα όσατο µοντέλο έχει µάθει και γίνεται η απόδοση.

Hidden Markov Model

Ο αλγόριθµος αυτός αναζητά ποιά σειρά από POS tagsταιριάζει καλύτερα µε την σειρά των λέξεων που τουδόθηκαν.

Η λειτουργία του βασίζεται σε δύο χαρακτηριστικά:

Το περιορισµένο εύρος εξάρτησης (limited horizon) και

Την στατικότητα των αποδοθέντων POS tags (time invariant)

Hidden Markov Model

Το εύρος εξάρτησης (limited horizon): καθορίζει τοναριθµό των προηγούµενων λέξεων που λαµβάνονταιυπόψη για την εύρεση του POS.

Bi-gram: λαµβάνει υπόψη µόνο την προηγούµενηλέξη (wordn-1)

Tri-gram: λαµβάνει υπόψη τις δύο προηγούµενεςλέξεις.

Στατικότητα αποδοθέντων POS tags σηµαίνει ότι τααποδοθέντα tags δεν γίνεται να αλλάξουν καθώς ηδιαδικασία προχωράει.

Λειτουργία ΗΜΜ και λεξικολογικές πιθανότητες

Εξετάζονται τα παραδείγµατα εκµάθησης καιυπολογίζονται οι πιθανότητες εµφάνισης:

για κάθε µέρος του λόγου π.χ. P(article),

για κάθε ξεχωριστή λέξη που βρέθηκε, P(the),

των µερών του λόγου για κάθε λέξη P(the|article).

Λειτουργία ΗΜΜ και πιθανότητες bi-grams

Ως bi-gram ορίζεται η ακολουθία δύο λέξεων, δεν µας ενδιαφέρουν οι λέξεις αλλά το µέρος του λόγου µε το οποίο παρουσιάζονται και υπολογίζονται οι πιθανότητες εµφάνισης τους στα παραδείγµατα εκµάθησης.

∆ηλαδή για το bi-gram Article – Noun έχουµε P(N|ART).

Λειτουργία HMM, εξέταση των πιθανών συνδυασµών του προς επισήµανση κειµένου

Για το τµήµα κειµένου που εξετάζουµε και σε ότι αφορά τα µέρη του λόγου, µελετούµε όλους τους πιθανούς συνδυασµούς τόσο για τις λεξικολογικές πιθανότητες όσο και για τις bi-grams. Ο συνδυασµός µε τη µεγαλύτερη πιθανότητα θεωρείται σωστός.

Σχεδίαση Μοντέλων Markov

Τα µοντέλα Markov βρίσκουν εφαρµογή στην απεικόνιση των bi-grams. Κάθε κατάσταση (POS) αναπαρίσταται µε ένα κόµβο και συνδέεται µε κατευθυντική σχέση µε τις καταστάσεις όπου βρέθηκε να γειτνιάζει (αυτές που έπονται), κάθε σχέση έχει ως ιδιότητα την πιθανότητα µετάβασης από την µια κατάσταση στην άλλη. Το άθροισµα των εξερχόµενων πιθανοτήτων από µια κατάσταση είναι ίσο µε 1.

Άσκηση 1 – Λεξικολογικές πιθανότητες

Με βάση τον ακόλουθο πίνακα να εξαχθούν οι πιθανότητες

Ν V ART P TOTAL

flies 21 23 0 0 44

fruit 49 5 1 0 55

like 10 30 0 21 61

a 1 0 201 0 202

the 1 0 300 2 303

flower 53 15 0 0 68

flowers 42 16 0 0 58

birds 64 1 0 0 65

Other words 592 210 56 284 1142

TOTAL 833 300 558 307 1998

Άσκηση 2 – πιθανότητες bi-grams

Με βάση τον ακόλουθο πίνακα να υπολογιστούν οι πιθανότητες bi-grams P(Ci|Ci-1):

Category Count at i Pair Count at i,i+1

Ø 300 Ø, ART 213

Ø 300 Ø, N 87

ART 558 ART, N 558

N 833 N, V 358

N 833 N, N 108

N 833 N, P 366

V 300 V, N 75

V 300 V, ART 194

P 307 P, ART 226

P 307 P, N 81

Άσκηση 3 – εξέταση των πιθανών συνδυασµών

Θεωρούµε τις µετρήσεις των ασκήσεων 1 και 2

Να υπολογιστεί η πιο πιθανή λύση POS Tagging για την πρόταση “Flies like a flower”.

Να γίνει χρήση του µοντέλου bi-grams µε λεξικολογικές πιθανότητες, στα bi-grams που δεν υπάρχουν µετρήσεις να αποδοθεί τιµή 0.0001.

Άσκηση 3 – εξέταση των πιθανών συνδυασµών

Αν υπάρχουν wn λέξεις και κάθε λέξη έχει C κατηγορίες, οιπιθανοί συνδυασµοί είναι

w1C * w2C *… * wnC

Flies like a flowerN N ART NV V V

P

Αριθµός συνδυασµών 12

Άσκηση 3 – εξέταση των πιθανών συνδυασµών bi-grams

Flies like a flower

Ν V ART N

P(N|Ø) * P(V|N) * P(ART|V) * P(N|ART)

0.29 0.43 0.65 1 = 0.081

.

.

N P ART N

P(N|Ø) * P(P|N) * P(ART|P) * P(N|ART)

0.29 0.44 0.74 1 = 0.094

.

.

Άσκηση 3 – πιθανότητες των συνδυασµών των bi-grams και των λεξικολογικών πιθανοτήτων

Flies like a flower

N V ART N -> 0.081 * 0.0000567 =

N P ART N -> 0.094 * 0.0000385 =

N V ART N = 0.000004592

N P ART N = 0.000003619

N V ART N > N P ART N

Επιλέγεται ο συνδυασµός µε την µεγαλύτερη πιθανότητα.

Άσκηση 4 – αλυσίδα Markov και κρυµµένο µοντέλο Markov

Με τα δεδοµένα των προηγούµενων ασκήσεων:

να κατασκευαστεί µια αλυσίδα Markov, ένα κρυµµένο µοντέλο Markov και να

υπολογιστεί η πιθανότητα του συνδυασµού N V ART N για την πρόταση “Flies like a

flower”.

Αλυσίδα Markov

Κρυµµένο Μοντέλο Markov –Hidden Markov Model

Τέλος µαθήµατος

Τι πρέπει να θυµάστε:

Λεξικολογικές πιθανότητες Πιθανότητες δίγραµµων (bi-grams)

Μοντέλο Markov

hmm part-of-speech tagging - natural language processing

Documents