hmm part-of-speech tagging - natural language processing
TRANSCRIPT
![Page 1: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/1.jpg)
Προχωρηµένα Θέµατα ΓλωσσικήςΤεχνολογίας
Part Of Speech Tagging
Hidden Markov Model
Ιόνιο Πανεπιστήµιο, Μεταπτυχιακό Πληροφορικής
Βασίλειος Κοµιανός – Σοφία Φαναριώτη
Νοέµβριος 2011
![Page 2: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/2.jpg)
Κατηγορίες αλγόριθµων POS tagging
Βασισµένοι σε κανόνες
Στοχαστικοί (HMM)
Συνδυασµοί των δύο παραπάνω (Brill)
![Page 3: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/3.jpg)
Αλγόριθµοι βασισµένοι σεκανόνες
Εργάζονται σε δυο φάσεις:
1. Αποδίδονται στην λέξη πιθανά POS tags µεχρήση λεξικού.
2. Αν υπάρχουν περισσότερα του ενός tagsακολουθούνται κανόνες.
![Page 4: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/4.jpg)
Στοχαστικά µοντέλα
Τα στοχαστικά µοντέλα µαθαίνουν µέσωπαραδειγµάτων εκµάθησης. Πρόκειται γιασώµατα κειµένου, corpus, στα οποία οι λέξειςέχουν επισηµανθεί χειρωνακτικά. Όταν εισάγεταικείµενο για POS tagging συγκρίνεται µε τα όσατο µοντέλο έχει µάθει και γίνεται η απόδοση.
![Page 5: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/5.jpg)
Hidden Markov Model
Ο αλγόριθµος αυτός αναζητά ποιά σειρά από POS tagsταιριάζει καλύτερα µε την σειρά των λέξεων που τουδόθηκαν.
Η λειτουργία του βασίζεται σε δύο χαρακτηριστικά:
Το περιορισµένο εύρος εξάρτησης (limited horizon) και
Την στατικότητα των αποδοθέντων POS tags (time invariant)
![Page 6: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/6.jpg)
Hidden Markov Model
Το εύρος εξάρτησης (limited horizon): καθορίζει τοναριθµό των προηγούµενων λέξεων που λαµβάνονταιυπόψη για την εύρεση του POS.
Bi-gram: λαµβάνει υπόψη µόνο την προηγούµενηλέξη (wordn-1)
Tri-gram: λαµβάνει υπόψη τις δύο προηγούµενεςλέξεις.
Στατικότητα αποδοθέντων POS tags σηµαίνει ότι τααποδοθέντα tags δεν γίνεται να αλλάξουν καθώς ηδιαδικασία προχωράει.
![Page 7: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/7.jpg)
Λειτουργία ΗΜΜ και λεξικολογικές πιθανότητες
Εξετάζονται τα παραδείγµατα εκµάθησης καιυπολογίζονται οι πιθανότητες εµφάνισης:
για κάθε µέρος του λόγου π.χ. P(article),
για κάθε ξεχωριστή λέξη που βρέθηκε, P(the),
των µερών του λόγου για κάθε λέξη P(the|article).
![Page 8: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/8.jpg)
Λειτουργία ΗΜΜ και πιθανότητες bi-grams
Ως bi-gram ορίζεται η ακολουθία δύο λέξεων, δεν µας ενδιαφέρουν οι λέξεις αλλά το µέρος του λόγου µε το οποίο παρουσιάζονται και υπολογίζονται οι πιθανότητες εµφάνισης τους στα παραδείγµατα εκµάθησης.
∆ηλαδή για το bi-gram Article – Noun έχουµε P(N|ART).
![Page 9: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/9.jpg)
Λειτουργία HMM, εξέταση των πιθανών συνδυασµών του προς επισήµανση κειµένου
Για το τµήµα κειµένου που εξετάζουµε και σε ότι αφορά τα µέρη του λόγου, µελετούµε όλους τους πιθανούς συνδυασµούς τόσο για τις λεξικολογικές πιθανότητες όσο και για τις bi-grams. Ο συνδυασµός µε τη µεγαλύτερη πιθανότητα θεωρείται σωστός.
![Page 10: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/10.jpg)
Σχεδίαση Μοντέλων Markov
Τα µοντέλα Markov βρίσκουν εφαρµογή στην απεικόνιση των bi-grams. Κάθε κατάσταση (POS) αναπαρίσταται µε ένα κόµβο και συνδέεται µε κατευθυντική σχέση µε τις καταστάσεις όπου βρέθηκε να γειτνιάζει (αυτές που έπονται), κάθε σχέση έχει ως ιδιότητα την πιθανότητα µετάβασης από την µια κατάσταση στην άλλη. Το άθροισµα των εξερχόµενων πιθανοτήτων από µια κατάσταση είναι ίσο µε 1.
![Page 11: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/11.jpg)
Άσκηση 1 – Λεξικολογικές πιθανότητες
Με βάση τον ακόλουθο πίνακα να εξαχθούν οι πιθανότητες
Ν V ART P TOTAL
flies 21 23 0 0 44
fruit 49 5 1 0 55
like 10 30 0 21 61
a 1 0 201 0 202
the 1 0 300 2 303
flower 53 15 0 0 68
flowers 42 16 0 0 58
birds 64 1 0 0 65
Other words 592 210 56 284 1142
TOTAL 833 300 558 307 1998
![Page 12: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/12.jpg)
Άσκηση 1 – Λεξικολογικές πιθανότητες
P(ART) = 558/1998 = 0.28, P(the) = 303/1998 = 0.15,
P(ART|the) = 300/303 = 0.99, P(the|ART) = 300/558 = 0.54, …,
…,
P(flies|N) = 21/833 = 0.025,
P(like|V) = 30/300 = 0.1,
P(like|P) = 21/307 = 0.06,
P(a|ART) = 201/558 = 0.36,
P(flower|N) = 53/833 = 0.06,
…
![Page 13: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/13.jpg)
Άσκηση 2 – πιθανότητες bi-grams
Με βάση τον ακόλουθο πίνακα να υπολογιστούν οι πιθανότητες bi-grams P(Ci|Ci-1):
Category Count at i Pair Count at i,i+1
Ø 300 Ø, ART 213
Ø 300 Ø, N 87
ART 558 ART, N 558
N 833 N, V 358
N 833 N, N 108
N 833 N, P 366
V 300 V, N 75
V 300 V, ART 194
P 307 P, ART 226
P 307 P, N 81
![Page 14: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/14.jpg)
Άσκηση 2- Πιθανότητες bigrams
Pair Πιθανότητα
Ø,ART P(ART|Ø) = 213/300 = 0.71Ø,N P(N|Ø) = 87/300 = 0.29ART,N P(N|ART) = 558/558 = 1Ν,V P(V|N) = 358/833 = 0.43N,P P(P|N) = 366/833 = 0.44V,ART P(ART|V) = 194/300 = 0.65P,ART P(ART|P) = 226/307 = 0.74...
![Page 15: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/15.jpg)
Άσκηση 3 – εξέταση των πιθανών συνδυασµών
Θεωρούµε τις µετρήσεις των ασκήσεων 1 και 2
Να υπολογιστεί η πιο πιθανή λύση POS Tagging για την πρόταση “Flies like a flower”.
Να γίνει χρήση του µοντέλου bi-grams µε λεξικολογικές πιθανότητες, στα bi-grams που δεν υπάρχουν µετρήσεις να αποδοθεί τιµή 0.0001.
![Page 16: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/16.jpg)
Άσκηση 3 – εξέταση των πιθανών συνδυασµών
Αν υπάρχουν wn λέξεις και κάθε λέξη έχει C κατηγορίες, οιπιθανοί συνδυασµοί είναι
w1C * w2C *… * wnC
Flies like a flowerN N ART NV V V
P
Αριθµός συνδυασµών 12
![Page 17: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/17.jpg)
Άσκηση 3 – εξέταση των πιθανών συνδυασµών bi-grams
Flies like a flower
Ν V ART N
P(N|Ø) * P(V|N) * P(ART|V) * P(N|ART)
0.29 0.43 0.65 1 = 0.081
.
.
N P ART N
P(N|Ø) * P(P|N) * P(ART|P) * P(N|ART)
0.29 0.44 0.74 1 = 0.094
.
.
![Page 18: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/18.jpg)
Άσκηση 3 – εξέταση των λεξικολογικών πιθανοτήτων
Flies like a flower
Ν V ART N
P(flies|N) * P(like|V) * P(a|ART) * P(flower|N)
0.025 0.1 0.36 0.063=0.0000567
.
.
N P ART N
P(flies|N) * P(like|P) * P(a|ART) * P(flower|N)
0.025 0.068 0.36 0.063=0.0000385
.
.
![Page 19: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/19.jpg)
Άσκηση 3 – πιθανότητες των συνδυασµών των bi-grams και των λεξικολογικών πιθανοτήτων
Flies like a flower
N V ART N -> 0.081 * 0.0000567 =
N P ART N -> 0.094 * 0.0000385 =
N V ART N = 0.000004592
N P ART N = 0.000003619
N V ART N > N P ART N
Επιλέγεται ο συνδυασµός µε την µεγαλύτερη πιθανότητα.
![Page 20: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/20.jpg)
Άσκηση 4 – αλυσίδα Markov και κρυµµένο µοντέλο Markov
Με τα δεδοµένα των προηγούµενων ασκήσεων:
να κατασκευαστεί µια αλυσίδα Markov, ένα κρυµµένο µοντέλο Markov και να
υπολογιστεί η πιθανότητα του συνδυασµού N V ART N για την πρόταση “Flies like a
flower”.
![Page 21: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/21.jpg)
Αλυσίδα Markov
![Page 22: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/22.jpg)
Κρυµµένο Μοντέλο Markov –Hidden Markov Model
![Page 23: HMM Part-Of-Speech Tagging - Natural Language Processing](https://reader033.vdocuments.mx/reader033/viewer/2022052523/555098f0b4c9058b208b47db/html5/thumbnails/23.jpg)
Τέλος µαθήµατος
Τι πρέπει να θυµάστε:
Λεξικολογικές πιθανότητες Πιθανότητες δίγραµµων (bi-grams)
Μοντέλο Markov