part of speech tagging (pos)
DESCRIPTION
PART OF SPEECH TAGGING (POS). ارائه دهنده: سید محمد اصغری استاد درس: دکترمحسن کاهانی. فروردین 1392. فهرست مطالب. natural intelligence. A. B. interrogator. artificial intelligence. تعریف NLP. پردازش زبانهای طبیعی علوم زبان شناسی هوش مصنوعی آمار. کاربردهای NLP. شناسايي گفتار - PowerPoint PPT PresentationTRANSCRIPT
ارائه دهنده: سید محمد اصغری
استاد درس: دکترمحسن
1کاهانی
1392فروردین
فهرست مطالب2
NLPتعریف پردازش زبان های طبیعی
علوم زبان شناسیهوش مصنوعیآمار
artificial intelligenc
e
natural intelligence
interrogator
A
B
3
NLPکاربردهای شناسايي گفتار
سيستمهاي ديکته، سيستم هاي کنترل روبات
ترکيب گفتارسيستم هاي متن به گفتار
مقوله بندي متن
متنخالصه سازی
4
)ادامه(NLPکاربردهای نمایه سازی متن
بازيابي متن
استخراج اطالعات
ترکيب داده ها و استخراج داده هاي متن
5
)ادامه(NLPکاربردهای
پاسخ به پرسش
ايجاد گزارش
ترجمه ماشینی
6
ابزارهای پردازش زبان طبیعی
نرمال ساز یا یکسان سازتشخیص دهنده جمالتتشخیص دهنده لغاتحذف کننده کلمات ایستریشه یاببرچسب زن اجزای کالم ( POS)( پارسرparser)( برچسب زن معنایی کالمSRL) شبکه واژگان...
7
نمونه های ابزار انگلیسی
instance NLP tools
OpenNLP ، Stanford NLP ، NLTK Freeling
تشخیص دهنده جمالت
Flex ، JLex ، JFLex , ANTLR ، Ragel , Quex
تشخیص دهنده لغات
Porter, Krovetz ریشه یاب
Illinois POS Tagger , Stanford POS Tagger
برچسب زن اجزای کالم(POS)
OpenNlP ، Illinois SRL , Swirl , LTHSRL
برچسب زن معنایی کالم (SLR)
Princeton Wordnet , Euro Wordnet شبکه واژگان
8
تا اینجا9
posتعریف Part-of-Speech )POS(.یا جزء کالم: مقوله نحوی که هر کلمه به آن تعلق دارد
:نامهای دیگرword classes، lexical tags، tags
POS tagging )tagging(فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی :
POS:های اصلی در انگلیسیNounsVerbsAdjectivesAdverbsPrepositions )on, to, by, from, with, …(Determiners )a, an, the(Pronouns )she, who, my, others, …(Conjunctions )and, but, if, …(Auxiliaries )can, should, are, …(Particles )up, down, off, in, out, …(Numerals )one, two, three, first, second, …(
10
)ادامه(posتعریف بسته به کاربرد، ممکن استPOS:های جزئی تری در پیکره های متنی به کار روند Singular nounsPlural nounsComparative adjectivesSuperlative adjectivesModal verbsPersonal pronounsPossessive pronouns… برای عالئم نقطه گذاری همtag.های متفاوتی ممکن است به کار رود
tag set:های مختلف در انگلیسیPenn Treebank tag set 45: شامل tagBrown Corpus tag set 87: شامل tagC5 tag set 61: شامل tagC7 tag set 146: شامل tag
660در پیکره متنی زبان فارسی )دکتر بیجن خان( حدود tag.به کار رفته است
11
مثال
:ورودی
خروجی
12
13
نکات مورد توجه
( مجموعه تگtagset)انتخاب مجموعه تگ مناسب
طبقه بندی گرامری واژگان عباراتواژگان چند نقشکلمات ناشناخته
14
کاربردها
مدل سازی زبانی )در بازشناسی گفتار و ...(: مقوله نحوی یککلمه می تواند در پیش بینی کلمه بعدی کمک کند.
مثال: انگلیسی: ضمایر ملکی+ اسم )فارسی: حرف اضافه )اسم یا ضمیر
سنتز گفتار: مقوله نحوی یک کلمه می تواند اطالعاتی در موردنحوه تلفظ صحیح یک کلمه به ما بدهد.
مثال: تلفظOBject )noun( و obJECT )verb()تلفظ”م¡رد“ )اسم(، ”م�رد“ )فعل
بازیابی اطالعات: دانستن مقوله نحوی کلمات می تواند بهاستخراج کلمات مهم در متن کمک کند.
رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفعابهام معنایی کلمه کمک کند.
مثال: کلمهwatchدر انگلیسی و کلمه ”در“ در فارسی ( تجزیه نحویparsing برای :)parsing پایین به باال در ابتدا نیاز
به تعیین مقوله نحوی کلمات داریم.
15
روش ها روش های کلیPOS tagging:
( روش های مبتنی بر قاعدهrule based POS tagging)
( روش های آماریprobabilistic/stochastic POS tagging)
( روش های ترکیبیtransformation-based POS tagging)
16
برچسب گذار مبتنی بر قاعده با استفاده از یک سریrule مقوله نحوی کلمات دارای ابهام را با توجه
به کلمات مجاور تعیین می کند.Rule.ها به وسیله زبان شناسان نوشته می شوند
دو مرحله کلی ازPOS taggingمبتنی بر قاعده دیکشنری >----tags مجاور+قواعد >---- tag
17
برچسب گذار مبتنی بر قاعده)ادامه(
:مثالI think that you are cleverI: PRONthink: Vthat: PRON, DET, COMP, ADVyou: PRONare: AUXclever: ADJ
مثالی از یکrule از( ENGTWOL tagger) 56,000
Adverbial-that rule:Given input: “that”If )+1 ADJ/ADV( )+2 SENT-LIM( )NOT -1 V-SVO(then eliminate non-ADV tagselse eliminate ADV tag
18
مدل مارکوف
افق محدود1.
مستقل از زمان بودن2.
برچسب يك كلمه تنها وابسته به برچسب كلمه قبلي است)افق محدود (
اين وابستگي در طول زمان تغيير نمي كند )مستقل از زمانبودن (
بعد از يك 0.2 براي مثال، اگر يك صفت در اوايل جمله با احتمال اسم ظاهر مي شود، اين احتمال در حين برچسب گذاري بقيه
جمله يا يك جلمه ديگر تغيير نمي كند و ثابت فرض مي شود.اشتباه بودن این فرضنکته:
19
مدل مارکوف )ادامه( : با فرض داشتن دنباله کلمات هدفW=w1…wn دنباله ،tag هایT=t1…tn
ماکزیمم شود: )P)T|Wرا طوری پیدا کنید که
:با استفاده از قانون بیز
:باتوجه به ویژگیهای مارکوف میتوانیم مسئله را ساده کنیم
باتوجه به رابطه قبلی و جایگزاری
21
)|(maxargˆ WTPTT
آموزش مدل مارکوف
مجموعه یادگیری 1 Pierre/NNP Vinken/NNP ,/, 61/CD years/NNS old/JJ ,/, will/MD join/VB the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN
Nov./NNP 29/CD ./. 2 Mr./NNP Vinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP
N.V./NNP ,/, the/DT Dutch/NNP publishing/VBG group/NN ./. 3 Rudolph/NNP Agnew/NNP ,/, 55/CD years/NNS old/JJ and/CC chairman/NN of/IN Consolidated/NNP Gold/NNP Fields/NNP
PLC/NNP ,/, was/VBD named/VBN a/DT nonexecutive/JJ director/NN of/IN this/DT British/JJ industrial/JJ
conglomerate/NN ./. ...
38,219 It/PRP is/VBZ also/RB pulling/VBG 20/CD people/NNS out/IN of/IN Puerto/NNP Rico/NNP ,/, who/WP were/VBD
helping/VBG Huricane/NNP Hugo/NNP victims/NNS ,/, and/CC sending/VBG them/PRP to/TO San/NNP Francisco/NNP instead/RB
./.
22
محاسبه احتماالت مدل مارکوف
براي آموزش مدل فوق بايد احتماالت انتقال واحتماالت خروجي از روي پيكره برچسب خورده به
دست آيد. احتماالت انتقال به سادگي به صورت زير به دست مي آيد:
و همچنين احتمالت خروجي به صورت زير محاسبهمي شود:
23
n-gramمدلهای
Bigramبرچسب گذاری که فقط به کلمه قبل وابسته باشد
Trigramبه دو کلمه قبل از خود وابسته است
24
trigramمثال از مدل
S =the boy laughed T =DT NN VBD
P)T,S(= P)END|NN, VBD(× P)DT|START, START(× P)NN|START, DT(× P)VBD|DT, NN(× P)the|DT(× P)boy|NN(× P)laughed|VBD(
25
زنجيره ماركوف: مثال فرض كنيد كه در يكcorpus، 4 برچسب ART، N، V و P با
شمارش هاي زير داريم: احتمال وقوع برچسب هاي مختلف پس از يكديگر را مي توان
با زنجيره ماركوف زير نشان داد:
26
مدل مخفي ماركوف: مثال محاسبه احتمالP)W|T(:با استفاده از مدل مخفي ماركوف
فرض كنيد كه احتماالتlexical-generation در corpus فرضي به صورت زير است:
27
مدل مخفي ماركوف: مثال
28
مدلهای مبتنی بر حافظه
استفاده از یادگیری ماشینعدم نیاز به پیکره بزرگ برای یادگیری:تلفیقی از دو روش قبل
= نمونه ذخیره شده = قانون ، استدالل مبتنی بر تشابهانتخاب قانون
استفاده از یادگیری ماشیندارای سه بخش
واژگان = کلمات و نشانه هاپایگاه کلمات شناخته شده = کلمات و نشانه ها و مجاورتها پایگاه کلمات ناشناخته
32
ارزيابي:پيكره متني به دو بخش تقسيم مي شود
80-90%( از پيكره براي آموزش train)10-20%( از پيكره براي آزمون test)
با استفاده از داده آموزش آمارهاي الزم استخراج مي گردد و سپسPOS tagging.برروي داده آزمون تست مي شود
:انواع متون در پیکرهرسمیغیر رسمی محاوره ای
قسمتي:5تكنيك اعتبارسنجي متقابل پيكره متني بهK.قسمت مساوي تقسيم مي شود در هر مرحله از ارزيابي، يك بخش براي آزمون وK-1 بخش ديگر براي آموزش به
كار مي رود. اين روندK بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته
مي شود.
دقتPOS tagging:100
كلمات كل تعدادصحيح برچسب با كلمات تعداد
Acc
33
با سپاس از توجه شما
34