popular ensemble methods: an empirical study
DESCRIPTION
به نام خدا. Popular Ensemble Methods: An Empirical Study. استاد راهنما: دکتر کیومرث شیخ اسماعیلی ارائه دهنده: شهرام رحمانی رحیم شیخی مصطفی اعظمی. G7. مقدمه. اصل ”نهار مجانی وجود ندارد“ ( No Free Lunch Theorem) بیان میدارد که: - PowerPoint PPT PresentationTRANSCRIPT
Popular Ensemble Methods: An Empirical Study گروه مهندسي کامپيوتر و فناوری اطالعات دانشگاه
کردستان
Popular Ensemble Methods: An Empirical Study
استاد راهنما: دکتر کیومرث استاد راهنما: دکتر کیومرث شیخ اسماعیلیشیخ اسماعیلی
ارائه دهنده:ارائه دهنده:
شهرام رحمانی شهرام رحمانی
رحیم شیخیرحیم شیخی
مصطفی اعظمیمصطفی اعظمی
به نام خدا
2
مقدمه
بیان میدارد که: ( No Free Lunch Theorem)اصل ”نهار مجانی وجود ندارد“
هیچ الگوریتمی وجود ندارد که برای تمامی مسائل و در تمامی زمانها بهترین) دقیق ترین( یادگیر را بوجود آورد.
ایده: اگر تعدادی یادگیر پایه داشته باشیم میتوان با ترکیب نتایج آنها به دقت باالتری
رسید.
این یادگیرها ممکن است در موارد زیر با هم متفاوت باشند:.الگوریتم: که باعث میشود فرضیات مختلفی در مورد داده استفاده شود پارامترها: مثل تعداد گره های مختلف الیه پنهان شبکه های عصبی و یاK
KNNمتفاوت در نحوه نمایش: استفاده از تعداد متفاوت ویژگی برای هر یادگیر، استفاده از
مجموعه داده متفاوت مجموعه آموزشی: داده های آموزشی یادگیرها اندکی با هم تفاوت داشته
باشند.
3
ترکیب دسته بندی کننده هاروشهای مختلفی برای ترکیب نتایج
دسته بندی کننده ها وجود دارد: متداولترین روشها میانگین گیری و یا
استفاده از رای اکثریت هستندانگیزه اصلی این کار در اینجاست که:
ما هنگام طراحی یک سیستم یادگیرانتخاب های فراوانی داریم: نحوه
نمایش، پارامترهای یادگیر، داده های آموزشی و غیره.
این تنوع باعث میشود که نوعی از واریانس در عملکرد سیستم وجود داشته باشد. در نتیجه اگر سیستم های مختلفی داشته و از نتایج آنها
استفاده شود این امکان وجود دارد که توزیع خطا حول هدف متمرکز
شده و با افزایش نمونه گیری از این توزیع به نتیجه بهتری برسیم
d1
d2
d3
d4
d5
Final output
input
Simple Majority Voting
4
خصوصیت دسته بندی کننده های پایه
برای اینکtه بتtوان نتیجtه مناسtبی از تtرکیب دسtته بنtدی کننtده را زیtر بایtد شtرایط هtا کننtده بنtدی این دسtته گtرفت، هtا
داشته باشند: هر یک به تنهائی در حد قابل قبولی دقیق باشند. البته نیازی
به بسیار دقیق بودن آنها نیست. هر کدام مکمل دیگری عمل کنند. به این معنا که همگی نباید
مشابه هم بوده و نتیجه یکسانی تولید کنند.
5
6
انواع ترکیب دسته بندی کننده هاStatic structures
پاسtخ چنtدین خtبره بtدون در نظtر گtرفتن سtیگنال ورودی بtا هم تtرکیب میشوند.
ensemble averaging روجیtده و خtرکیب شtا هم تtورت خطی بtف بصtای مختلtبره هtخروجی خ
جمعی را بوجود می آوردboosting.یک یادگیر ضعیف طوری تغییر داده میشود تا به دقت باالئی برسد
Dynamic structuresدر این روش سtیگنال ورودی در انتخtاب مکانیسtم تtرکیب خtبره هtا تtاثیر
میگذارد.mixture of experts
بصtورت غtیر خطی بtا Gating networkخروجی خtبره هtا توسtط یtک شtبکه هم ترکیب میشوند.
hierarchical mixture of expertsشtبکه چنtدین توسtط هtا خtبره بصtورت Gating networkخروجی کtه
تtرکیب هم بtا خطی غtیر بصtورت انtد شtده داده قtرار مراتtبی سلسtله میشوند.
7
Ensemble Methods
8
Ensemble Averaging
اگر چندین خبره با بایاس و واریانس یکسان، از طریق با هم ترکیب شوند:ensemble-averaging روش
بایاس سیستم حاصل مشابه بایاس هر یک از خبره هاخواهد بود.
واریانس سیستم حاصل کمتر از واریانس هر یک از خبره هاخواهد بود.
خطای میانگین سیستم حاصل کمتر از خطای میانگین هر یک از خبره ها خواهد بود.
9
Ensemble Averagingنتیجه گیری در مورد
10
مثال
10در این مثال خروجی شبکه با هم ترکیب شده اند.
توانسته به Ensembleمیانگین خطای مورد انتظاری که
کمتر از خطای میانگین شبکه برسد.(D)های منفرد است
درصد صحت دسته 80.3%بندی کننده ترکیبی در
میانگین دسته % 79.4مقابلبندی کننده منفرد
اختالف%1
11
Baggingروش
این روش نیز مبتنی بر رای گیری است با این تفاوت که یادگیرهای پایه با داده های آموزشی متفاوتی آموزش داده
میشوند تا اندکی با هم تفاوت داشته باشند. در نتیجه در حالی که این یادگیرها بدلیل آموزش از مجموعه اصلی مشابه هم
خواهند بود بدلیل انتخاب تصادفی نمونه های آموزشی اندکی با هم اختالف نیز خواهند داشت.
Bagging (Bootstrap Aggregating) - Breiman, 1996 take a training set D, of size N for each network / tree / k-nn / etc…
- build a new training set by sampling N examples,
randomly with replacement, from D - train your machine with the new dataset
end for output is average/vote from all machines trained
12
مثال
برای الگوریتمهای یادگیر ناپایدار یعنی الگوریتمهائی Bagging روش که با تغییر داده دچار تغییر در نتیجه میشوند عملکرد خوبی خواهد
داشت. ) شبکه عصبی و درخت تصمیم نمونه ای از این الگوریتمها پایدار است.( KNNهستند. در حالیکه
Bagging
13
Bagging
14
Boosting
اگر یادگیرهای پایه مشابه هم باشند ترکیب آنها نتیجه متفاوت محسوسی نخواهد داشت. بهتر است که یادگیرها تصمیم گیری
متفاوتی داشته و مکمل یکدیگر باشند. سعی میشود تا تعدادی یادگیر پایه ضعیف که Boostingدر
مکمل هم باشند تولید شده و آنها را با اشتباه یادگیر قبلی آموزش داد.
منظور از یادگیر ضعیف این است که یادگیر فقط کافی است که ( > ½eیک کمی از حالت تصادفی بهتر عمل کند. )
در مقابل به یادگیری که با احتمال باالئی به دقت دلخواه برسد یادگیر قوی گفته میشود.
این است که یک یادگیر ضعیف را به یک Boostingمنظور از یادگیر قوی تبدیل کنیم.
15
16
Boosting
گفته (expert)به هر یک از دسته بندی کننده های مورد استفاده یک خبره میشود. هر خبره با مجموعه داده ای با توزیع متفاوت آموزش داده میشود.
سه روش مختلف وجود دارد:Boostingبرای پیاده سازی Filtering
در این روش فرض میشود مجموعه داده خیلی بزرگ است و مثالهائی کهاز آن انتخاب میشوند، یا حذف شده و یا به مجموعه داده برگردانده می
شوند.Subsampling
این روش با مجموعه داده های با اندازه ثابت بکار برده میشود. داده ها بااستفاده از یک توزیع احتمال مشخص مجدا نمونه برداری میشوند.
Reweighting این روش نیز با مجموعه داده های با اندازه ثابت بکار برده میشود. ولی
داده ها توسط یک یادگیر ضعیف ارزش گذاری شده و به آنها وزن داده میشود.
Boosting
17
Boosting accuracyTraining
18
Boosting
19
AdaBoost )ADAptive BOOSTing(
20
برای قرار گرفتن در مجموعه xtدر این روش احتمال انتخاب یک نمونه بر مبنای احتمال خطای j+1 داده های آموزشی دسته بندی کننده
تعیین میشود: cjدسته بندی کننده اگر نمونهxt بدرستی دسته بندی شده باشد، احتمال انتخاب شدن
آن برای دسته بندی کننده بعدی کاهش داده می شود. اگر نمونه xt بدرستی دسته بندی نشود، احتمال انتخاب شدن آن
برای دسته بندی کننده بعدی افزایش داده می شود.تمامی یادگیرها ضعیف و ساده بوده و باید خطائی کمتر از ½ داشته
باشند در غیر اینصورت آموزش متوقف میشود زیرا ادامه آن باعث خواهد شد تا یادگیری برای دسته بندی کننده بعدی مشکلتر شود.
AdaBoostیک نمونه از پیاده سازی الگوریتم
21
AdaBoost training
22
مثال
23
Arcing-x4
این روش از رای گیری وزن دار استفاده نمی کند. دسته بندی کننده ی قبلی با Kاما وزن مثال ها با توجه به
فرمول زیر محاسبه می شود:
24
مثال
25
مثال
26
مثال
27
مثال
28
مثال
29
Methodology
30
Data Set Error Rates
31
Percent Reduction in Error
32
33
شبکه طا در
خش
صد کاهدر
یصب
ع
34
ت خطا در در
خش
صد کاهدر
مصمی
ت
Ensemble Size
35
Noise
36
Error rates by the size of ensemble & Noise
37
نتیجه گیری
هاsingleوBagging نسبت به Boostingنتیجه بهتر نسبت به نویز وپایین آمدن کارائیBoostingحساسیت
15-10بیشترین کاهش خطا با شبکه عصبی با سایز25بیشترین کاهش خطا با درخت تصمیم با سایز
روی اکثر مسائلBaggingمناسب بودن در شرایط مناسبBoostingباال بودن دقت
38
پیشنهادات
استفاده ازالگوریتم ژنتیک درانتخاب طبقه بندی کننده هاانتخاب مناسب مقدارپارامترها ازقبیل الیه های مخفی و
نرخ یادگیری و....در دیتاهای Boostingشدن Overfitراهکاری برای ممانعت
حاوی نویز
39
40