popular ensemble methods: an empirical study

40
Popular Ensemble Methods: An Empirical Study وری ا ن ف ر و ت و ي پ م ا ک ي س د ن ه م روه گ ان ن س رد ک اه گ$ ش ن دا عات ا ل ط اPopular Ensemble Methods: An Empirical Study ي ل ن ع ما س ا خ ی$ س$ رت م و ي ک ر کت ما: د ن هد را ا ن س ا ي ل ن ع ما س ا خ ی$ س$ رت م و ي ک ر کت ما: د ن هد را ا ن س ا ده: ن ه ه د< ئ ارا ده: ن ه ه د< ارائ ی ن ما حام ر ر ه$ ش ی ن ما حام ر ر ه$ ش ي خ ی$ س م ی ح ر ي خ ی$ س م ی ح ر ي مL ظ ع ي ا ف صط م ي مL ظ ع ي ا ف صط م دا ام خ ه نV ئ

Upload: jolene-riley

Post on 02-Jan-2016

61 views

Category:

Documents


3 download

DESCRIPTION

به نام خدا. Popular Ensemble Methods: An Empirical Study. استاد راهنما: دکتر کیومرث شیخ اسماعیلی ارائه دهنده: شهرام رحمانی رحیم شیخی مصطفی اعظمی. G7. مقدمه. اصل ”نهار مجانی وجود ندارد“ ( No Free Lunch Theorem) بیان میدارد که: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Popular Ensemble Methods: An Empirical Study

Popular Ensemble Methods: An Empirical Study گروه مهندسي کامپيوتر و فناوری اطالعات دانشگاه

کردستان

Popular Ensemble Methods: An Empirical Study

استاد راهنما: دکتر کیومرث استاد راهنما: دکتر کیومرث شیخ اسماعیلیشیخ اسماعیلی

ارائه دهنده:ارائه دهنده:

شهرام رحمانی شهرام رحمانی

رحیم شیخیرحیم شیخی

مصطفی اعظمیمصطفی اعظمی

به نام خدا

Page 2: Popular Ensemble Methods: An Empirical Study

2

مقدمه

بیان میدارد که: ( No Free Lunch Theorem)اصل ”نهار مجانی وجود ندارد“

هیچ الگوریتمی وجود ندارد که برای تمامی مسائل و در تمامی زمانها بهترین) دقیق ترین( یادگیر را بوجود آورد.

ایده: اگر تعدادی یادگیر پایه داشته باشیم میتوان با ترکیب نتایج آنها به دقت باالتری

رسید.

این یادگیرها ممکن است در موارد زیر با هم متفاوت باشند:.الگوریتم: که باعث میشود فرضیات مختلفی در مورد داده استفاده شود پارامترها: مثل تعداد گره های مختلف الیه پنهان شبکه های عصبی و یاK

KNNمتفاوت در نحوه نمایش: استفاده از تعداد متفاوت ویژگی برای هر یادگیر، استفاده از

مجموعه داده متفاوت مجموعه آموزشی: داده های آموزشی یادگیرها اندکی با هم تفاوت داشته

باشند.

Page 3: Popular Ensemble Methods: An Empirical Study

3

ترکیب دسته بندی کننده هاروشهای مختلفی برای ترکیب نتایج

دسته بندی کننده ها وجود دارد: متداولترین روشها میانگین گیری و یا

استفاده از رای اکثریت هستندانگیزه اصلی این کار در اینجاست که:

ما هنگام طراحی یک سیستم یادگیرانتخاب های فراوانی داریم: نحوه

نمایش، پارامترهای یادگیر، داده های آموزشی و غیره.

این تنوع باعث میشود که نوعی از واریانس در عملکرد سیستم وجود داشته باشد. در نتیجه اگر سیستم های مختلفی داشته و از نتایج آنها

استفاده شود این امکان وجود دارد که توزیع خطا حول هدف متمرکز

شده و با افزایش نمونه گیری از این توزیع به نتیجه بهتری برسیم

d1

d2

d3

d4

d5

Final output

input

Page 4: Popular Ensemble Methods: An Empirical Study

Simple Majority Voting

4

Page 5: Popular Ensemble Methods: An Empirical Study

خصوصیت دسته بندی کننده های پایه

برای اینکtه بتtوان نتیجtه مناسtبی از تtرکیب دسtته بنtدی کننtده را زیtر بایtد شtرایط هtا کننtده بنtدی این دسtته گtرفت، هtا

داشته باشند: هر یک به تنهائی در حد قابل قبولی دقیق باشند. البته نیازی

به بسیار دقیق بودن آنها نیست. هر کدام مکمل دیگری عمل کنند. به این معنا که همگی نباید

مشابه هم بوده و نتیجه یکسانی تولید کنند.

5

Page 6: Popular Ensemble Methods: An Empirical Study

6

انواع ترکیب دسته بندی کننده هاStatic structures

پاسtخ چنtدین خtبره بtدون در نظtر گtرفتن سtیگنال ورودی بtا هم تtرکیب میشوند.

ensemble averaging روجیtده و خtرکیب شtا هم تtورت خطی بtف بصtای مختلtبره هtخروجی خ

جمعی را بوجود می آوردboosting.یک یادگیر ضعیف طوری تغییر داده میشود تا به دقت باالئی برسد

Dynamic structuresدر این روش سtیگنال ورودی در انتخtاب مکانیسtم تtرکیب خtبره هtا تtاثیر

میگذارد.mixture of experts

بصtورت غtیر خطی بtا Gating networkخروجی خtبره هtا توسtط یtک شtبکه هم ترکیب میشوند.

hierarchical mixture of expertsشtبکه چنtدین توسtط هtا خtبره بصtورت Gating networkخروجی کtه

تtرکیب هم بtا خطی غtیر بصtورت انtد شtده داده قtرار مراتtبی سلسtله میشوند.

Page 7: Popular Ensemble Methods: An Empirical Study

7

Ensemble Methods

Page 8: Popular Ensemble Methods: An Empirical Study

8

Ensemble Averaging

Page 9: Popular Ensemble Methods: An Empirical Study

اگر چندین خبره با بایاس و واریانس یکسان، از طریق با هم ترکیب شوند:ensemble-averaging روش

بایاس سیستم حاصل مشابه بایاس هر یک از خبره هاخواهد بود.

واریانس سیستم حاصل کمتر از واریانس هر یک از خبره هاخواهد بود.

خطای میانگین سیستم حاصل کمتر از خطای میانگین هر یک از خبره ها خواهد بود.

9

Ensemble Averagingنتیجه گیری در مورد

Page 10: Popular Ensemble Methods: An Empirical Study

10

مثال

10در این مثال خروجی شبکه با هم ترکیب شده اند.

توانسته به Ensembleمیانگین خطای مورد انتظاری که

کمتر از خطای میانگین شبکه برسد.(D)های منفرد است

درصد صحت دسته 80.3%بندی کننده ترکیبی در

میانگین دسته % 79.4مقابلبندی کننده منفرد

اختالف%1

Page 11: Popular Ensemble Methods: An Empirical Study

11

Baggingروش

این روش نیز مبتنی بر رای گیری است با این تفاوت که یادگیرهای پایه با داده های آموزشی متفاوتی آموزش داده

میشوند تا اندکی با هم تفاوت داشته باشند. در نتیجه در حالی که این یادگیرها بدلیل آموزش از مجموعه اصلی مشابه هم

خواهند بود بدلیل انتخاب تصادفی نمونه های آموزشی اندکی با هم اختالف نیز خواهند داشت.

Bagging (Bootstrap Aggregating) - Breiman, 1996 take a training set D, of size N for each network / tree / k-nn / etc…

- build a new training set by sampling N examples,

randomly with replacement, from D - train your machine with the new dataset

end for output is average/vote from all machines trained

Page 12: Popular Ensemble Methods: An Empirical Study

12

مثال

برای الگوریتمهای یادگیر ناپایدار یعنی الگوریتمهائی Bagging روش که با تغییر داده دچار تغییر در نتیجه میشوند عملکرد خوبی خواهد

داشت. ) شبکه عصبی و درخت تصمیم نمونه ای از این الگوریتمها پایدار است.( KNNهستند. در حالیکه

Page 13: Popular Ensemble Methods: An Empirical Study

Bagging

13

Page 14: Popular Ensemble Methods: An Empirical Study

Bagging

14

Page 15: Popular Ensemble Methods: An Empirical Study

Boosting

اگر یادگیرهای پایه مشابه هم باشند ترکیب آنها نتیجه متفاوت محسوسی نخواهد داشت. بهتر است که یادگیرها تصمیم گیری

متفاوتی داشته و مکمل یکدیگر باشند. سعی میشود تا تعدادی یادگیر پایه ضعیف که Boostingدر

مکمل هم باشند تولید شده و آنها را با اشتباه یادگیر قبلی آموزش داد.

منظور از یادگیر ضعیف این است که یادگیر فقط کافی است که ( > ½eیک کمی از حالت تصادفی بهتر عمل کند. )

در مقابل به یادگیری که با احتمال باالئی به دقت دلخواه برسد یادگیر قوی گفته میشود.

این است که یک یادگیر ضعیف را به یک Boostingمنظور از یادگیر قوی تبدیل کنیم.

15

Page 16: Popular Ensemble Methods: An Empirical Study

16

Boosting

گفته (expert)به هر یک از دسته بندی کننده های مورد استفاده یک خبره میشود. هر خبره با مجموعه داده ای با توزیع متفاوت آموزش داده میشود.

سه روش مختلف وجود دارد:Boostingبرای پیاده سازی Filtering

در این روش فرض میشود مجموعه داده خیلی بزرگ است و مثالهائی کهاز آن انتخاب میشوند، یا حذف شده و یا به مجموعه داده برگردانده می

شوند.Subsampling

این روش با مجموعه داده های با اندازه ثابت بکار برده میشود. داده ها بااستفاده از یک توزیع احتمال مشخص مجدا نمونه برداری میشوند.

Reweighting این روش نیز با مجموعه داده های با اندازه ثابت بکار برده میشود. ولی

داده ها توسط یک یادگیر ضعیف ارزش گذاری شده و به آنها وزن داده میشود.

Page 17: Popular Ensemble Methods: An Empirical Study

Boosting

17

Page 18: Popular Ensemble Methods: An Empirical Study

Boosting accuracyTraining

18

Page 19: Popular Ensemble Methods: An Empirical Study

Boosting

19

Page 20: Popular Ensemble Methods: An Empirical Study

AdaBoost )ADAptive BOOSTing(

20

برای قرار گرفتن در مجموعه xtدر این روش احتمال انتخاب یک نمونه بر مبنای احتمال خطای j+1 داده های آموزشی دسته بندی کننده

تعیین میشود: cjدسته بندی کننده اگر نمونهxt بدرستی دسته بندی شده باشد، احتمال انتخاب شدن

آن برای دسته بندی کننده بعدی کاهش داده می شود. اگر نمونه xt بدرستی دسته بندی نشود، احتمال انتخاب شدن آن

برای دسته بندی کننده بعدی افزایش داده می شود.تمامی یادگیرها ضعیف و ساده بوده و باید خطائی کمتر از ½ داشته

باشند در غیر اینصورت آموزش متوقف میشود زیرا ادامه آن باعث خواهد شد تا یادگیری برای دسته بندی کننده بعدی مشکلتر شود.

Page 21: Popular Ensemble Methods: An Empirical Study

AdaBoostیک نمونه از پیاده سازی الگوریتم

21

Page 22: Popular Ensemble Methods: An Empirical Study

AdaBoost training

22

Page 23: Popular Ensemble Methods: An Empirical Study

مثال

23

Page 24: Popular Ensemble Methods: An Empirical Study

Arcing-x4

این روش از رای گیری وزن دار استفاده نمی کند. دسته بندی کننده ی قبلی با Kاما وزن مثال ها با توجه به

فرمول زیر محاسبه می شود:

24

Page 25: Popular Ensemble Methods: An Empirical Study

مثال

25

Page 26: Popular Ensemble Methods: An Empirical Study

مثال

26

Page 27: Popular Ensemble Methods: An Empirical Study

مثال

27

Page 28: Popular Ensemble Methods: An Empirical Study

مثال

28

Page 29: Popular Ensemble Methods: An Empirical Study

مثال

29

Page 30: Popular Ensemble Methods: An Empirical Study

Methodology

30

Page 31: Popular Ensemble Methods: An Empirical Study

Data Set Error Rates

31

Page 32: Popular Ensemble Methods: An Empirical Study

Percent Reduction in Error

32

Page 33: Popular Ensemble Methods: An Empirical Study

33

شبکه طا در

خش

صد کاهدر

یصب

ع

Page 34: Popular Ensemble Methods: An Empirical Study

34

ت خطا در در

خش

صد کاهدر

مصمی

ت

Page 35: Popular Ensemble Methods: An Empirical Study

Ensemble Size

35

Page 36: Popular Ensemble Methods: An Empirical Study

Noise

36

Page 37: Popular Ensemble Methods: An Empirical Study

Error rates by the size of ensemble & Noise

37

Page 38: Popular Ensemble Methods: An Empirical Study

نتیجه گیری

هاsingleوBagging نسبت به Boostingنتیجه بهتر نسبت به نویز وپایین آمدن کارائیBoostingحساسیت

15-10بیشترین کاهش خطا با شبکه عصبی با سایز25بیشترین کاهش خطا با درخت تصمیم با سایز

روی اکثر مسائلBaggingمناسب بودن در شرایط مناسبBoostingباال بودن دقت

38

Page 39: Popular Ensemble Methods: An Empirical Study

پیشنهادات

استفاده ازالگوریتم ژنتیک درانتخاب طبقه بندی کننده هاانتخاب مناسب مقدارپارامترها ازقبیل الیه های مخفی و

نرخ یادگیری و....در دیتاهای Boostingشدن Overfitراهکاری برای ممانعت

حاوی نویز

39

Page 40: Popular Ensemble Methods: An Empirical Study

40