popular ensemble methods: an empirical study

Popular Ensemble Methods: An Empirical Study گروه مهندسي کامپيوتر و فناوری اطالعات دانشگاه

کردستان

Popular Ensemble Methods: An Empirical Study

استاد راهنما: دکتر کیومرث استاد راهنما: دکتر کیومرث شیخ اسماعیلیشیخ اسماعیلی

ارائه دهنده:ارائه دهنده:

شهرام رحمانی شهرام رحمانی

رحیم شیخیرحیم شیخی

مصطفی اعظمیمصطفی اعظمی

به نام خدا

2

مقدمه

بیان میدارد که: ( No Free Lunch Theorem)اصل ”نهار مجانی وجود ندارد“

هیچ الگوریتمی وجود ندارد که برای تمامی مسائل و در تمامی زمانها بهترین) دقیق ترین( یادگیر را بوجود آورد.

ایده: اگر تعدادی یادگیر پایه داشته باشیم میتوان با ترکیب نتایج آنها به دقت باالتری

رسید.

این یادگیرها ممکن است در موارد زیر با هم متفاوت باشند:.الگوریتم: که باعث میشود فرضیات مختلفی در مورد داده استفاده شود پارامترها: مثل تعداد گره های مختلف الیه پنهان شبکه های عصبی و یاK

KNNمتفاوت در نحوه نمایش: استفاده از تعداد متفاوت ویژگی برای هر یادگیر، استفاده از

مجموعه داده متفاوت مجموعه آموزشی: داده های آموزشی یادگیرها اندکی با هم تفاوت داشته

باشند.

3

ترکیب دسته بندی کننده هاروشهای مختلفی برای ترکیب نتایج

دسته بندی کننده ها وجود دارد: متداولترین روشها میانگین گیری و یا

استفاده از رای اکثریت هستندانگیزه اصلی این کار در اینجاست که:

ما هنگام طراحی یک سیستم یادگیرانتخاب های فراوانی داریم: نحوه

نمایش، پارامترهای یادگیر، داده های آموزشی و غیره.

این تنوع باعث میشود که نوعی از واریانس در عملکرد سیستم وجود داشته باشد. در نتیجه اگر سیستم های مختلفی داشته و از نتایج آنها

استفاده شود این امکان وجود دارد که توزیع خطا حول هدف متمرکز

شده و با افزایش نمونه گیری از این توزیع به نتیجه بهتری برسیم

d1

d2

d3

d4

d5

Final output

input

Simple Majority Voting

4

خصوصیت دسته بندی کننده های پایه

برای اینکtه بتtوان نتیجtه مناسtبی از تtرکیب دسtته بنtدی کننtده را زیtر بایtد شtرایط هtا کننtده بنtدی این دسtته گtرفت، هtا

داشته باشند: هر یک به تنهائی در حد قابل قبولی دقیق باشند. البته نیازی

به بسیار دقیق بودن آنها نیست. هر کدام مکمل دیگری عمل کنند. به این معنا که همگی نباید

مشابه هم بوده و نتیجه یکسانی تولید کنند.

5

6

انواع ترکیب دسته بندی کننده هاStatic structures

پاسtخ چنtدین خtبره بtدون در نظtر گtرفتن سtیگنال ورودی بtا هم تtرکیب میشوند.

ensemble averaging روجیtده و خtرکیب شtا هم تtورت خطی بtف بصtای مختلtبره هtخروجی خ

جمعی را بوجود می آوردboosting.یک یادگیر ضعیف طوری تغییر داده میشود تا به دقت باالئی برسد

Dynamic structuresدر این روش سtیگنال ورودی در انتخtاب مکانیسtم تtرکیب خtبره هtا تtاثیر

میگذارد.mixture of experts

بصtورت غtیر خطی بtا Gating networkخروجی خtبره هtا توسtط یtک شtبکه هم ترکیب میشوند.

hierarchical mixture of expertsشtبکه چنtدین توسtط هtا خtبره بصtورت Gating networkخروجی کtه

تtرکیب هم بtا خطی غtیر بصtورت انtد شtده داده قtرار مراتtبی سلسtله میشوند.

7

Ensemble Methods

8

Ensemble Averaging

اگر چندین خبره با بایاس و واریانس یکسان، از طریق با هم ترکیب شوند:ensemble-averaging روش

بایاس سیستم حاصل مشابه بایاس هر یک از خبره هاخواهد بود.

واریانس سیستم حاصل کمتر از واریانس هر یک از خبره هاخواهد بود.

خطای میانگین سیستم حاصل کمتر از خطای میانگین هر یک از خبره ها خواهد بود.

9

Ensemble Averagingنتیجه گیری در مورد

10

مثال

10در این مثال خروجی شبکه با هم ترکیب شده اند.

توانسته به Ensembleمیانگین خطای مورد انتظاری که

کمتر از خطای میانگین شبکه برسد.(D)های منفرد است

درصد صحت دسته 80.3%بندی کننده ترکیبی در

میانگین دسته % 79.4مقابلبندی کننده منفرد

اختالف%1

11

Baggingروش

این روش نیز مبتنی بر رای گیری است با این تفاوت که یادگیرهای پایه با داده های آموزشی متفاوتی آموزش داده

میشوند تا اندکی با هم تفاوت داشته باشند. در نتیجه در حالی که این یادگیرها بدلیل آموزش از مجموعه اصلی مشابه هم

خواهند بود بدلیل انتخاب تصادفی نمونه های آموزشی اندکی با هم اختالف نیز خواهند داشت.

Bagging (Bootstrap Aggregating) - Breiman, 1996 take a training set D, of size N for each network / tree / k-nn / etc…

- build a new training set by sampling N examples,

randomly with replacement, from D - train your machine with the new dataset

end for output is average/vote from all machines trained

12

مثال

برای الگوریتمهای یادگیر ناپایدار یعنی الگوریتمهائی Bagging روش که با تغییر داده دچار تغییر در نتیجه میشوند عملکرد خوبی خواهد

داشت. ) شبکه عصبی و درخت تصمیم نمونه ای از این الگوریتمها پایدار است.( KNNهستند. در حالیکه

Bagging

13

Bagging

14

Boosting

اگر یادگیرهای پایه مشابه هم باشند ترکیب آنها نتیجه متفاوت محسوسی نخواهد داشت. بهتر است که یادگیرها تصمیم گیری

متفاوتی داشته و مکمل یکدیگر باشند. سعی میشود تا تعدادی یادگیر پایه ضعیف که Boostingدر

مکمل هم باشند تولید شده و آنها را با اشتباه یادگیر قبلی آموزش داد.

منظور از یادگیر ضعیف این است که یادگیر فقط کافی است که ( > ½eیک کمی از حالت تصادفی بهتر عمل کند. )

در مقابل به یادگیری که با احتمال باالئی به دقت دلخواه برسد یادگیر قوی گفته میشود.

این است که یک یادگیر ضعیف را به یک Boostingمنظور از یادگیر قوی تبدیل کنیم.

15

16

Boosting

گفته (expert)به هر یک از دسته بندی کننده های مورد استفاده یک خبره میشود. هر خبره با مجموعه داده ای با توزیع متفاوت آموزش داده میشود.

سه روش مختلف وجود دارد:Boostingبرای پیاده سازی Filtering

در این روش فرض میشود مجموعه داده خیلی بزرگ است و مثالهائی کهاز آن انتخاب میشوند، یا حذف شده و یا به مجموعه داده برگردانده می

شوند.Subsampling

این روش با مجموعه داده های با اندازه ثابت بکار برده میشود. داده ها بااستفاده از یک توزیع احتمال مشخص مجدا نمونه برداری میشوند.

Reweighting این روش نیز با مجموعه داده های با اندازه ثابت بکار برده میشود. ولی

داده ها توسط یک یادگیر ضعیف ارزش گذاری شده و به آنها وزن داده میشود.

Boosting

17

Boosting accuracyTraining

18

Boosting

19

AdaBoost )ADAptive BOOSTing(

20

برای قرار گرفتن در مجموعه xtدر این روش احتمال انتخاب یک نمونه بر مبنای احتمال خطای j+1 داده های آموزشی دسته بندی کننده

تعیین میشود: cjدسته بندی کننده اگر نمونهxt بدرستی دسته بندی شده باشد، احتمال انتخاب شدن

آن برای دسته بندی کننده بعدی کاهش داده می شود. اگر نمونه xt بدرستی دسته بندی نشود، احتمال انتخاب شدن آن

برای دسته بندی کننده بعدی افزایش داده می شود.تمامی یادگیرها ضعیف و ساده بوده و باید خطائی کمتر از ½ داشته

باشند در غیر اینصورت آموزش متوقف میشود زیرا ادامه آن باعث خواهد شد تا یادگیری برای دسته بندی کننده بعدی مشکلتر شود.

AdaBoostیک نمونه از پیاده سازی الگوریتم

21

AdaBoost training

22

مثال

23

Arcing-x4

این روش از رای گیری وزن دار استفاده نمی کند. دسته بندی کننده ی قبلی با Kاما وزن مثال ها با توجه به

فرمول زیر محاسبه می شود:

24

مثال

25

مثال

26

مثال

27

مثال

28

مثال

29

Methodology

30

Data Set Error Rates

31

Percent Reduction in Error

32

33

شبکه طا در

خش

صد کاهدر

یصب

ع

34

ت خطا در در

خش

صد کاهدر

مصمی

ت

Ensemble Size

35

Noise

36

Error rates by the size of ensemble & Noise

37

نتیجه گیری

هاsingleوBagging نسبت به Boostingنتیجه بهتر نسبت به نویز وپایین آمدن کارائیBoostingحساسیت

15-10بیشترین کاهش خطا با شبکه عصبی با سایز25بیشترین کاهش خطا با درخت تصمیم با سایز

روی اکثر مسائلBaggingمناسب بودن در شرایط مناسبBoostingباال بودن دقت

38

پیشنهادات

استفاده ازالگوریتم ژنتیک درانتخاب طبقه بندی کننده هاانتخاب مناسب مقدارپارامترها ازقبیل الیه های مخفی و

نرخ یادگیری و....در دیتاهای Boostingشدن Overfitراهکاری برای ممانعت

حاوی نویز

39

popular ensemble methods: an empirical study

Documents

bagging boosting

ensemble size

ensemble ed

size of ensemble noise

overfit boosting

adaboost adaptive boosting

new training set

training set d