دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي ...

34
1 اوب ن ت م وهاي گ ل ا کاوش راي ب مد را کا وب چ ار چ ک ي ه# ارائ رگ ر ب ار ن س ب ش کن را+ ب هاي گاه اي پ روي ر بRepresenting an Efficient Framework for Frequent Pattern Mining on Very Large Transaction Databases ي ب را سه م ي ر ک مد ح م و: ج ش ب دا84131906 ا+ ق ا اب ن ج ما: ن هد را ا+ ن س ا ي اده داله ر ن ع ر+ کت د ر تS ب ک ر مت ا ي+ عت ن صاه گ ش ب دا ر+ ب و ي] مت کا ي س د ن ه م کده ش ب دا رماه مه1386 رد خ وe ان د چ وپg دا ام چ ه پ ئ

Upload: shania

Post on 05-Jan-2016

116 views

Category:

Documents


7 download

DESCRIPTION

به نام خداوند جان و خرد. ارائه يک چارچوب کارآمد براي کاوش الگوهاي متناوب بر روي پايگاه‌هاي تراکنش بسيار بزرگ Representing an Efficient Framework for Frequent Pattern Mining on Very Large Transaction Databases. دانشگاه صنعتي اميرکبير دانشکده مهندسي کامپيوتر. دانشجو: محمد کريم سهرابي 84131906 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

1

ارائه يک چارچوب کارآمد براي کاوش الگوهاي متناوب بر روي پايگاه هاي

تراکنش بسيار بزرگRepresenting an Efficient Framework for Frequent Pattern Mining on Very Large

Transaction Databases

دانشجو: محمد کريم سهرابي84131906

دکتر عبداله زادهياستاد راهنما: جناب آقا

دانشگاه صنعتي اميرکبيردانشکده مهندسي کامپيوتر

1386مهرماه

به نام خداوند جان و خرد

Page 2: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

2

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 3: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

3

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 4: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

4

هدف رسالة دکتري در اين رساله به دنبال ارائه يک چارچوب مناسب

براي کاوش الگوهاي متناوب هستيم. کند تا اين چارچوب بستري فراهم مي

،کاربر بتواند يک پايگاه تراکنش ايجاد کندهاي کارآمد جديدي را که در اين رساله الگوريتم

شود، براي کاوش اين پايگاه تراکنش به ارائه ميکار گيرد،

نتايج به دست آمده از اين الگوريتم ها را با نتايجالگوريتم هاي پيشين مقايسه نمايد،

و در نهايت امکان اجراي موازي الگوريتمها بهصورت کارآمد را داشته باشد.

آنچه در اين رساله به عنوان الگو مد نظر قرار داردمجموعه آيتمهاي متناوب است.

Page 5: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

5

هدف رسالة دکتري ،کارآمدي براي الگوريتمهاي ارائه شده در اين رساله

بسته به کاربرد الگوريتم، داراي دو جنبه متفاوت است. مانند پاسخگويي به پرس و )کاربردها دسته اول

(اي جوهاي آستانه :کاوش مجموعه کاملي از همه هدف

الگوهاي متناوبدر اين دسته از کاربردها، الگوريتمي را کارآمد مي

دانيم که و کمترين زمان ممکن در کارگيري حداقل فضاي حافظهبا به همه الگوهاي متناوب کاملمجموعه

. موجود در پايگاه تراکنش را محاسبه نمايد

Page 6: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

6

هدف رسالة دکتري)دسته دوم کاربردها )مانند کاوش اطالعات زيستي

نیاز به الگوهاي بزرگ موجود در پايگاه تراکنش الگوهای کوچک و متوسط کارآيي ندارند و تنها الگوهاي

بزرگ به درد مي خورند براي آنکه بتوانيم الگوهاي بزرگ متناوب را به دست آوريم

به ناچار بايد الگوهاي کوچکتر را کاوش نماييم. کاوش الگوهاي بزرگ بدون ايجاد و تست تناوب همه

الگوهاي کوچکتر کاوشکاهش قابل توجه زمانموجود در الگوريتم هاي کاوش عدم قطعيت

مجموعه کامل الگوهاي متناوبمعیار در اين دسته از کاربردها

کم بودن زمان کاوش دقت نتايج

Page 7: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

7

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 8: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

8

فرضيات حل مساله در رساله در حل مساله همواره فرض بر اين است که

تراکنشهای مورد استفاده مساله درون يک پايگاه تراکنشذخيره شده اند.

در ارائه راه حلهای معمولی برای مسائل فرض بر ایناست که پايگاه تراکنش مورد نظر به روز رسانی نمی

شود. در صورت به روز رسانی پايگاه تراکنش، اين به روزرسانی

سبب تغيير در الگوهای متناوب کاوش شده نمی گردد. :الگوها را به سه دسته اصلی تقسيم می شوند

مجموعه آیتم های متناوبتوالی های متناوب . توالی های متناوب بسته

تکنيکهای پيشنهادي در اين رساله، مجموعه آيتمهای متناوب را به عنوان الگو در نظر می گيرند.

Page 9: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

9

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 10: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

10

ي رساله دکتري اصليدستاوردها

ن رساله در سه جنبه انجام يمطالعات و پژوهش های اخواهد شد.

تم های موجود طوری که مجموعه کامل همه يالگوربهبودالگوهای متناوب به صورت کارآتر قابل کاوش باشند.

از به کاوش يار بزرگ بدون نيالگوهای بسبرای يافتن ارائه.همه الگوهای کوچک و متوسط

تم های کاوشيبررسی امکان موازی شدن الگورال مساله کاوش، يبررسی بخش های ذاتا سری از مساله که مستعد موازی شدن يکشف بخش ها

هستند، ع متوازن عملیات کاوش و داده های مورد ينحوه توز

استفاده بر روی پردازنده ها، کاهش حجم تبادالت داده ای

Page 11: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

11

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 12: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

12

تعریف مساله

الگوها

کاوش الگوی متناوب: یافتن الگویی از عناصر، ویژگی ها یا آیتم ها که در

یک مجموعه داده بیش از حد معینی تکرار شده باشند.

.حد آستانه توسط کاربر مشخص می شود

.انواع الگوهای مهممجموعه آیتم ها توالی هاتوالی های بسته

Page 13: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

13

تعریف مساله

مجموعه آیتم های متناوب

پیشینه: توسط 1993در سال Agrawal.در قالب کاوش الگوهای تداعی

تعریف ریاضی: مجموعهI={i1, i2, …, in}مجموعه ای از آیتم ها

Page 14: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

14

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 15: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

15

رهیافت های جاری برای حل مساله

کاوش مجموعه آیتم های متناوبمجموعه d^2 آیتم موجود در یک مجموعه داده، dبه ازای

آیتم کاندیدا ممکن وجود خواهد داشت. یک روش سردستی (Naïve)

هر یک از این مجموعه آیتم ها با تک تک تراکنش های موجود در مقایسه

پایگاه تراکنش بر مجموعه آیتم مزبورمشتملتعداد تراکنش های شمارش مجموعه آیتم هایی که تعداد تکرار آنها ازحد آستانه ای مشخص نمودن

است ربیشت

تعداد مجموعه آیتم هانماییمرتبه پایگاه تراکنش مورد در میلیون ها آیتمامکان وجود

استفاده خواهد بود زمان گیرین روش از نظر محاسباتی بسیار ا

ورد. آ پاسخ را به دست قابل قبولیزمانو نمی تواند در

Page 16: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

16

رهیافت های جاری برای حل مساله

کاوش مجموعه آیتم های متناوب

فضای جستجوی همه مجموعه آیتم ها را می توان با یک نشان داد. (Subset lattice) شبکه بندی زیرمجموعه ای

مجموعه آیتم تهی در راس این شبکه بندی قرار می گیرد

مجموعه آیتمی که شامل همه آیتم هاست، در پایین ترینسطح است.

5شبکه بندی مجموعه ای پایگاه تراکنشی که مشتمل بر ، نشان داده شده است استE و A، B، C، Dآیتم

Page 17: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

17

رهیافت های جاری برای حل مساله

{A, B, C, D, E} آیتم 5شبکه ای از همه مجموعه آیتم های ممکن به ازای

مثالی از شبکه بندی زيرمجموعه ای

A B C D E

AB

AC

AD

AE BC

BD

BE

CD

CE

DE

ABC

ABD

ABE

ACD

ACE

ADE

BCD

BCE

BDE

CDE

ABCD

ABCE

ABDE

ACDE

BCDE

ABCDE

null

Page 18: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

18

رهیافت های جاری برای حل مساله

کاوش مجموعه آیتم های متناوب

دو دسته کلی از الگوریتم های کاوش مجموعه آیتم هایمتناوب وجود دارند:

الگوریتم های اول سطحاز نود راس شبکه شروع به پویش می نمایند. مجموعه آیتم های کاندید را سطح به سطح مورد تست قرار

.می دهند در مورد تناوب یا عدم تناوب آنها در پایگاه تراکنش را

تصمیم گیری می کنند.

الگوریتم های اول عمق شبکه را با شروع از نود منحصر به فردی مانندi جستجو

.می نمایند مجموعه های کاندید بزرگتر در هر بار، با افزودن یک آیتم

تولید می شوند.

Page 19: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

19

رهیافت های جاری برای حل مساله

کاوش مجموعه آیتم های متناوب

جستجوی مبتنی برسطح الگوریتمApriori

بهبودهای انجام شده بر رویApriori شمارش پویای مجموعه آیتم هاDynamic Itemset

Counting (DIC)

جستجوی مبتنی بر عمق تصویر سازی درختیTreeProjectionFP-Growth

Page 20: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

20

رهیافت های جاری برای حل مساله

Apriori

اساس اين روش بر اصل زير استوار است هيچ ابرمجموعه متناوبي از يک مجموعه آيتم نامتناوب وجود

ندارد. هاي آن اگر مجموعه آيتم نامتناوبي داشته باشيم، همه ابرمجموعه

نامتناوب خواهند بود.

اي از هر زيرمجموعهنتيجه مستقيم اين مطلب اين است که يک مجموعه آيتم متناوب، خود مجموعه آيتمي متناوب خواهد

بود.

الگوريتمApriori يک پايگاه تراکنش TDB و يک حد آستانه S TDBرا می گيرد و مجموعه همه الگوهای متناوب موجود در

را خواهد يافت

Page 21: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

21

رهیافت های جاری برای حل مساله

Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير

(TDB) و با حد آستانه S=3 در ابتداTDB براي يافتن همه آيتمهاي متناوب )الگوهاي ،

شود. متناوب يک آيتمي(، يک بار پويش مي

Tid Itemsets

100 f, a, c, d, g, I, m, p

200 a, b, c, f, l, m, o

300 b, f, h, g, o

400 b, c, k, s, p

500 a, f, c, e, l, p, m, n

Page 22: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

22

رهیافت های جاری برای حل مساله

Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير

(TDB) و با حد آستانه S=3 در ابتداTDB براي يافتن همه آيتمهاي متناوب )الگوهاي ،

شود. متناوب يک آيتمي(، يک بار پويش ميL1مجموعه همه مجموعه آیتمهای تک آیتمی :

L1={(a:3)

Tid Itemsets

100 f, a, c, d, g, I, m, p

200 a, b, c, f, l, m, o

300 b, f, h, g, o

400 b, c, k, s, p

500 a, f, c, e, l, p, m, n

Page 23: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

23

رهیافت های جاری برای حل مساله

Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير

(TDB) و با حد آستانه S=3 در ابتداTDB براي يافتن همه آيتمهاي متناوب )الگوهاي ،

شود. متناوب يک آيتمي(، يک بار پويش ميL1مجموعه همه مجموعه آیتمهای تک آیتمی :

L1={a, (b:3)

Tid Itemsets

100 f, a, c, d, g, I, m, p

200 a, b, c, f, l, m, o

300 b, f, h, g, o

400 b, c, k, s, p

500 a, f, c, e, l, p, m, n

Page 24: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

24

رهیافت های جاری برای حل مساله

Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير

(TDB) و با حد آستانه S=3 در ابتداTDB براي يافتن همه آيتمهاي متناوب )الگوهاي ،

شود. متناوب يک آيتمي(، يک بار پويش ميL1مجموعه همه مجموعه آیتمهای تک آیتمی :

L1={a, b, (c:4)

Tid Itemsets

100 f, a, c, d, g, I, m, p

200 a, b, c, f, l, m, o

300 b, f, h, g, o

400 b, c, k, s, p

500 a, f, c, e, l, p, m, n

Page 25: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

25

رهیافت های جاری برای حل مساله

Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير

(TDB) و با حد آستانه S=3 در ابتداTDB براي يافتن همه آيتمهاي متناوب )الگوهاي ،

شود. متناوب يک آيتمي(، يک بار پويش ميL1مجموعه همه مجموعه آیتمهای تک آیتمی :

L1={a, b, c, (f:4)

Tid Itemsets

100 f, a, c, d, g, I, m, p

200 a, b, c, f, l, m, o

300 b, f, h, g, o

400 b, c, k, s, p

500 a, f, c, e, l, p, m, n

Page 26: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

26

رهیافت های جاری برای حل مساله

Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير

(TDB) و با حد آستانه S=3 در ابتداTDB براي يافتن همه آيتمهاي متناوب )الگوهاي ،

شود. متناوب يک آيتمي(، يک بار پويش ميL1مجموعه همه مجموعه آیتمهای تک آیتمی :

L1={a, b, c, f, (m:3)

Tid Itemsets

100 f, a, c, d, g, I, m, p

200 a, b, c, f, l, m, o

300 b, f, h, g, o

400 b, c, k, s, p

500 a, f, c, e, l, p, m, n

Page 27: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

27

رهیافت های جاری برای حل مساله

Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير

(TDB) و با حد آستانه S=3 در ابتداTDB براي يافتن همه آيتمهاي متناوب )الگوهاي ،

شود. متناوب يک آيتمي(، يک بار پويش ميL1مجموعه همه مجموعه آیتمهای تک آیتمی :

L1={a, b, c, f, m, (p:3)}

Tid Itemsets

100 f, a, c, d, g, I, m, p

200 a, b, c, f, l, m, o

300 b, f, h, g, o

400 b, c, k, s, p

500 a, f, c, e, l, p, m, n

Page 28: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

28

رهیافت های جاری برای حل مساله

Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير

(TDB) و با حد آستانه S=3 در ابتداTDB براي يافتن همه آيتمهاي متناوب )الگوهاي ،

شود. متناوب يک آيتمي(، يک بار پويش ميL1مجموعه همه مجموعه آیتمهای تک آیتمی :

L1={a, b, c, f, m, p}

Tid Itemsets

100 f, a, c, d, g, I, m, p

200 a, b, c, f, l, m, o

300 b, f, h, g, o

400 b, c, k, s, p

500 a, f, c, e, l, p, m, n

Page 29: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

29

رهیافت های جاری برای حل مساله

AprioriTid Itemsets (ordered) Frequent Itemsets

100 f, a, c, d, g, I, m, p a, c, f, m, p

200 a, b, c, f, l, m, o a, b, c, f, m, p

300 b, f, h, g, o b, f

400 b, c, k, s, p b, c, p

500 a, f, c, e, l, p, m, n a, c, f, m, p

Page 30: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

30

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 31: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

31

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 32: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

32

بستر آزمونشتمل بر نرم افزارها و مبستر ایجاد شده برای پیاده سازی و تست الگوریتمهای کاوش

های زیر است: برنامهپايگاه تراکنش مورد نیاز در قالب یک فایل اطالعاتی برنامه اي جهت توليد داده تصادفي هدفدار به منظور ايجاد داده حجيم در پايگاه

تراکنش ایجاد تراکنش به صورت تصادفیایجاد تراکنش های سفارشی

برنامه پاالیش داده به منظور داشتن پايگاه تراکنش پاالیش شده جهت اجرای صحيحعملیات کاوش

پیاده سازی الگوریتم های موجود در زمینه کاوش مجموعه آیتمهای متناوب و امکانمقایسه نتایج

برنامه ای به منظور نگهداری درخت پایگاههای تراکنش بسیار بزرگ در قالب فایل برروی دیسک

در مواقعی که درخت مزبور قابل ایجاد و نگهداری در حافظه اصلی نباشد شبیه سازی عملکرد آتوماتای سلولی یادگیری که به منظور به روزرسانی نتایج کاوش

متناظر با به روزرسانی پایگاه تراکنش مورد استفاده قرار گرفته بستر ایجاد شده باید نرم افزارهایی برای شبیه سازی محیط موازی و انتقال برنامه ها به

محیط مزبور را داشته باشد که در فازهای بعدی ایجاد خواهند شد.

Page 33: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

33

فهرست مطالبهدف رسالة دکتريفرضيات مسالهدستاوردهاي اصلي رسالهتعريف مسالهرهيافت هاي جاري براي حل مسالهروش حل مسالهبستر آزمونمعيارهاي ارزيابي و روشهاي آزمون و اثبات

Page 34: دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي  دکتر عبداله زاده

34

معيارهاي ارزيابي و روشهاي آزمون و اثبات

معيارهاي ارزيابي الگوریتمهای ارائه شده، توازن بين پارامترهاي زير است:

زمان الزم جهت کاوش الگوها در هریک ازروشها.

فضاي الزم جهت ذخيره نتایج میانی و ساختارها در هر روش.

میزان دقت و کمال مجموعه الگوهای متناوبکاوش شده.

میزان قابلیت الگوریتم برای موازی شدن)موازی پذیری(.