داده کاوی : مفاهيم، روشها، کاربردها

20
داده داده کاوی کاوی: : ردها ب ها، کار ش م، رو ي ه ا ف م ردها ب ها، کار ش م، رو ي ه ا ف م دا ام خ ه ن ب دا ام خ ه ن ب گاه ش ن دا گاه ش ن دا مال ش( ران ه, ت اد ا. ر

Upload: birch

Post on 06-Jan-2016

107 views

Category:

Documents


0 download

DESCRIPTION

به نام خدا دانشگاه آزاد تهران شمال. داده کاوی : مفاهيم، روشها، کاربردها. فهرست مطالب. مقدمه کاربردهای داده ‌ کاوی کاربردهای تجاری کاربردهای علمی کاربردهای امنيتی تکنيکهای داده ‌ کاوی دسته بندی قوانين تداعی خوشه بندی آينده داده ‌ کاوی: کاربردهای جديد، چالشها و دستاوردها - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: داده کاوی : مفاهيم، روشها، کاربردها

::کاویکاوی دادهدادهمفاهيم، روشها، کاربردهامفاهيم، روشها، کاربردها

به نام خدابه نام خداشمال دانشگاه دانشگاه تهران آزاد

Page 2: داده کاوی : مفاهيم، روشها، کاربردها

2

فهرست مطالبفهرست مطالبمقدمهمقدمه

کاوی کاوی کاربردهای دادهکاربردهای دادهکاربردهای تجاریکاربردهای تجاریکاربردهای علمیکاربردهای علمیکاربردهای امنيتیکاربردهای امنيتی

کاویکاوی تکنيکهای دادهتکنيکهای دادهدسته بندیدسته بندیقوانين تداعیقوانين تداعیخوشه بندیخوشه بندی

کاوی: کاربردهای جديد، چالشها و دستاوردهاکاوی: کاربردهای جديد، چالشها و دستاوردها آينده دادهآينده دادهتشخيص ناهمگونیتشخيص ناهمگونیکاوی توزيع شدهکاوی توزيع شده دادهدادهداده کاوی و حريم خصوصیداده کاوی و حريم خصوصی

Page 3: داده کاوی : مفاهيم، روشها، کاربردها

3

داده کاوی و داليل پيدايش آن داده کاوی و داليل پيدايش آن توسعه تکنولوژيهای ذخيره و بازيابی اطالعاتتوسعه تکنولوژيهای ذخيره و بازيابی اطالعات

افزايش اطالعاتافزايش اطالعاتتنوع زيادتنوع زياد

بانکهای اطالعاتی بانکهای اطالعاتی فايلهای چندرسانه ایفايلهای چندرسانه ایاطالعات متنی و فاقد ساختاراطالعات متنی و فاقد ساختار

Page 4: داده کاوی : مفاهيم، روشها، کاربردها

4

پردازش اطالعات: پردازش اطالعات: از فايلهای متنی تا داده کاویاز فايلهای متنی تا داده کاوی

سير کلی تکنولوژی پردازش اطالعات را می توان به سير کلی تکنولوژی پردازش اطالعات را می توان بهصورت زير خالصه کرد:صورت زير خالصه کرد:

فايلهافايلها

بانکهای اطالعاتی خاصبانکهای اطالعاتی خاص

بانکهای اطالعاتی رابطه ایبانکهای اطالعاتی رابطه ای

بانکهای اطالعاتی تحليلیبانکهای اطالعاتی تحليلی

داده کاویداده کاوی

Page 5: داده کاوی : مفاهيم، روشها، کاربردها

5

مراحل يک فرآيند داده کاویمراحل يک فرآيند داده کاوی.هريک از مراحل، با مشکالت خاص خود مواجه است.هريک از مراحل، با مشکالت خاص خود مواجه است پيرايش و تجميع اطالعات، معموال حجم عمده کار را به خود پيرايش و تجميع اطالعات، معموال حجم عمده کار را به خود

اختصاص می دهند.اختصاص می دهند. بازنمائی دانش، به خصوص در مورد داده کاوی، در موارد متعددی بازنمائی دانش، به خصوص در مورد داده کاوی، در موارد متعددی

هيچ راه حل قابل قبولی ندارد.هيچ راه حل قابل قبولی ندارد.

انتخاب اطالعات هدف

پيرايش اطالعات

تجميع اطالعات

استخراج دانش

بازنمائی دانش استخراج شده

تفسير نتايج

Page 6: داده کاوی : مفاهيم، روشها، کاربردها

6

پايه های يک فرآيند داده کاویپايه های يک فرآيند داده کاوی55پايه اصلی پايه اصلی

مجموعه نمونه های آموزشیمجموعه نمونه های آموزشینوع دانشنوع دانشدانش پايهدانش پايهمعيارهای ارزيابیمعيارهای ارزيابینحوه ارائهنحوه ارائه

Page 7: داده کاوی : مفاهيم، روشها، کاربردها

7

دانش پايهدانش پايه

دانش فعلی کاربر در مورد نمونه های آموزشیدانش فعلی کاربر در مورد نمونه های آموزشی

غالبا به صورت سلسله مراتب مفهومی غالبا به صورت سلسله مراتب مفهومی((ConceptConcept HierarchyHierarchy))

به صورت ترتيب جزئی بين سطوح تجرد مطرح به صورت ترتيب جزئی بين سطوح تجرد مطرحمی شودمی شود

مثال: کشور < استان < شهر < منطقه مثال: کشور < استان < شهر < منطقه

Page 8: داده کاوی : مفاهيم، روشها، کاربردها

8

مقدمهمقدمه خالصه مطالبخالصه مطالب عدم کفايت روشهای سنتی در بهره برداری از پتانسيل اطالعات در عدم کفايت روشهای سنتی در بهره برداری از پتانسيل اطالعات در

دسترس.دسترس. ،سير کلی روشهای پردازش اطالعات، بر حسب نياز حوزه های متفاوت، سير کلی روشهای پردازش اطالعات، بر حسب نياز حوزه های متفاوت

از فايلهای ساده تا داده کاوی.از فايلهای ساده تا داده کاوی. تعريف داده کاوی به عنوان يک فرآيند نيمه خودکار برای استخراج تعريف داده کاوی به عنوان يک فرآيند نيمه خودکار برای استخراج

دانش از انواع اطالعات ذخيره شده.دانش از انواع اطالعات ذخيره شده. جايگاه داده کاوی در يادگيری ماشين و نياز به چارچوبهای تئوريک و جايگاه داده کاوی در يادگيری ماشين و نياز به چارچوبهای تئوريک و

فراگير.فراگير. ابهام زدائی از تعريف موجود و جداکردن واقعيات از اهداف ايده آل و ابهام زدائی از تعريف موجود و جداکردن واقعيات از اهداف ايده آل و

بلند مدت.بلند مدت. مراحل اصلی يک فرآيند داده کاوی عبارتند از: انتخاب، پيرايش و تجميع مراحل اصلی يک فرآيند داده کاوی عبارتند از: انتخاب، پيرايش و تجميع

اطالعات، استخراج دانش، بازنمائی و تفسير دانش حاصل.اطالعات، استخراج دانش، بازنمائی و تفسير دانش حاصل. پايه های اصلی يک فرآيند داده کاوی عبارتند از: اطالعات ورودی، نوع پايه های اصلی يک فرآيند داده کاوی عبارتند از: اطالعات ورودی، نوع

دانش، دانش پايه، معيارهای ارزيابی دانش و روشهای بازنمائی آن.دانش، دانش پايه، معيارهای ارزيابی دانش و روشهای بازنمائی آن.

Page 9: داده کاوی : مفاهيم، روشها، کاربردها

9

کاربردهای داده کاویکاربردهای داده کاوی

کاربردهای تجاریکاربردهای تجاری

کاربردهای علمیکاربردهای علمی

کاربردهای امنيتیکاربردهای امنيتی

Page 10: داده کاوی : مفاهيم، روشها، کاربردها

10

کاربردهای تجاریکاربردهای تجاری

تقريبا در تمام سازمانها و انواع تجارتها، به دليل تقريبا در تمام سازمانها و انواع تجارتها، به دليلوجود اطالعات، می توان داده کاوی را مورد وجود اطالعات، می توان داده کاوی را مورد

استفاده قرار داد.استفاده قرار داد.پيش بينی مربوط به بازار بورسپيش بينی مربوط به بازار بورستحليل سبد خريدتحليل سبد خريدشناسائی طبقات و گروههای اصلی مشتريانشناسائی طبقات و گروههای اصلی مشتريان ،تعيين ميزان تاثير عوامل مختلفی نظير تبليغات، تعيين ميزان تاثير عوامل مختلفی نظير تبليغات

تخفيف، ... بر ميزان و الگوهای فروشتخفيف، ... بر ميزان و الگوهای فروش

Page 11: داده کاوی : مفاهيم، روشها، کاربردها

11

کاربردهای علمیکاربردهای علمی

اطالعات جمع آوری شده در حوزه های مختلفاطالعات جمع آوری شده در حوزه های مختلفحجم باال حجم باال تنوع اطالعاتتنوع اطالعاتنويز شديدنويز شديدنياز مبرم به تکنيکهای داده کاوینياز مبرم به تکنيکهای داده کاوی

Page 12: داده کاوی : مفاهيم، روشها، کاربردها

12

……کاربردهای علمی کاربردهای علمی

:حوزه پزشکی:حوزه پزشکی

حوزه اطالعات جغرافيائی و اقليمیحوزه اطالعات جغرافيائی و اقليمی

Page 13: داده کاوی : مفاهيم، روشها، کاربردها

13

مثالی از کاربردهای داده مثالی از کاربردهای داده کاوی: کاوی:

((11 اطالعات ژنتيک ) اطالعات ژنتيک )

آرايه ای از نمونه های آرايه ای از نمونه هایDNADNAانجام تعدادی آزمايش بر روی يک تراشهانجام تعدادی آزمايش بر روی يک تراشه

Page 14: داده کاوی : مفاهيم، روشها، کاربردها

14

مثالی از کاربردهای داده مثالی از کاربردهای داده کاوی: کاوی:

((22 اطالعات ژنتيک ) اطالعات ژنتيک )

معيار شباهت ژن ها: رفتار مشابه در آزمايش هامعيار شباهت ژن ها: رفتار مشابه در آزمايش ها

Page 15: داده کاوی : مفاهيم، روشها، کاربردها

15

……کاربردهای علمیکاربردهای علمی

حوزه کاربردی فضا و سفرهای فضائیحوزه کاربردی فضا و سفرهای فضائیحجم بسيار زيادی از اطالعاتحجم بسيار زيادی از اطالعاتنويز بسيار باالنويز بسيار باالارزش بسيار زياد دانش قابل استخراجارزش بسيار زياد دانش قابل استخراجپردازش اطالعات جمع آوری شده از فضاپردازش اطالعات جمع آوری شده از فضاپردازش اطالعات مربوط به سفينه های فضائیپردازش اطالعات مربوط به سفينه های فضائی ارائه دانش مفيد برای اتخاذ تصميم نهائی جهت ارائه دانش مفيد برای اتخاذ تصميم نهائی جهت

پرتاب يا عدم پرتاب يک سفينه به فضاپرتاب يا عدم پرتاب يک سفينه به فضا

Page 16: داده کاوی : مفاهيم، روشها، کاربردها

16

کاربردهای امنيتیکاربردهای امنيتیسيستمهای تشخيص نفوذسيستمهای تشخيص نفوذ

،روشهای سنتی، روشهای سنتیحجم اطالعات بسيارحجم اطالعات بسيارعدم امکان بررسی تمام گزارشهاعدم امکان بررسی تمام گزارشهانياز به شناسائی خودکارنياز به شناسائی خودکارلزوم همکاری با متخصصان شبکهلزوم همکاری با متخصصان شبکهلزوم اجتناب از سيستمهای بسيار بدبينلزوم اجتناب از سيستمهای بسيار بدبين

مقابله با تروريسممقابله با تروريسم

Page 17: داده کاوی : مفاهيم، روشها، کاربردها

17

کاربردهای داده کاوی: جمع کاربردهای داده کاوی: جمع بندیبندی

.حوزه های اصلی شامل کاربردهای علمی، تجاری و امنيتی می باشد.حوزه های اصلی شامل کاربردهای علمی، تجاری و امنيتی می باشد در تمام حوزه ها با حجم بسيار زياد اطالعات و خصايص متعدد در تمام حوزه ها با حجم بسيار زياد اطالعات و خصايص متعدد

مواجهيم.مواجهيم..در تمام حوزه ها با انواع اطالعات مفيد روبرو هستيم.در تمام حوزه ها با انواع اطالعات مفيد روبرو هستيم کاهش شديد هزينه ها، افزايش درآمدها و نجات زندگی انسانها از کاهش شديد هزينه ها، افزايش درآمدها و نجات زندگی انسانها از

دستاوردهای داده کاوی در هريک از حوزه های کاربردی آن است.دستاوردهای داده کاوی در هريک از حوزه های کاربردی آن است. کاربردهای تجاری: تشخيص صحت ادعای خسارت در بيمه، تشخيص کاربردهای تجاری: تشخيص صحت ادعای خسارت در بيمه، تشخيص

سوء استفاده از کارتهای اعتباری، تحليل اطالعات مشتريان يک سوء استفاده از کارتهای اعتباری، تحليل اطالعات مشتريان يک سازمان،...سازمان،...

کاربردهای علمی: حوزه های پزشکی، جغرافيائی و اقليمی، فضا و کاربردهای علمی: حوزه های پزشکی، جغرافيائی و اقليمی، فضا وسفرهای فضائیسفرهای فضائی

کاربردهای امنيتی: مبارزه با تروريسم، مقابله با نفوذگران به شبکه کاربردهای امنيتی: مبارزه با تروريسم، مقابله با نفوذگران به شبکههای کامپيوتری های کامپيوتری

Page 18: داده کاوی : مفاهيم، روشها، کاربردها

18

جمع بندی و نتيجه گيریجمع بندی و نتيجه گيری داده کاوی عبارت است از فرآيند نيمه خودکار استخراج دانش از داده کاوی عبارت است از فرآيند نيمه خودکار استخراج دانش از

اطالعات موجود.اطالعات موجود. ،داده کاوی شامل مراحل انتخاب، پيرايش و تجميع اطالعات، داده کاوی شامل مراحل انتخاب، پيرايش و تجميع اطالعات

استخراج و بازنمائی و تفسير دانش می باشد.استخراج و بازنمائی و تفسير دانش می باشد. کاربردهای داده کاوی شامل حوزه های تجاری، امنيتی و علمی می کاربردهای داده کاوی شامل حوزه های تجاری، امنيتی و علمی می

باشد.باشد. تکنيکهای اصلی داده کاوی عبارتند از: دسته بندی، خوشه بندی و تکنيکهای اصلی داده کاوی عبارتند از: دسته بندی، خوشه بندی و

استخراج قوانين تداعی.استخراج قوانين تداعی. مسائل جديد در داده کاوی عبارتند از: تشخيص ناهمگونی، داده مسائل جديد در داده کاوی عبارتند از: تشخيص ناهمگونی، داده

کاوی توزيع شده و مسئله حفظ دانش محرمانه و حريم خصوصی.کاوی توزيع شده و مسئله حفظ دانش محرمانه و حريم خصوصی.نياز مبرم به روشهای داده کاوی مقياس پذيرنياز مبرم به روشهای داده کاوی مقياس پذيرنياز به توسعه داده کاوی بر روی انواع اطالعات موجودنياز به توسعه داده کاوی بر روی انواع اطالعات موجودنياز به توسعه داده کاوی به عنوان يک فرآيند استاندارد و توزيع شدهنياز به توسعه داده کاوی به عنوان يک فرآيند استاندارد و توزيع شده

Page 19: داده کاوی : مفاهيم، روشها، کاربردها

19

فهرست منابعفهرست منابع1.1. J. Han, M. Kamber and Simon Fraser, Data Mining: Concepts and J. Han, M. Kamber and Simon Fraser, Data Mining: Concepts and

Techniques, Morgan Kaufman Publisher., 2001Techniques, Morgan Kaufman Publisher., 20012.2. H. Miller, and J. Han, Geographic Data Mining and Knowledge H. Miller, and J. Han, Geographic Data Mining and Knowledge

Discovery. Taylor and Francis, London, U.K., Discovery. Taylor and Francis, London, U.K., 20012001..3.3. M. Steinbach, P. Tan, V. Kumar, S. Klooster, and C. Potter, Data mining M. Steinbach, P. Tan, V. Kumar, S. Klooster, and C. Potter, Data mining

for the discovery of ocean climate indices, for the discovery of ocean climate indices, Proceedings of th 5th Proceedings of th 5th Workshop on Scientific Data Mining (SDM 2002), Workshop on Scientific Data Mining (SDM 2002), (Arlington, VA, Apr. (Arlington, VA, Apr. 13), Society of Industrial and Applied Mathematics, pp 713), Society of Industrial and Applied Mathematics, pp 7––16, 2002.16, 2002.

4.4. S. J. Stolfo, W. Lee, P. K. Chan, W. Fan and E. Eskin, S. J. Stolfo, W. Lee, P. K. Chan, W. Fan and E. Eskin, ““Data Mining-Data Mining-based Intrusion Detectors: An Overview of the Columbia IDS Projectbased Intrusion Detectors: An Overview of the Columbia IDS Project””, , SIGMOD Record, Vol. 30, No. 4, December 2001, pp 5-14, 2000.SIGMOD Record, Vol. 30, No. 4, December 2001, pp 5-14, 2000.

5.5. H. Kargupta, A. Joshi, K. Sivakumar and Y. Yesha, H. Kargupta, A. Joshi, K. Sivakumar and Y. Yesha, ““Data Mining: Next Data Mining: Next Generation Challenges and Future DirectionsGeneration Challenges and Future Directions””, Prentice Hall of India, , Prentice Hall of India, pp. 157-219, 2005.pp. 157-219, 2005.

6.6. L. A.F. Park, K. Ramamohanarao, and M. Palaniswami, L. A.F. Park, K. Ramamohanarao, and M. Palaniswami, ““Fourier Fourier Domain Scoring: A Novel Document Ranking MethodDomain Scoring: A Novel Document Ranking Method””, IEEE , IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 16, NO. 5, pp 529-539, MAY 2004 16, NO. 5, pp 529-539, MAY 2004

7.7. S. Schockaert, M. De Cock, C. Cornelis and E. E. Kerre S. Schockaert, M. De Cock, C. Cornelis and E. E. Kerre ““Efficient Efficient Clustering with Fuzzy AntsClustering with Fuzzy Ants””, Applied Computational Intelligence, World , Applied Computational Intelligence, World Scientific, p. 195-200, 2004Scientific, p. 195-200, 2004

Page 20: داده کاوی : مفاهيم، روشها، کاربردها

20

فهرست منابع )ادامه(فهرست منابع )ادامه(8.8. M. Halkidi, Y. Batistakis and M. Vazirgiannis, M. Halkidi, Y. Batistakis and M. Vazirgiannis, ““On Clustering On Clustering

Validation TechniquesValidation Techniques””, Journal of Intelligent Systems, vol. , Journal of Intelligent Systems, vol. 17:2/3, pp 107-145, 200117:2/3, pp 107-145, 2001

9.9. S. Dˇzeroski and H. Blockeel, MultiRelational Data Mining S. Dˇzeroski and H. Blockeel, MultiRelational Data Mining 2004: Workshop Report, SIGKDD Explorations. Volume 2004: Workshop Report, SIGKDD Explorations. Volume 6,Issue 2, pp. 140-141, 2004.6,Issue 2, pp. 140-141, 2004.

10.10. C.A. Ratanamahatana and E. Keogh, Towards Parameter-C.A. Ratanamahatana and E. Keogh, Towards Parameter-Free Data Mining, Free Data Mining, KDD KDD ’’0404, Seattle, Washington, USA, pp. , Seattle, Washington, USA, pp. 206-215, 2004206-215, 2004

11.11. H. Mannila, H. Mannila, ““Theoretical Frameworks for Data MiningTheoretical Frameworks for Data Mining””, , SIGKDD Explorations, January 2000. Volume 1, Issue 2 - SIGKDD Explorations, January 2000. Volume 1, Issue 2 - pagepage 30-3230-32

12.12. R. Grossman, Data Mining Standards, Services, and R. Grossman, Data Mining Standards, Services, and Platforms 2004 (DMSSP 2004) Workshop Report,, SIGKDD Platforms 2004 (DMSSP 2004) Workshop Report,, SIGKDD Explorations. Volume 6,Issue 2 - Page 157-158, 2004.Explorations. Volume 6,Issue 2 - Page 157-158, 2004.

13.13. U.M. Fayyad, G.Piatetsky-Shapiro, R. Uthurusamy, Summary U.M. Fayyad, G.Piatetsky-Shapiro, R. Uthurusamy, Summary from the KDD-03 Panel -- Data Mining: The Next 10 Years, from the KDD-03 Panel -- Data Mining: The Next 10 Years, SIGKDD Explorations. Volume 5,Issue 2 SIGKDD Explorations. Volume 5,Issue 2 –– pp. 191-196, 2003. pp. 191-196, 2003.