یک روش خوشه بندی کارا بر اساس پیوندها

27
1 دها ون ی پاس ر اس برا دی کا ن پ ه ش و خ روس ک یه داده گا ای% ه در ن& ت ف ر ش+ ی ی ث ح ا ن م ام درس: ن ر گد ه ر ر3 کت ای د3 ق7 د: ا ا3 ن س ا9 ن سي ح د ن س لا ن ل و: ج ش ن دا09/03/1388 ي ل عا3 ت مه س ن

Upload: seamus

Post on 14-Feb-2016

109 views

Category:

Documents


5 download

DESCRIPTION

بسمه تعالي. یک روش خوشه بندی کارا بر اساس پیوندها. نام درس: مباحث پیشرفته در پایگاه داده استاد: آقای دکتر رهگذر دانشجو: ليلا سيد حسين 09/03/1388. رئوس مطالب. اهمیت موضوع ساختار SimRank ساختار SimTree الگوریتم LinkClus بررسی نتایج. اهمیت موضوع. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: یک روش خوشه بندی کارا بر اساس پیوندها

1

یک روش خوشه بندی کارا بر اساس پیوندها

نام درس: مباحث پیشرفته در پایگاه داده

استاد: آقای دکتر رهگذردانشجو: ليال سيد حسين

09/03/1388

بسمه تعالي

Page 2: یک روش خوشه بندی کارا بر اساس پیوندها

2 27/

رئوس مطالب

اهمیت موضوع•

SimRankساختار •

SimTreeساختار •

LinkClusالگوریتم •

بررسی نتایج•

Page 3: یک روش خوشه بندی کارا بر اساس پیوندها

3 27/

اهمیت موضوع

اشیاء داده ای در ی�ک بان�ک اطالعات�ی رابط�ه ای از طریق پیوندهای •مختلفی به یکدیگر متصل می شوند.

ای�ن پیونده�ا شام�ل اطالعات معنادار مهم�ی هس�تند که نشان دهنده •ارتباطات بین اشیاء می باشند.

بیشت�ر الگوریت�م های خوش�ه بندی تنه�ا بر اس�اس ص�فات ی�ک شیء •خاص کار م�ی کنن�د در حالیک�ه شباه�ت بی�ن اشیاء اغل�ب از طریق

پیوندهای آنها مشخص می شود.

در ای�ن مقال�ه ی�ک روش خوش�ه بندی بر پای�ه پیونده�ا ارائ�ه م�ی شود •ک�ه در آ�ن شباه�ت بی�ن دو شی�ء بر پای�ه شباه�ت اشیاء مرتب�ط ب�ا آ�ن

دو شیء اندازه گیری می شود.

Page 4: یک روش خوشه بندی کارا بر اساس پیوندها

4 27/

شباهت اشیاء بر اساس پیوندها

Page 5: یک روش خوشه بندی کارا بر اساس پیوندها

5 27/

محاسبه شباهت اشیاء بر اساس پیوندهای مستقیم

•Tom وJohn شبیه نیستند

•John و Mary شبیه هستند

Tom sigmod03

Mike

Cathy

John

sigmod04

sigmod05

vldb03vldb04vldb05

sigmod

vldb

Maryaaai04aaai05

aaai

Authors Proceedings Conferences

Page 6: یک روش خوشه بندی کارا بر اساس پیوندها

6 27/

SimRankساختار

شباهAت بیAن دو شیAء بAه طور بازگشتAی از محاسAبه•متوسط شباهت بین اشیاء متصل به آن

–Tom وJohnشبیه هستند –John و Maryشبیه نیستند

Tom sigmod03

Mike

Cathy

John

sigmod04

sigmod05

vldb03vldb04vldb05

sigmod

vldb

Maryaaai04aaai05

aaai

Authors Proceedings Conferences

Page 7: یک روش خوشه بندی کارا بر اساس پیوندها

7 27/

...SimRank ساختار

O(M2) زمان:

M تعداد اشیاء داده :ای

O(N2)فضا:

Nتعداد پیوندها :

Page 8: یک روش خوشه بندی کارا بر اساس پیوندها

8 27/

: ساختار درختی1مشاهده

معموال بین اشیاء به طور طبAیعی یک ساختار درختی وجود دارد•

All

electronicsgrocery apparel

DVD cameraTV

Wal-Martساختار درختی ک�االها در

Page 9: یک روش خوشه بندی کارا بر اساس پیوندها

9 27/

: توزیع شباهت2مشاهده

توزیع قانون قدرت بین شباهت ها• قرار دارد[0.005,0.015]حجم باالیی از شباهت ها در محدوده – هستند0.1 از شباهت ها بزرگتر از 1.4%–

آی�ا م�ی توان س�اختاری طراح�ی کرد ک�ه شباه�ت های مه�م ت�ر را ذخیره کند و •شباهت های کم اهمیت تر را به صورت فشرده ذخیره سازد؟

توزیع شباهت ها بین DBLPنویسندگان

Page 10: یک روش خوشه بندی کارا بر اساس پیوندها

1027/

SimTreeیک ساختار داده ای جدید :

TVs

Each leaf node represents an object

Each non-leaf node represents a group of similar lower-level nodes

Similarities between siblings are stored

Electronics

Apparels

Canon A40 digital camera

Sony V3 digital camera

Digital Cameras

Page 11: یک روش خوشه بندی کارا بر اساس پیوندها

1127/

SimTreeتخمین شباهت دو گره در

n1 n2

n4 n5n6

n30.2

n7 n9

0.3

n8

0.8

0.9

Similarity between two sibling nodes n1 and n2

s(n7,n8)=s(n4,n5)

s(n7,n9)=s(n1,n2)

0.9 1.0

0.90.8

Page 12: یک روش خوشه بندی کارا بر اساس پیوندها

1227/

بهبود شباهت

n1 n2

n4 n5n6

n30.2

n7 n9

0.3

n8

0.8

0.9

Similarity between two sibling nodes n1 and n2

simp(n7,n9) = s(n7, n4) × s(n1, n4) × s(n1, n2) × s(n2, n6) × s(n6, n9)= 0.9 × 0.8 × 0.2 × 0.9 × 1.0= 0.1296

0.9 1.0

0.90.8

یک برگ و پدرش ممکن است شباهت های متفاوتی با گره های دیگر داشته باشند

Page 13: یک روش خوشه بندی کارا بر اساس پیوندها

1327/

LinkClusالگوریتم

یAک الگوریتAم کارا و موثAر برای خوشAه بندی بر اساس •پیوندها

های اولیهSimTreeساخت –

ها به صورت تکراریSimTreeبهبود –

Page 14: یک روش خوشه بندی کارا بر اساس پیوندها

1427/

هاSimTreeمقدار دهی اولیه به

یافتن گروه هایی از گره ها که همبستگی باالیی دارند و ادغام آنها در یک سطح باالتر•

های دیگر است SimTree تعدادی از برگ های{n1,…,nk}همبستگی یک گروه از گره های •که به همه گره های این گروه متصل هستند.

The tightness of {n1, n2} is 3

n112345

n2

Nodes Leaf nodes in another SimTree

Page 15: یک روش خوشه بندی کارا بر اساس پیوندها

1527/

یافتن گروه های همبسته با استفاده از کاوش الگوهای تکراری

شروع از برگ ها در سطح اول•یافتAن گروه هایAی از گره های مشابAه کAه باهAم هAم پوشانAی ندارنAد با کاوش اAلگوهای •

lتکراری در هر سطح

g1

g2

{n1}{n1, n2}{n2}{n1, n2}{n1, n2}{n2, n3, n4}{n4}{n3, n4}{n3, n4}

Transactions

n1123456789

n2

n3

n4

همبستگی یک گروه برابر با Support یک الگوی تکراری

است

Page 16: یک روش خوشه بندی کارا بر اساس پیوندها

1627/

بروز کردن شباهت های بین گره ها

محاسبه شباهتA بین فرزندان و والدین•

بروزرسانی شباهت ها•

بروز رسانی ساختار درخت•

Page 17: یک روش خوشه بندی کارا بر اساس پیوندها

1727/

محاسبه شباهت بین فرزندان و والدین

n1 n2

n4 n5n6

n30.2

n7 n9

0.3

n8

0.8

0.9

0.9 1.0

0.90.8

S(n7,n4) = Average similarity between n7 and all nodes except n4’s descendents

Average similarity between n4 and those nodes

Page 18: یک روش خوشه بندی کارا بر اساس پیوندها

1827/

بروز کردن شباهت های بین گره ها

شباهت های اولیه معموال نمی تواند همه ارتباطات بین اشیاء را در برگیرد.•به صورت تکراری شباهت ها را بروز رسانی می کنیم•

شباهت بین دوگره متوسط شباهت اشیاء متصل به آن است–

z

c d

f g

e

h kl m n o p q r s t u v w x y

ST1

0

1 2

4 5 6 7

3

8 910 11 12 13 14 15 16 17 18 19 20 21 22 23 24

ST2

a b

10

11

12

13

14

sim(na,nb) = average similarity between and

Page 19: یک روش خوشه بندی کارا بر اساس پیوندها

1927/

تعریف

•Simweight.ای نشان دادن شباهت و وزن یک پیوند بکار می رودAاین ساختار داده ای بر :

وزن آن است.w شباهت پیوند و s تعریف می کنیم که <s,w>آن را به صورت زوج •

دو عمگر ضرب وA جمع برای این ساختار داده ای به صورت زیرتعریف می شود:•

<s1,w1>+<s2,w2>=<(s1.w1+s2.w2)/(w1+w2) , w1+w2>

<s1,w1>×<s2,w2>=<s1.s2 ,w1.w2>

Page 20: یک روش خوشه بندی کارا بر اساس پیوندها

2027/

بروز کردن شباهت های بین گره ها

4 5

10 12 13 14

a b

ST2

ST1

11

0.2

0.9 1.0 0.8 0.9 1.0

a:(1,1)a:(1,1)

a:(1,1)

a:(0.9,3) b:(0.95,2)

b:(1,1)

b:(1,1)

3,9.03,3

8.019.01,11,8.01,11,11,11,9.0

1),,()(

44

4nchildrenn

nnnn aaswnnssw

Page 21: یک روش خوشه بندی کارا بر اساس پیوندها

2127/

بروز کردن شباهت های بین گره ها ...

4 5

10 12 13 14

a b

ST2

ST1

11

0.2

0.9 1.0 0.8 0.9 1.0

a:(0.9,3) b:(0.95,2)

541),,( 54, nnnnnn baba

swnnsswsw

= <0.9,3> x <0.2,1> x <0.95,2> = <0.171,6>

Page 22: یک روش خوشه بندی کارا بر اساس پیوندها

2227/

بروز کردن شباهت های بین گره ها ...

می یابیمST2 متصل است را در nb و دیگری به na هم هستند و یکی از آنها به sibling که nj و ni همه زوج گره های • را با در نظر گرفتن این زوج پیدا می کنیم و نتایج را جمع می زنیمnb و naشباهت و وزن بین •

متصل هستند را می یابیم و به ازای آنها مقدار زیر را بدست می آوریمnb و هم به na که هم به ST2 از niهمه برگ های •

استnb و naجمع مقادیر بدست آمده شباهت دو گره •

Page 23: یک روش خوشه بندی کارا بر اساس پیوندها

2327/

SimTreeسازمان دهی مجدد

می یابیمST2 متصل است را در nb و دیگری به na هم هستند و یکی از آنها به sibling که nj و ni همه زوج گره های • را با در نظر گرفتن این زوج پیدا می کنیم و نتایج را جمع می زنیمnb و naشباهت و وزن بین •

متصل هستند را می یابیم و به ازای آنها مقدار زیر را بدست می آوریمnb و هم به na که هم به ST2 از niهمه برگ های •

استnb و naجمع مقادیر بدست آمده شباهت دو گره •

n1 n2

n4 n5n6

n3

n7 n9n8

0.80.9

n7

Page 24: یک روش خوشه بندی کارا بر اساس پیوندها

2427/

پیچیدگی الگوریتم )برای دو نوع شیء داده ای(

Time SpaceUpdating similarities O(M(logN)2) O(M+N)

Adjusting tree structures O(N) O(N)

LinkClus O(M(logN)2) O(M+N)SimRank O(M2) O(N2)

M تعداد اشیاء داده :ایNتعداد پیوندها :

Page 25: یک روش خوشه بندی کارا بر اساس پیوندها

2527/

مقایسه با الگوریتم های مشابه روی داده های واقعی

Approach Accuracy time (s)

LinkClus 0.8026 1579.6

SimRank 0.7965 39160

ReCom 0.5711 74.6

F-SimRank 0.3688 479.7

CLARANS 0.4768 8.55

Page 26: یک روش خوشه بندی کارا بر اساس پیوندها

2627/

منابع

• Xiaoxin Yin, Jiawei Han, Philip S. Yu; LinkClus: Efficient Clustering via Heterogeneous Semantic Links; VLDB;2006; ACM 1595933859

• Glen Jeh, Jennifer Widom; SimRank: A Measure of Structural-Context Similarity; KDD, 2002

Page 27: یک روش خوشه بندی کارا بر اساس پیوندها

2727/

پرسش و پاسخ