یک روش خوشه بندی کارا بر اساس پیوندها

1

یک روش خوشه بندی کارا بر اساس پیوندها

نام درس: مباحث پیشرفته در پایگاه داده

استاد: آقای دکتر رهگذردانشجو: ليال سيد حسين

09/03/1388

بسمه تعالي

2 27/

رئوس مطالب

اهمیت موضوع•

SimRankساختار •

SimTreeساختار •

LinkClusالگوریتم •

بررسی نتایج•

3 27/

اهمیت موضوع

اشیاء داده ای در ی�ک بان�ک اطالعات�ی رابط�ه ای از طریق پیوندهای •مختلفی به یکدیگر متصل می شوند.

ای�ن پیونده�ا شام�ل اطالعات معنادار مهم�ی هس�تند که نشان دهنده •ارتباطات بین اشیاء می باشند.

بیشت�ر الگوریت�م های خوش�ه بندی تنه�ا بر اس�اس ص�فات ی�ک شیء •خاص کار م�ی کنن�د در حالیک�ه شباه�ت بی�ن اشیاء اغل�ب از طریق

پیوندهای آنها مشخص می شود.

در ای�ن مقال�ه ی�ک روش خوش�ه بندی بر پای�ه پیونده�ا ارائ�ه م�ی شود •ک�ه در آ�ن شباه�ت بی�ن دو شی�ء بر پای�ه شباه�ت اشیاء مرتب�ط ب�ا آ�ن

دو شیء اندازه گیری می شود.

4 27/

شباهت اشیاء بر اساس پیوندها

5 27/

محاسبه شباهت اشیاء بر اساس پیوندهای مستقیم

•Tom وJohn شبیه نیستند

•John و Mary شبیه هستند

Tom sigmod03

Mike

Cathy

John

sigmod04

sigmod05

vldb03vldb04vldb05

sigmod

vldb

Maryaaai04aaai05

aaai

Authors Proceedings Conferences

6 27/

SimRankساختار

شباهAت بیAن دو شیAء بAه طور بازگشتAی از محاسAبه•متوسط شباهت بین اشیاء متصل به آن

–Tom وJohnشبیه هستند –John و Maryشبیه نیستند

Tom sigmod03

Mike

Cathy

John

sigmod04

sigmod05

vldb03vldb04vldb05

sigmod

vldb

Maryaaai04aaai05

aaai

Authors Proceedings Conferences

7 27/

...SimRank ساختار

O(M2) زمان:

M تعداد اشیاء داده :ای

O(N2)فضا:

Nتعداد پیوندها :

8 27/

: ساختار درختی1مشاهده

معموال بین اشیاء به طور طبAیعی یک ساختار درختی وجود دارد•

All

electronicsgrocery apparel

DVD cameraTV

Wal-Martساختار درختی ک�االها در

9 27/

: توزیع شباهت2مشاهده

توزیع قانون قدرت بین شباهت ها• قرار دارد[0.005,0.015]حجم باالیی از شباهت ها در محدوده – هستند0.1 از شباهت ها بزرگتر از 1.4%–

آی�ا م�ی توان س�اختاری طراح�ی کرد ک�ه شباه�ت های مه�م ت�ر را ذخیره کند و •شباهت های کم اهمیت تر را به صورت فشرده ذخیره سازد؟

توزیع شباهت ها بین DBLPنویسندگان

1027/

SimTreeیک ساختار داده ای جدید :

TVs

Each leaf node represents an object

Each non-leaf node represents a group of similar lower-level nodes

Similarities between siblings are stored

Electronics

Apparels

Canon A40 digital camera

Sony V3 digital camera

Digital Cameras

1127/

SimTreeتخمین شباهت دو گره در

n1 n2

n4 n5n6

n30.2

n7 n9

0.3

n8

0.8

0.9

Similarity between two sibling nodes n1 and n2

s(n7,n8)=s(n4,n5)

s(n7,n9)=s(n1,n2)

0.9 1.0

0.90.8

1227/

بهبود شباهت

n1 n2

n4 n5n6

n30.2

n7 n9

0.3

n8

0.8

0.9

Similarity between two sibling nodes n1 and n2

simp(n7,n9) = s(n7, n4) × s(n1, n4) × s(n1, n2) × s(n2, n6) × s(n6, n9)= 0.9 × 0.8 × 0.2 × 0.9 × 1.0= 0.1296

0.9 1.0

0.90.8

یک برگ و پدرش ممکن است شباهت های متفاوتی با گره های دیگر داشته باشند

1327/

LinkClusالگوریتم

یAک الگوریتAم کارا و موثAر برای خوشAه بندی بر اساس •پیوندها

های اولیهSimTreeساخت –

ها به صورت تکراریSimTreeبهبود –

1427/

هاSimTreeمقدار دهی اولیه به

یافتن گروه هایی از گره ها که همبستگی باالیی دارند و ادغام آنها در یک سطح باالتر•

های دیگر است SimTree تعدادی از برگ های{n1,…,nk}همبستگی یک گروه از گره های •که به همه گره های این گروه متصل هستند.

The tightness of {n1, n2} is 3

n112345

n2

Nodes Leaf nodes in another SimTree

1527/

یافتن گروه های همبسته با استفاده از کاوش الگوهای تکراری

شروع از برگ ها در سطح اول•یافتAن گروه هایAی از گره های مشابAه کAه باهAم هAم پوشانAی ندارنAد با کاوش اAلگوهای •

lتکراری در هر سطح

g1

g2

{n1}{n1, n2}{n2}{n1, n2}{n1, n2}{n2, n3, n4}{n4}{n3, n4}{n3, n4}

Transactions

n1123456789

n2

n3

n4

همبستگی یک گروه برابر با Support یک الگوی تکراری

است

1627/

بروز کردن شباهت های بین گره ها

محاسبه شباهتA بین فرزندان و والدین•

بروزرسانی شباهت ها•

بروز رسانی ساختار درخت•

1727/

محاسبه شباهت بین فرزندان و والدین

n1 n2

n4 n5n6

n30.2

n7 n9

0.3

n8

0.8

0.9

0.9 1.0

0.90.8

S(n7,n4) = Average similarity between n7 and all nodes except n4’s descendents

Average similarity between n4 and those nodes

1827/


شباهت های اولیه معموال نمی تواند همه ارتباطات بین اشیاء را در برگیرد.•به صورت تکراری شباهت ها را بروز رسانی می کنیم•

شباهت بین دوگره متوسط شباهت اشیاء متصل به آن است–

z

c d

f g

e

h kl m n o p q r s t u v w x y

ST1

0

1 2

4 5 6 7

3

8 910 11 12 13 14 15 16 17 18 19 20 21 22 23 24

ST2

a b

10

11

12

13

14

sim(na,nb) = average similarity between and

1927/

تعریف

•Simweight.ای نشان دادن شباهت و وزن یک پیوند بکار می رودAاین ساختار داده ای بر :

وزن آن است.w شباهت پیوند و s تعریف می کنیم که <s,w>آن را به صورت زوج •

دو عمگر ضرب وA جمع برای این ساختار داده ای به صورت زیرتعریف می شود:•

<s1,w1>+<s2,w2>=<(s1.w1+s2.w2)/(w1+w2) , w1+w2>

<s1,w1>×<s2,w2>=<s1.s2 ,w1.w2>

2027/


4 5

10 12 13 14

a b

ST2

ST1

11

0.2

0.9 1.0 0.8 0.9 1.0

a:(1,1)a:(1,1)

a:(1,1)

a:(0.9,3) b:(0.95,2)

b:(1,1)

b:(1,1)

3,9.03,3

8.019.01,11,8.01,11,11,11,9.0

1),,()(

44

4nchildrenn

nnnn aaswnnssw

2127/

بروز کردن شباهت های بین گره ها ...

4 5

10 12 13 14

a b

ST2

ST1

11

0.2

0.9 1.0 0.8 0.9 1.0

a:(0.9,3) b:(0.95,2)

541),,( 54, nnnnnn baba

swnnsswsw

= <0.9,3> x <0.2,1> x <0.95,2> = <0.171,6>

2227/

بروز کردن شباهت های بین گره ها ...

می یابیمST2 متصل است را در nb و دیگری به na هم هستند و یکی از آنها به sibling که nj و ni همه زوج گره های • را با در نظر گرفتن این زوج پیدا می کنیم و نتایج را جمع می زنیمnb و naشباهت و وزن بین •

متصل هستند را می یابیم و به ازای آنها مقدار زیر را بدست می آوریمnb و هم به na که هم به ST2 از niهمه برگ های •

استnb و naجمع مقادیر بدست آمده شباهت دو گره •

2327/

SimTreeسازمان دهی مجدد

می یابیمST2 متصل است را در nb و دیگری به na هم هستند و یکی از آنها به sibling که nj و ni همه زوج گره های • را با در نظر گرفتن این زوج پیدا می کنیم و نتایج را جمع می زنیمnb و naشباهت و وزن بین •

متصل هستند را می یابیم و به ازای آنها مقدار زیر را بدست می آوریمnb و هم به na که هم به ST2 از niهمه برگ های •

استnb و naجمع مقادیر بدست آمده شباهت دو گره •

n1 n2

n4 n5n6

n3

n7 n9n8

0.80.9

n7

2427/

پیچیدگی الگوریتم )برای دو نوع شیء داده ای(

Time SpaceUpdating similarities O(M(logN)2) O(M+N)

Adjusting tree structures O(N) O(N)

LinkClus O(M(logN)2) O(M+N)SimRank O(M2) O(N2)

M تعداد اشیاء داده :ایNتعداد پیوندها :

2527/

مقایسه با الگوریتم های مشابه روی داده های واقعی

Approach Accuracy time (s)

LinkClus 0.8026 1579.6

SimRank 0.7965 39160

ReCom 0.5711 74.6

F-SimRank 0.3688 479.7

CLARANS 0.4768 8.55

2627/

منابع

• Xiaoxin Yin, Jiawei Han, Philip S. Yu; LinkClus: Efficient Clustering via Heterogeneous Semantic Links; VLDB;2006; ACM 1595933859

• Glen Jeh, Jennifer Widom; SimRank: A Measure of Structural-Context Similarity; KDD, 2002

2727/

پرسش و پاسخ

یک روش خوشه بندی کارا بر اساس پیوندها

Documents