یک روش خوشه بندی کارا بر اساس پیوندها
DESCRIPTION
بسمه تعالي. یک روش خوشه بندی کارا بر اساس پیوندها. نام درس: مباحث پیشرفته در پایگاه داده استاد: آقای دکتر رهگذر دانشجو: ليلا سيد حسين 09/03/1388. رئوس مطالب. اهمیت موضوع ساختار SimRank ساختار SimTree الگوریتم LinkClus بررسی نتایج. اهمیت موضوع. - PowerPoint PPT PresentationTRANSCRIPT
1
یک روش خوشه بندی کارا بر اساس پیوندها
نام درس: مباحث پیشرفته در پایگاه داده
استاد: آقای دکتر رهگذردانشجو: ليال سيد حسين
09/03/1388
بسمه تعالي
2 27/
رئوس مطالب
اهمیت موضوع•
SimRankساختار •
SimTreeساختار •
LinkClusالگوریتم •
بررسی نتایج•
3 27/
اهمیت موضوع
اشیاء داده ای در ی�ک بان�ک اطالعات�ی رابط�ه ای از طریق پیوندهای •مختلفی به یکدیگر متصل می شوند.
ای�ن پیونده�ا شام�ل اطالعات معنادار مهم�ی هس�تند که نشان دهنده •ارتباطات بین اشیاء می باشند.
بیشت�ر الگوریت�م های خوش�ه بندی تنه�ا بر اس�اس ص�فات ی�ک شیء •خاص کار م�ی کنن�د در حالیک�ه شباه�ت بی�ن اشیاء اغل�ب از طریق
پیوندهای آنها مشخص می شود.
در ای�ن مقال�ه ی�ک روش خوش�ه بندی بر پای�ه پیونده�ا ارائ�ه م�ی شود •ک�ه در آ�ن شباه�ت بی�ن دو شی�ء بر پای�ه شباه�ت اشیاء مرتب�ط ب�ا آ�ن
دو شیء اندازه گیری می شود.
4 27/
شباهت اشیاء بر اساس پیوندها
5 27/
محاسبه شباهت اشیاء بر اساس پیوندهای مستقیم
•Tom وJohn شبیه نیستند
•John و Mary شبیه هستند
Tom sigmod03
Mike
Cathy
John
sigmod04
sigmod05
vldb03vldb04vldb05
sigmod
vldb
Maryaaai04aaai05
aaai
Authors Proceedings Conferences
6 27/
SimRankساختار
شباهAت بیAن دو شیAء بAه طور بازگشتAی از محاسAبه•متوسط شباهت بین اشیاء متصل به آن
–Tom وJohnشبیه هستند –John و Maryشبیه نیستند
Tom sigmod03
Mike
Cathy
John
sigmod04
sigmod05
vldb03vldb04vldb05
sigmod
vldb
Maryaaai04aaai05
aaai
Authors Proceedings Conferences
7 27/
...SimRank ساختار
O(M2) زمان:
M تعداد اشیاء داده :ای
O(N2)فضا:
Nتعداد پیوندها :
8 27/
: ساختار درختی1مشاهده
معموال بین اشیاء به طور طبAیعی یک ساختار درختی وجود دارد•
All
electronicsgrocery apparel
DVD cameraTV
Wal-Martساختار درختی ک�االها در
9 27/
: توزیع شباهت2مشاهده
توزیع قانون قدرت بین شباهت ها• قرار دارد[0.005,0.015]حجم باالیی از شباهت ها در محدوده – هستند0.1 از شباهت ها بزرگتر از 1.4%–
آی�ا م�ی توان س�اختاری طراح�ی کرد ک�ه شباه�ت های مه�م ت�ر را ذخیره کند و •شباهت های کم اهمیت تر را به صورت فشرده ذخیره سازد؟
توزیع شباهت ها بین DBLPنویسندگان
1027/
SimTreeیک ساختار داده ای جدید :
TVs
Each leaf node represents an object
Each non-leaf node represents a group of similar lower-level nodes
Similarities between siblings are stored
Electronics
Apparels
Canon A40 digital camera
Sony V3 digital camera
Digital Cameras
1127/
SimTreeتخمین شباهت دو گره در
n1 n2
n4 n5n6
n30.2
n7 n9
0.3
n8
0.8
0.9
Similarity between two sibling nodes n1 and n2
s(n7,n8)=s(n4,n5)
s(n7,n9)=s(n1,n2)
0.9 1.0
0.90.8
1227/
بهبود شباهت
n1 n2
n4 n5n6
n30.2
n7 n9
0.3
n8
0.8
0.9
Similarity between two sibling nodes n1 and n2
simp(n7,n9) = s(n7, n4) × s(n1, n4) × s(n1, n2) × s(n2, n6) × s(n6, n9)= 0.9 × 0.8 × 0.2 × 0.9 × 1.0= 0.1296
0.9 1.0
0.90.8
یک برگ و پدرش ممکن است شباهت های متفاوتی با گره های دیگر داشته باشند
1327/
LinkClusالگوریتم
یAک الگوریتAم کارا و موثAر برای خوشAه بندی بر اساس •پیوندها
های اولیهSimTreeساخت –
ها به صورت تکراریSimTreeبهبود –
1427/
هاSimTreeمقدار دهی اولیه به
یافتن گروه هایی از گره ها که همبستگی باالیی دارند و ادغام آنها در یک سطح باالتر•
های دیگر است SimTree تعدادی از برگ های{n1,…,nk}همبستگی یک گروه از گره های •که به همه گره های این گروه متصل هستند.
The tightness of {n1, n2} is 3
n112345
n2
Nodes Leaf nodes in another SimTree
1527/
یافتن گروه های همبسته با استفاده از کاوش الگوهای تکراری
شروع از برگ ها در سطح اول•یافتAن گروه هایAی از گره های مشابAه کAه باهAم هAم پوشانAی ندارنAد با کاوش اAلگوهای •
lتکراری در هر سطح
g1
g2
{n1}{n1, n2}{n2}{n1, n2}{n1, n2}{n2, n3, n4}{n4}{n3, n4}{n3, n4}
Transactions
n1123456789
n2
n3
n4
همبستگی یک گروه برابر با Support یک الگوی تکراری
است
1627/
بروز کردن شباهت های بین گره ها
محاسبه شباهتA بین فرزندان و والدین•
بروزرسانی شباهت ها•
بروز رسانی ساختار درخت•
1727/
محاسبه شباهت بین فرزندان و والدین
n1 n2
n4 n5n6
n30.2
n7 n9
0.3
n8
0.8
0.9
0.9 1.0
0.90.8
S(n7,n4) = Average similarity between n7 and all nodes except n4’s descendents
Average similarity between n4 and those nodes
1827/
بروز کردن شباهت های بین گره ها
شباهت های اولیه معموال نمی تواند همه ارتباطات بین اشیاء را در برگیرد.•به صورت تکراری شباهت ها را بروز رسانی می کنیم•
شباهت بین دوگره متوسط شباهت اشیاء متصل به آن است–
z
c d
f g
e
h kl m n o p q r s t u v w x y
ST1
0
1 2
4 5 6 7
3
8 910 11 12 13 14 15 16 17 18 19 20 21 22 23 24
ST2
a b
10
11
12
13
14
sim(na,nb) = average similarity between and
1927/
تعریف
•Simweight.ای نشان دادن شباهت و وزن یک پیوند بکار می رودAاین ساختار داده ای بر :
وزن آن است.w شباهت پیوند و s تعریف می کنیم که <s,w>آن را به صورت زوج •
دو عمگر ضرب وA جمع برای این ساختار داده ای به صورت زیرتعریف می شود:•
<s1,w1>+<s2,w2>=<(s1.w1+s2.w2)/(w1+w2) , w1+w2>
<s1,w1>×<s2,w2>=<s1.s2 ,w1.w2>
2027/
بروز کردن شباهت های بین گره ها
4 5
10 12 13 14
a b
ST2
ST1
11
0.2
0.9 1.0 0.8 0.9 1.0
a:(1,1)a:(1,1)
a:(1,1)
a:(0.9,3) b:(0.95,2)
b:(1,1)
b:(1,1)
3,9.03,3
8.019.01,11,8.01,11,11,11,9.0
1),,()(
44
4nchildrenn
nnnn aaswnnssw
2127/
بروز کردن شباهت های بین گره ها ...
4 5
10 12 13 14
a b
ST2
ST1
11
0.2
0.9 1.0 0.8 0.9 1.0
a:(0.9,3) b:(0.95,2)
541),,( 54, nnnnnn baba
swnnsswsw
= <0.9,3> x <0.2,1> x <0.95,2> = <0.171,6>
2227/
بروز کردن شباهت های بین گره ها ...
می یابیمST2 متصل است را در nb و دیگری به na هم هستند و یکی از آنها به sibling که nj و ni همه زوج گره های • را با در نظر گرفتن این زوج پیدا می کنیم و نتایج را جمع می زنیمnb و naشباهت و وزن بین •
متصل هستند را می یابیم و به ازای آنها مقدار زیر را بدست می آوریمnb و هم به na که هم به ST2 از niهمه برگ های •
استnb و naجمع مقادیر بدست آمده شباهت دو گره •
2327/
SimTreeسازمان دهی مجدد
می یابیمST2 متصل است را در nb و دیگری به na هم هستند و یکی از آنها به sibling که nj و ni همه زوج گره های • را با در نظر گرفتن این زوج پیدا می کنیم و نتایج را جمع می زنیمnb و naشباهت و وزن بین •
متصل هستند را می یابیم و به ازای آنها مقدار زیر را بدست می آوریمnb و هم به na که هم به ST2 از niهمه برگ های •
استnb و naجمع مقادیر بدست آمده شباهت دو گره •
n1 n2
n4 n5n6
n3
n7 n9n8
0.80.9
n7
2427/
پیچیدگی الگوریتم )برای دو نوع شیء داده ای(
Time SpaceUpdating similarities O(M(logN)2) O(M+N)
Adjusting tree structures O(N) O(N)
LinkClus O(M(logN)2) O(M+N)SimRank O(M2) O(N2)
M تعداد اشیاء داده :ایNتعداد پیوندها :
2527/
مقایسه با الگوریتم های مشابه روی داده های واقعی
Approach Accuracy time (s)
LinkClus 0.8026 1579.6
SimRank 0.7965 39160
ReCom 0.5711 74.6
F-SimRank 0.3688 479.7
CLARANS 0.4768 8.55
2627/
منابع
• Xiaoxin Yin, Jiawei Han, Philip S. Yu; LinkClus: Efficient Clustering via Heterogeneous Semantic Links; VLDB;2006; ACM 1595933859
• Glen Jeh, Jennifer Widom; SimRank: A Measure of Structural-Context Similarity; KDD, 2002
2727/
پرسش و پاسخ