assoc parallel
TRANSCRIPT
-
8/19/2019 Assoc Parallel
1/12
S c a l a b l e P a r a l l e l D a t a M i n i n g f o r A s s o c i a t i o n R u l e s
E u i - H o n g ( S a m ) H a n
D e p a r t m e n t o f C o m p u t e r S c i e n c e
U n i v e r s i t y o f M i n n e s o t a
M i n n e a p o l i s , M N 5 5 4 5 5
h a n @ c s . u m n . e d u
G e o r g e K a r y p i s
D e p a r t m e n t o f C o m p u t e r S c i e n c e
U n i v e r s i t y o f M i n n e s o t a
M i n n e a p o l i s , M N 5 5 4 5 5
k a r y p i s @ c s . u m n . e d u
V i p i n K u m a r
D e p a r t m e n t o f C o m p u t e r S c i e n c e
U n i v e r s i t y o f M i n n e s o t a
M i n n e a p o l i s , M N 5 5 4 5 5
k u m a r @ c s . u m n . e d u
A b s t r a c t
O n e o f t h e i m p o r t a n t p r o b l e m s i n d a t a m i n i n g i s d i s c o v e r -
i n g a s s o c i a t i o n r u l e s f r o m d a t a b a s e s o f t r a n s a c t i o n s w h e r e
e a c h t r a n s a c t i o n c o n s i s t s o f a s e t o f i t e m s . T h e m o s t t i m e
c o n s u m i n g o p e r a t i o n i n t h i s d i s c o v e r y p r o c e s s i s t h e c o m -
p u t a t i o n o f t h e f r e q u e n c y o f t h e o c c u r r e n c e s o f i n t e r e s t i n g
s u b s e t o f i t e m s ( c a l l e d c a n d i d a t e s ) i n t h e d a t a b a s e o f t r a n s -
a c t i o n s . T o p r u n e t h e e x p o n e n t i a l l y l a r g e s p a c e o f c a n d i -
d a t e s , m o s t e x i s t i n g a l g o r i t h m s , c o n s i d e r o n l y t h o s e c a n d i -
d a t e s t h a t h a v e a u s e r d e n e d m i n i m u m s u p p o r t . E v e n w i t h
t h e p r u n i n g , t h e t a s k o f n d i n g a l l a s s o c i a t i o n r u l e s r e q u i r e s
a l o t o f c o m p u t a t i o n p o w e r a n d t i m e . P a r a l l e l c o m p u t e r s
o e r a p o t e n t i a l s o l u t i o n t o t h e c o m p u t a t i o n r e q u i r e m e n t
o f t h i s t a s k , p r o v i d e d e c i e n t a n d s c a l a b l e p a r a l l e l a l g o -
r i t h m s c a n b e d e s i g n e d . I n t h i s p a p e r , w e p r e s e n t t w o n e w
p a r a l l e l a l g o r i t h m s f o r m i n i n g a s s o c i a t i o n r u l e s . T h e I n t e l -
l i g e n t D a t a D i s t r i b u t i o n a l g o r i t h m e c i e n t l y u s e s a g g r e g a t e
m e m o r y o f t h e p a r a l l e l c o m p u t e r b y e m p l o y i n g i n t e l l i g e n t
c a n d i d a t e p a r t i t i o n i n g s c h e m e a n d u s e s e c i e n t c o m m u n i -
c a t i o n m e c h a n i s m t o m o v e d a t a a m o n g t h e p r o c e s s o r s . T h e
H y b r i d D i s t r i b u t i o n a l g o r i t h m f u r t h e r i m p r o v e s u p o n t h e I n -
t e l l i g e n t D a t a D i s t r i b u t i o n a l g o r i t h m b y d y n a m i c a l l y p a r t i -
t i o n i n g t h e c a n d i d a t e s e t t o m a i n t a i n g o o d l o a d b a l a n c e .
T h e e x p e r i m e n t a l r e s u l t s o n a C r a y T 3 D p a r a l l e l c o m p u t e r
s h o w t h a t t h e H y b r i d D i s t r i b u t i o n a l g o r i t h m s c a l e s l i n e a r l y
a n d e x p l o i t s t h e a g g r e g a t e m e m o r y b e t t e r a n d c a n g e n e r a t e
m o r e a s s o c i a t i o n r u l e s w i t h a s i n g l e s c a n o f d a t a b a s e p e r
p a s s .
1 I n t r o d u c t i o n
O n e o f t h e i m p o r t a n t p r o b l e m s i n d a t a m i n i n g S A D
+
9 3 ] i s
d i s c o v e r i n g a s s o c i a t i o n r u l e s f r o m d a t a b a s e s o f t r a n s a c t i o n s ,
T h i s w o r k w a s s u p p o r t e d b y N S F g r a n t A S C - 9 6 3 4 7 1 9 , A r m y
R e s e a r c h O c e c o n t r a c t D A / D A A H 0 4 - 9 5 - 1 - 0 5 3 8 , C r a y R e s e a r c h
I n c . F e l l o w s h i p , a n d I B M p a r t n e r s h i p a w a r d , t h e c o n t e n t o f
w h i c h d o e s n o t n e c e s s a r i l y r e e c t t h e p o l i c y o f t h e g o v e r n m e n t ,
a n d n o o c i a l e n d o r s e m e n t s h o u l d b e i n f e r r e d . A c c e s s t o c o m -
p u t i n g f a c i l i t i e s w a s p r o v i d e d b y A H P C R C , M i n n e s o t a S u p e r c o m -
p u t e r I n s t i t u t e , C r a y R e s e a r c h I n c . , a n d N S F g r a n t C D A - 9 4 1 4 0 1 5 .
S e e h t t p : / / w w w . c s . u m n . e d u / h a n / p a p e r s . h t m l # D a t a M i n i n g P a p e r s
f o r a n e x t e n d e d v e r s i o n o f t h i s p a p e r a n d o t h e r r e l a t e d p a p e r s .
w h e r e e a c h t r a n s a c t i o n c o n t a i n s a s e t o f i t e m s . T h e m o s t
t i m e c o n s u m i n g o p e r a t i o n i n t h i s d i s c o v e r y p r o c e s s i s t h e
c o m p u t a t i o n o f t h e f r e q u e n c i e s o f t h e o c c u r r e n c e o f s u b s e t s
o f i t e m s , a l s o c a l l e d c a n d i d a t e s , i n t h e d a t a b a s e o f t r a n s a c -
t i o n s . S i n c e u s u a l l y s u c h t r a n s a c t i o n - b a s e d d a t a b a s e s c o n -
t a i n e x t r e m e l y l a r g e a m o u n t s o f d a t a a n d l a r g e n u m b e r
o f d i s t i n c t i t e m s , t h e t o t a l n u m b e r o f c a n d i d a t e s i s p r o -
h i b i t i v e l y l a r g e . H e n c e , c u r r e n t a s s o c i a t i o n r u l e d i s c o v e r y
t e c h n i q u e s A S 9 4 , H S 9 5 , S O N 9 5 , S A 9 5 ] t r y t o p r u n e t h e
s e a r c h s p a c e b y r e q u i r i n g a m i n i m u m l e v e l o f s u p p o r t f o r
c a n d i d a t e s u n d e r c o n s i d e r a t i o n . S u p p o r t i s a m e a s u r e b a s e d
o n t h e n u m b e r o f o c c u r r e n c e s o f t h e c a n d i d a t e s i n d a t a b a s e
t r a n s a c t i o n s . A p r i o r i A S 9 4 ] i s a r e c e n t s t a t e - o f - t h e - a r t a l -
g o r i t h m t h a t a g g r e s s i v e l y p r u n e s t h e s e t o f p o t e n t i a l c a n -
d i d a t e s o f s i z e k b y l o o k i n g a t t h e p r e c i s e s u p p o r t f o r c a n -
d i d a t e s o f s i z e k 1 . I n t h e k
t h
i t e r a t i o n , t h i s a l g o r i t h m
c o m p u t e s t h e o c c u r r e n c e s o f p o t e n t i a l c a n d i d a t e s o f s i z e k
i n e a c h o f t h e t r a n s a c t i o n s . T o d o t h i s t a s k e c i e n t l y , t h e
a l g o r i t h m m a i n t a i n s a l l p o t e n t i a l c a n d i d a t e s o f s i z e k i n a
h a s h t r e e . T h i s a l g o r i t h m d o e s n o t r e q u i r e t h e t r a n s a c t i o n s
t o s t a y i n m a i n m e m o r y , b u t r e q u i r e s t h e h a s h t r e e s t o s t a y
i n m a i n m e m o r y .
E v e n w i t h t h e h i g h l y e e c t i v e p r u n i n g m e t h o d o f A p r i -
o r i , t h e t a s k o f n d i n g a l l a s s o c i a t i o n r u l e s r e q u i r e s a l o t o f
c o m p u t a t i o n p o w e r t h a t i s a v a i l a b l e o n l y i n p a r a l l e l c o m -
p u t e r s . F u r t h e r m o r e , t h e s i z e o f t h e m a i n m e m o r y i n t h e
s e r i a l c o m p u t e r p u t s a n u p p e r l i m i t o n t h e s i z e o f t h e c a n d i -
d a t e s e t s t h a t c a n b e c o n s i d e r e d i n a n y i t e r a t i o n ( a n d t h u s
a l o w e r b o u n d o n t h e m i n i m u m l e v e l o f s u p p o r t i m p o s e d
o n c a n d i d a t e s u n d e r c o n s i d e r a t i o n ) . P a r a l l e l c o m p u t e r s a l s o
o e r i n c r e a s e d m e m o r y t o s o l v e t h i s p r o b l e m .
T w o p a r a l l e l a l g o r i t h m s , C o u n t D i s t r i b u t i o n a n d D a t a
D i s t r i b u t i o n w e r e p r o p o s e d i n A S 9 6 ] . T h e C o u n t D i s t r i b u -
t i o n a l g o r i t h m h a s s h o w n t o s c a l e l i n e a r l y a n d h a v e e x c e l l e n t
s p e e d u p a n d s i z e u p b e h a v i o r w i t h r e s p e c t t o t h e n u m b e r o f
t r a n s a c t i o n s A S 9 6 ] . H o w e v e r , t h i s a l g o r i t h m w o r k s o n l y
w h e n t h e e n t i r e h a s h t r e e i n e a c h p a s s o f t h e a l g o r i t h m t s
i n t o t h e m a i n m e m o r y o f s i n g l e p r o c e s s o r o f t h e p a r a l l e l c o m -
p u t e r s . H e n c e , t h e C o u n t D i s t r i b u t i o n a l g o r i t h m , l i k e i t s s e -
q u e n t i a l c o u n t e r p a r t A p r i o r i , i s u n s c a l a b l e w i t h r e s p e c t t o
i n c r e a s i n g c a n d i d a t e s i z e . T h e D a t a D i s t r i b u t i o n a l g o r i t h m
a d d r e s s e s t h e m e m o r y p r o b l e m o f t h e C o u n t D i s t r i b u t i o n
a l g o r i t h m b y p a r t i t i o n i n g t h e c a n d i d a t e s e t a n d a s s i g n i n g
a p a r t i t i o n t o e a c h p r o c e s s o r i n t h e s y s t e m . H o w e v e r , t h i s
a l g o r i t h m r e s u l t s i n h i g h c o m m u n i c a t i o n o v e r h e a d d u e t o
d a t a m o v e m e n t a n d r e d u n d a n t c o m p u t a t i o n A S 9 6 ] .
I n t h i s p a p e r , w e p r e s e n t t w o p a r a l l e l a l g o r i t h m s f o r m i n -
i n g a s s o c i a t i o n r u l e s . W e r s t p r e s e n t I n t e l l i g e n t D a t a D i s -
t r i b u t i o n a l g o r i t h m t h a t i m p r o v e s u p o n t h e D a t a D i s t r i b u -
-
8/19/2019 Assoc Parallel
2/12
t i o n a l g o r i t h m s u c h t h a t t h e c o m m u n i c a t i o n o v e r h e a d a n d
r e d u n d a n t c o m p u t a t i o n i s m i n i m i z e d . T h e H y b r i d D i s t r i b u -
t i o n a l g o r i t h m f u r t h e r i m p r o v e s u p o n t h e I n t e l l i g e n t D a t a
D i s t r i b u t i o n a l g o r i t h m b y d y n a m i c a l l y g r o u p i n g p r o c e s s o r s
a n d p a r t i t i o n i n g t h e c a n d i d a t e s e t a c c o r d i n g l y t o m a i n t a i n
g o o d l o a d b a l a n c e . T h e e x p e r i m e n t a l r e s u l t s o n a C r a y
T 3 D p a r a l l e l c o m p u t e r s h o w t h a t t h e H y b r i d D i s t r i b u t i o n
a l g o r i t h m s c a l e s l i n e a r l y a n d e x p l o i t s t h e a g g r e g a t e m e m o r y
b e t t e r a n d c a n g e n e r a t e m o r e a s s o c i a t i o n r u l e s w i t h a s i n g l e
s c a n o f d a t a b a s e p e r p a s s . A n e x t e n d e d v e r s i o n o f t h i s p a p e r
t h a t a l s o c o n t a i n s t h e a n a l y s i s o f t h e p e r f o r m a n c e o f t h e s e
s c h e m e s i s a v a i l a b l e i n H K K 9 7 ] .
T h e r e s t o f t h i s p a p e r i s o r g a n i z e d a s f o l l o w s . S e c t i o n 2
p r o v i d e s a n o v e r v i e w o f t h e s e r i a l a l g o r i t h m f o r m i n i n g a s -
s o c i a t i o n r u l e s . S e c t i o n 3 d e s c r i b e s e x i s t i n g a n d p r o p o s e d
p a r a l l e l a l g o r i t h m s . E x p e r i m e n t a l r e s u l t s a r e s h o w n i n S e c -
t i o n 4 . S e c t i o n 5 c o n t a i n s c o n c l u s i o n s .
2 B a s i c C o n c e p t s
L e t T b e t h e s e t o f t r a n s a c t i o n s w h e r e e a c h t r a n s a c t i o n i s
a s u b s e t o f t h e i t e m - s e t I . L e t C b e a s u b s e t o f I , t h e n w e
d e n e t h e s u p p o r t c o u n t o f C w i t h r e s p e c t t o T t o b e :
( C ) = j f t j t 2 T ; C t g j
A n a s s o c i a t i o n r u l e i s a n e x p r e s s i o n o f t h e f o r m X
s ;
= ) Y ,
w h e r e X I a n d Y I . T h e s u p p o r t s o f t h e r u l e X
s ;
= ) Y
i s d e n e d a s ( X Y ) = j T j , a n d t h e c o n d e n c e i s d e n e d
a s ( X Y ) = ( X ) . F o r e x a m p l e , c o n s i d e r a r u l e f 1 2 g = )
f 3 g , i . e . i t e m s 1 a n d 2 i m p l i e s 3 . T h e s u p p o r t o f t h i s r u l e i s
t h e f r e q u e n c y o f t h e i t e m - s e t f 1 2 3 g i n t h e t r a n s a c t i o n s . F o r
e x a m p l e , a s u p p o r t o f 0 . 0 5 m e a n s t h a t 5 % o f t h e t r a n s a c -
t i o n s c o n t a i n f 1 2 3 g . T h e c o n d e n c e o f t h i s r u l e i s d e n e d
a s t h e r a t i o o f t h e f r e q u e n c i e s o f f 1 2 3 g a n d f 1 2 g . F o r
e x a m p l e , i f 1 0 % o f t h e t r a n s a c t i o n s c o n t a i n f 1 2 g , t h e n t h e
c o n d e n c e o f t h e r u l e i s 0 0 5 = 0 1 0 = 0 5 . A r u l e t h a t h a s a
v e r y h i g h c o n d e n c e ( i . e . , t h a t i s c l o s e t o 1 . 0 ) i s o f t e n v e r y
i m p o r t a n t , b e c a u s e i t p r o v i d e s a n a c c u r a t e p r e d i c t i o n o n t h e
a s s o c i a t i o n o f t h e i t e m s i n t h e r u l e . T h e s u p p o r t o f a r u l e
i s a l s o i m p o r t a n t , s i n c e i t i n d i c a t e s h o w f r e q u e n t t h e r u l e i s
i n t h e t r a n s a c t i o n s . R u l e s t h a t h a v e v e r y s m a l l s u p p o r t a r e
o f t e n u n i n t e r e s t i n g , s i n c e t h e y d o n o t d e s c r i b e s i g n i c a n t l y
l a r g e p o p u l a t i o n s . T h i s i s o n e o f t h e r e a s o n s w h y m o s t a l g o -
r i t h m s d i s r e g a r d a n y r u l e s t h a t d o n o t s a t i s f y t h e m i n i m u m
s u p p o r t c o n d i t i o n s p e c i e d b y t h e u s e r . T h i s l t e r i n g d u e
t o t h e m i n i m u m r e q u i r e d s u p p o r t i s a l s o c r i t i c a l i n r e d u c -
i n g t h e n u m b e r o f d e r i v e d a s s o c i a t i o n r u l e s t o a m a n a g e a b l e
s i z e .
T h e t a s k o f d i s c o v e r i n g a n a s s o c i a t i o n r u l e i s t o n d a l l
r u l e s X
s ;
= ) Y , w h e r e s i s a t l e a s t a g i v e n m i n i m u m s u p -
p o r t t h r e s h o l d a n d i s a t l e a s t a g i v e n m i n i m u m c o n d e n c e
t h r e s h o l d . T h e a s s o c i a t i o n r u l e d i s c o v e r y i s c o m p o s e d o f
t w o s t e p s . T h e r s t s t e p i s t o d i s c o v e r a l l t h e f r e q u e n t
i t e m - s e t s ( c a n d i d a t e s e t s t h a t h a s m o r e s u p p o r t t h a n t h e
m i n i m u m s u p p o r t t h r e s h o l d s p e c i e d ) a n d t h e s e c o n d s t e p
i s t o g e n e r a t e a s s o c i a t i o n r u l e s t h a t h a v e h i g h e r c o n d e n c e
t h a n t h e m i n i m u m c o n d e n c e t h r e s h o l d f r o m t h e s e f r e q u e n t
i t e m - s e t s .
A n u m b e r o f a l g o r i t h m s h a v e b e e n d e v e l o p e d f o r d i s c o v -
e r i n g a s s o c i a t i o n r u l e s A I S 9 3 , A S 9 4 , H S 9 5 ] . O u r p a r a l l e l
a l g o r i t h m s a r e b a s e d o n t h e A p r i o r i a l g o r i t h m A S 9 4 ] t h a t
h a s s m a l l e r c o m p u t a t i o n a l c o m p l e x i t y c o m p a r e d t o o t h e r a l -
g o r i t h m s . I n t h e r e s t o f t h i s s e c t i o n , w e b r i e y d e s c r i b e t h e
A p r i o r i a l g o r i t h m . T h e r e a d e r s h o u l d r e f e r t o A S 9 4 ] f o r
f u r t h e r d e t a i l s .
1 F
1
= f f r e q u e n t 1 - i t e m - s e t s g ;
2 f o r ( k = 2 ; F
k 1
6= ; k + + ) d o b e g i n
3 C
k
= a p r i o r i g e n ( F
k 1
)
4 f o r a l l t r a n s a c t i o n s t 2 T
5 . s u b s e t ( C
k
, t )
6 F
k
= f c 2 C
k
j c . c o u n t m i n s u p g
7 e n d
8 . A n s w e r =
S
F
k
F i g u r e 1 : A p r i o r i A l g o r i t h m
T h e A p r i o r i a l g o r i t h m c o n s i s t s o f a n u m b e r o f p a s s e s .
D u r i n g p a s s k , t h e a l g o r i t h m n d s t h e s e t o f f r e q u e n t i t e m -
s e t s F
k
o f l e n g t h k t h a t s a t i s f y t h e m i n i m u m s u p p o r t r e -
q u i r e m e n t . T h e a l g o r i t h m t e r m i n a t e s w h e n F
k
i s e m p t y .
T h e h i g h l e v e l s t r u c t u r e s o f t h e A p r i o r i a l g o r i t h m a r e g i v e n
i n F i g u r e 1 . I n i t i a l l y F
1
c o n t a i n s a l l t h e i t e m s ( i . e . , i t e m s e t
o f s i z e o n e ) t h a t s a t i s f y t h e m i n i m u m s u p p o r t r e q u i r e m e n t .
T h e n f o r k = 2 ; 3 ; 4 ; : : : , t h e a l g o r i t h m g e n e r a t e s C
k
o f c a n -
d i d a t e s i t e m - s e t s o f l e n g t h k u s i n g F
k 1
. T h i s i s d o n e i n
t h e f u n c t i o n a p r i o r i g e n , w h i c h g e n e r a t e s C
k
b y p e r f o r m i n g
a j o i n o p e r a t i o n o n t h e i t e m - s e t s o f F
k 1
. O n c e t h e c a n -
d i d a t e i t e m - s e t s a r e f o u n d , t h e i r f r e q u e n c i e s a r e c o m p u t e d
b y c o u n t i n g h o w m a n y t r a n s a c t i o n s c o n t a i n t h e s e c a n d i d a t e
i t e m - s e t s . F i n a l l y , F
k
i s g e n e r a t e d b y p r u n i n g C
k
t o e l i m -
i n a t e i t e m - s e t s w i t h f r e q u e n c i e s s m a l l e r t h a n t h e m i n i m u m
s u p p o r t . T h e u n i o n o f t h e f r e q u e n t i t e m - s e t s ,
S
F
k
, i s t h e
f r e q u e n t i t e m - s e t s f r o m w h i c h w e g e n e r a t e a s s o c i a t i o n r u l e s .
C o m p u t i n g t h e c o u n t s o f t h e c a n d i d a t e i t e m - s e t s i s t h e
m o s t c o m p u t a t i o n a l l y e x p e n s i v e s t e p o f t h e a l g o r i t h m . O n e
n a i v e w a y t o c o m p u t e t h e s e c o u n t s i s t o s c a n e a c h t r a n s -
a c t i o n a n d s e e i f i t c o n t a i n s a n y o f t h e c a n d i d a t e i t e m - s e t s
a s i t s s u b s e t b y p e r f o r m i n g a s t r i n g - m a t c h i n g a g a i n s t e a c h
c a n d i d a t e i t e m - s e t . A f a s t e r w a y o f p e r f o r m i n g t h i s o p e r a -
t i o n i s t o u s e a c a n d i d a t e h a s h t r e e i n w h i c h t h e c a n d i d a t e
i t e m - s e t s a r e h a s h e d A S 9 4 ] . F i g u r e 2 s h o w s o n e e x a m p l e
o f t h e c a n d i d a t e h a s h t r e e w i t h c a n d i d a t e s o f l e n g t h 3 . T h e
i n t e r n a l n o d e s o f t h e h a s h t r e e h a v e h a s h t a b l e s t h a t c o n t a i n
l i n k s t o c h i l d n o d e s . T h e l e a f n o d e s c o n t a i n t h e c a n d i d a t e
i t e m - s e t s . W h e n e a c h c a n d i d a t e i t e m - s e t i s g e n e r a t e d , t h e
i t e m s i n t h e s e t a r e s t o r e d i n s o r t e d o r d e r . E a c h c a n d i d a t e
i t e m - s e t i s i n s e r t e d i n t o t h e h a s h t r e e b y h a s h i n g e a c h i t e m
a t t h e i n t e r n a l n o d e s i n s e q u e n c e a n d f o l l o w i n g t h e l i n k s i n
t h e h a s h t a b l e . O n c e t h e l e a f i s r e a c h e d , t h e c a n d i d a t e i t e m -
s e t i s i n s e r t e d a t t h e l e a f i f t h e t o t a l n u m b e r o f c a n d i d a t e
i t e m - s e t s a r e l e s s t h a n t h e m a x i m u m a l l o w e d . I f t h e t o t a l
n u m b e r o f c a n d i d a t e i t e m - s e t s a t t h e l e a f e x c e e d s t h e m a x i -
m u m a l l o w e d a n d t h e r e a r e m o r e i t e m s t o b e h a s h e d i n t h e
c a n d i d a t e i t e m - s e t , t h e l e a f n o d e i s c o n v e r t e d i n t o a n i n t e r -
n a l n o d e a n d c h i l d n o d e s a r e c r e a t e d f o r t h e n e w i n t e r n a l
n o d e . T h e c a n d i d a t e i t e m - s e t s a r e d i s t r i b u t e d t o t h e c h i l d
n o d e s a c c o r d i n g t o t h e h a s h v a l u e s o f t h e i t e m s . F o r e x a m -
p l e , t h e c a n d i d a t e i t e m s e t f 1 2 4 g i s i n s e r t e d b y h a s h i n g
i t e m 1 a t t h e r o o t t o r e a c h t h e l e f t c h i l d n o d e o f t h e r o o t ,
h a s h i n g i t e m 2 a t t h a t n o d e t o r e a c h t h e m i d d l e c h i l d n o d e ,
h a s h i n g i t e m 3 t o r e a c h t h e l e f t c h i l d n o d e w h i c h i s a l e a f
n o d e .
T h e s u b s e t f u n c t i o n t r a v e r s e s t h e h a s h t r e e f r o m t h e r o o t
w i t h e v e r y i t e m i n a t r a n s a c t i o n a s a p o s s i b l e s t a r t i n g i t e m
o f a c a n d i d a t e . I n t h e n e x t l e v e l o f t h e t r e e , a l l t h e i t e m s
o f t h e t r a n s a c t i o n f o l l o w i n g t h e s t a r t i n g i t e m a r e h a s h e d .
-
8/19/2019 Assoc Parallel
3/12
2,5,8
1,4,7 3,6,9
Hash Function
1 2 3 5 6
3 4 5 3 5 6
2 3 5 6
3 5 6
5 6
1 +
2 +
3 +
2 3 4
Transaction
Candidate Hash Tree
3 6 71 3 61 4 5
1 2 4 1 2 5 1 5 9
6 8 9
3 5 7
4 5 7 4 5 8
3 6 8
5 6 7
F i g u r e 2 : S u b s e t o p e r a t i o n o n t h e r o o t o f a c a n d i d a t e h a s h
t r e e .
1 2 3 5 6
3 4 5 3 5 6
3 5 61 2 +
1 3 + 5 6
1 5 + 6
2 3 5 6
3 5 6
5 6
1 +
2 +
3 +
2 3 4
Transaction
3 6 71 3 61 4 5
1 2 4 1 2 5 1 5 9
6 8 9
3 5 7
4 5 7 4 5 8
3 6 8
5 6 7
Candidate Hash Tree
F i g u r e 3 : S u b s e t o p e r a t i o n o n t h e l e f t m o s t s u b t r e e o f t h e
r o o t o f a c a n d i d a t e h a s h t r e e .
T h i s i s d o n e r e c u r s i v e l y u n t i l a l e a f i s r e a c h e d . A t t h i s t i m e ,
a l l t h e c a n d i d a t e s a t t h e l e a f a r e c h e c k e d a g a i n s t t h e t r a n s -
a c t i o n a n d t h e i r c o u n t s a r e u p d a t e d a c c o r d i n g l y . F i g u r e 2
s h o w s t h e s u b s e t o p e r a t i o n a t t h e r s t l e v e l o f t h e t r e e w i t h
t r a n s a c t i o n f 1 2 3 5 6 g . T h e i t e m 1 i s h a s h e d t o t h e l e f t
c h i l d n o d e o f t h e r o o t a n d t h e f o l l o w i n g t r a n s a c t i o n f 2 3 5
6 g i s a p p l i e d r e c u r s i v e l y t o t h e l e f t c h i l d n o d e . T h e i t e m 2
i s h a s h e d t o t h e m i d d l e c h i l d n o d e o f t h e r o o t a n d t h e w h o l e
t r a n s a c t i o n i s c h e c k e d a g a i n s t t w o c a n d i d a t e i t e m - s e t s i n t h e
m i d d l e c h i l d n o d e . T h e n i t e m 3 i s h a s h e d t o t h e r i g h t c h i l d
n o d e o f t h e r o o t a n d t h e f o l l o w i n g t r a n s a c t i o n f 5 6 g i s a p -
p l i e d r e c u r s i v e l y t o t h e r i g h t c h i l d n o d e . F i g u r e 3 s h o w s t h e
s u b s e t o p e r a t i o n o n t h e l e f t c h i l d n o d e o f t h e r o o t . H e r e
t h e i t e m s 2 a n d 5 a r e h a s h e d t o t h e m i d d l e c h i l d n o d e a n d
t h e f o l l o w i n g t r a n s a c t i o n s f 3 5 6 g a n d f 6 g r e s p e c t i v e l y a r e
a p p l i e d r e c u r s i v e l y t o t h e m i d d l e c h i l d n o d e . T h e i t e m 3 i s
h a s h e d t o t h e r i g h t c h i l d n o d e a n d t h e r e m a i n i n g t r a n s a c t i o n
f 5 6 g i s a p p l i e d r e c u r s i v e l y t o t h e r i g h t c h i l d n o d e .
T h e b u l k o f t h e c o m p u t a t i o n i s s p e n t i n n d i n g t h e f r e -
q u e n t i t e m - s e t s a n d t h e a m o u n t o f t i m e r e q u i r e d t o n d t h e
r u l e s f r o m t h e s e f r e q u e n t i t e m - s e t s i s r e l a t i v e l y s m a l l . F o r
t h i s r e a s o n , p a r a l l e l a s s o c i a t i o n a l g o r i t h m s f o c u s o n h o w t o
p a r a l l e l i z e t h e r s t s t e p . T h e p a r a l l e l i m p l e m e n t a t i o n o f t h e
s e c o n d s t e p i s s t r a i g h t f o r w a r d a n d i s d i s c u s s e d i n A S 9 6 ] .
3 P a r a l l e l A l g o r i t h m s
I n t h i s s e c t i o n , w e w i l l f o c u s o n t h e p a r a l l e l i z a t i o n o f t h e
r s t t a s k t h a t n d s a l l f r e q u e n t i t e m - s e t s . W e r s t d i s c u s s
t w o p a r a l l e l a l g o r i t h m s p r o p o s e d i n A S 9 6 ] t o h e l p m o t i v a t e
o u r p a r a l l e l f o r m u l a t i o n s . I n a l l o u r d i s c u s s i o n s , w e a s s u m e
t h a t t h e t r a n s a c t i o n s a r e e v e n l y d i s t r i b u t e d a m o n g t h e p r o -
c e s s o r s .
3 . 1 C o u n t D i s t r i b u t i o n A l g o r i t h m
I n t h e C o u n t D i s t r i b u t i o n ( C D ) a l g o r i t h m p r o p o s e d i n A S 9 6 ] ,
e a c h p r o c e s s o r c o m p u t e s h o w m a n y t i m e s a l l t h e c a n d i d a t e s
a p p e a r i n t h e l o c a l l y s t o r e d t r a n s a c t i o n s . T h i s i s d o n e b y
b u i l d i n g t h e e n t i r e h a s h t r e e t h a t c o r r e s p o n d s t o a l l t h e c a n -
d i d a t e s a n d t h e n p e r f o r m i n g a s i n g l e p a s s o v e r t h e l o c a l l y
s t o r e d t r a n s a c t i o n s t o c o l l e c t t h e c o u n t s . T h e g l o b a l c o u n t s
o f t h e c a n d i d a t e s a r e c o m p u t e d b y s u m m i n g t h e s e i n d i v i d -
u a l c o u n t s u s i n g a g l o b a l r e d u c t i o n o p e r a t i o n K G G K 9 4 ] .
T h i s a l g o r i t h m i s i l l u s t r a t e d i n F i g u r e 4 . N o t e t h a t s i n c e
e a c h p r o c e s s o r n e e d s t o b u i l d a h a s h t r e e f o r a l l t h e c a n d i -
d a t e s , t h e s e h a s h t r e e s a r e i d e n t i c a l a t e a c h p r o c e s s o r . T h u s ,
e x c l u d i n g t h e g l o b a l r e d u c t i o n , e a c h p r o c e s s o r i n t h e C D a l -
g o r i t h m e x e c u t e s t h e s e r i a l A p r i o r i a l g o r i t h m o n t h e l o c a l l y
s t o r e d t r a n s a c t i o n s .
T h i s a l g o r i t h m h a s b e e n s h o w n t o s c a l e l i n e a r l y w i t h t h e
n u m b e r o f t r a n s a c t i o n s A S 9 6 ] . T h i s i s b e c a u s e e a c h p r o -
c e s s o r c a n c o m p u t e t h e c o u n t s i n d e p e n d e n t l y o f t h e o t h e r
p r o c e s s o r s a n d n e e d s t o c o m m u n i c a t e w i t h t h e o t h e r p r o -
c e s s o r s o n l y o n c e a t t h e e n d o f t h e c o m p u t a t i o n s t e p . H o w -
e v e r , t h i s a l g o r i t h m w o r k s w e l l o n l y w h e n t h e h a s h t r e e s c a n
t i n t o t h e m a i n m e m o r y o f e a c h p r o c e s s o r . I f t h e n u m b e r
o f c a n d i d a t e s i s l a r g e , t h e n t h e h a s h t r e e d o e s n o t t i n t o
t h e m a i n m e m o r y . I n t h i s c a s e , t h i s a l g o r i t h m h a s t o p a r -
t i t i o n t h e h a s h t r e e a n d c o m p u t e t h e c o u n t s b y s c a n n i n g
t h e d a t a b a s e m u l t i p l e t i m e s , o n c e f o r e a c h p a r t i t i o n o f t h e
h a s h t r e e . N o t e t h a t t h e n u m b e r o f c a n d i d a t e s i n c r e a s e s i f
e i t h e r t h e n u m b e r o f d i s t i n c t i t e m s i n t h e d a t a b a s e i n c r e a s e s
o r i f t h e m i n i m u m s u p p o r t l e v e l o f t h e a s s o c i a t i o n r u l e s d e -
c r e a s e s . T h u s t h e C D a l g o r i t h m i s e e c t i v e f o r s m a l l n u m b e r
o f d i s t i n c t i t e m s a n d a h i g h m i n i m u m s u p p o r t l e v e l .
-
8/19/2019 Assoc Parallel
4/12
Proc 0 Proc 1 Proc 2 Proc 3
Candidate Hash Tree
N/P
Data
{B,E} 2
{A,D} 3
M
Count
N/P
Data
{A,C} 3
{B,C} 2
{C,D} 3
M
Count
N/P
Data
{A,B} 2
{B,E} 2
{A,D} 3
{C,D} 3
M
Count
{A,B} 1
{A,C} 2
{B,C} 1
{C,D} 2
{A,B} 3
{A,D} 4
{B,E} 4
{D,E} 1{D,E} 5
{A,C} 1
{B,C} 5
{D,E} 2
N/P
Data
{A,B} 2
{A,C} 3
{B,C} 2
{B,E} 2
{A,D} 3
{D,E} 3
{C,D} 3
M
Count
Candidate Hash Tree Candidate Hash Tree Candidate Hash Tree
N: number of data items
M: size of candidate set
P: number of processors
Global Reduction
F i g u r e 4 : C o u n t D i s t r i b u t i o n ( C D ) A l g o r i t h m
3 . 2 D a t a D i s t r i b u t i o n A l g o r i t h m
T h e D a t a D i s t r i b u t i o n ( D D ) a l g o r i t h m A S 9 6 ] a d d r e s s e s t h e
m e m o r y p r o b l e m o f t h e C D a l g o r i t h m b y p a r t i t i o n i n g t h e
c a n d i d a t e i t e m - s e t s a m o n g t h e p r o c e s s o r s . T h i s p a r t i t i o n -
i n g i s d o n e i n a r o u n d r o b i n f a s h i o n . E a c h p r o c e s s o r i s
r e s p o n s i b l e f o r c o m p u t i n g t h e c o u n t s o f i t s l o c a l l y s t o r e d
s u b s e t o f t h e c a n d i d a t e i t e m - s e t s f o r a l l t h e t r a n s a c t i o n s i n
t h e d a t a b a s e . I n o r d e r t o d o t h a t , e a c h p r o c e s s o r n e e d s t o
s c a n t h e p o r t i o n s o f t h e t r a n s a c t i o n s a s s i g n e d t o t h e o t h e r
p r o c e s s o r s a s w e l l a s i t s l o c a l l y s t o r e d p o r t i o n o f t h e t r a n s -
a c t i o n s . I n t h e D D a l g o r i t h m , t h i s i s d o n e b y h a v i n g e a c h
p r o c e s s o r r e c e i v e t h e p o r t i o n s o f t h e t r a n s a c t i o n s s t o r e d i n
t h e o t h e r p r o c e s s o r s a c c o r d i n g t o t h e f o l l o w i n g f a s h i o n . E a c h
p r o c e s s o r a l l o c a t e s P b u e r s ( e a c h o n e p a g e l o n g a n d o n e
f o r e a c h p r o c e s s o r ) . A t p r o c e s s o r P
i
, t h e i
t h
b u e r i s u s e d
t o s t o r e t r a n s a c t i o n s f r o m t h e l o c a l l y s t o r e d d a t a b a s e a n d
t h e r e m a i n i n g b u e r s a r e u s e d t o s t o r e t r a n s a c t i o n s f r o m
t h e o t h e r p r o c e s s o r s , s u c h t h a t b u e r j s t o r e s t r a n s a c t i o n s
f r o m p r o c e s s o r P
j
. N o w e a c h p r o c e s s o r P
i
c h e c k s t h e P
b u e r s t o s e e w h i c h o n e c o n t a i n s d a t a . L e t k b e t h i s b u e r
( t i e s a r e b r o k e n i n f a v o r o f b u e r s o f o t h e r p r o c e s s o r s a n d
t i e s a m o n g b u e r s o f o t h e r p r o c e s s o r s a r e b r o k e n a r b i t r a r -
i l y ) . T h e p r o c e s s o r p r o c e s s e s t h e t r a n s a c t i o n s i n t h i s b u e r
a n d u p d a t e s t h e c o u n t s o f i t s o w n c a n d i d a t e s u b s e t . I f t h i s
b u e r c o r r e s p o n d s t o t h e b u e r t h a t s t o r e s l o c a l t r a n s a c t i o n s
( i . e . , k = i ) , t h e n i t i s s e n t t o a l l t h e o t h e r p r o c e s s o r s a s y n -
c h r o n o u s l y a n d a n e w p a g e i s r e a d f r o m t h e l o c a l d a t a b a s e .
I f t h i s b u e r c o r r e s p o n d s t o a b u e r t h a t s t o r e s t r a n s a c t i o n s
f r o m a n o t h e r p r o c e s s o r ( i . e . , k 6= i ) , t h e n i t i s c l e a r e d a n d
a n a s y n c h r o n o u s r e c e i v e r e q u e s t i s i s s u e d t o p r o c e s s o r P
k
T h i s c o n t i n u e s u n t i l e v e r y p r o c e s s o r h a s p r o c e s s e d a l l t h e
t r a n s a c t i o n s . H a v i n g c o m p u t e d t h e c o u n t s o f i t s c a n d i d a t e
i t e m - s e t s , e a c h p r o c e s s o r n d s t h e f r e q u e n t i t e m - s e t s f r o m
i t s c a n d i d a t e i t e m - s e t a n d t h e s e f r e q u e n t i t e m - s e t s a r e s e n t
t o e v e r y o t h e r p r o c e s s o r u s i n g a n a l l - t o - a l l b r o a d c a s t o p e r a -
t i o n K G G K 9 4 ] . F i g u r e 5 s h o w s t h e h i g h l e v e l o p e r a t i o n s o f
t h e a l g o r i t h m . N o t e t h a t e a c h p r o c e s s o r h a s a d i e r e n t s e t
o f c a n d i d a t e s i n t h e c a n d i d a t e h a s h t r e e .
T h i s a l g o r i t h m e x p l o i t s t h e t o t a l a v a i l a b l e m e m o r y b e t -
t e r t h a n C D , a s i t p a r t i t i o n s t h e c a n d i d a t e s e t a m o n g p r o -
c e s s o r s . A s t h e n u m b e r o f p r o c e s s o r s i n c r e a s e s , t h e n u m b e r
o f c a n d i d a t e s t h a t t h e a l g o r i t h m c a n h a n d l e a l s o i n c r e a s e s .
H o w e v e r , a s r e p o r t e d i n A S 9 6 ] , t h e p e r f o r m a n c e o f t h i s a l -
g o r i t h m i s s i g n i c a n t l y w o r s e t h a n t h e C D a l g o r i t h m . T h e
r u n t i m e o f t h i s a l g o r i t h m i s 1 0 t o 2 0 t i m e s m o r e t h a n t h a t
o f t h e C D a l g o r i t h m o n 1 6 p r o c e s s o r s A S 9 6 ] . T h e p r o b l e m
l i e s w i t h t h e c o m m u n i c a t i o n p a t t e r n o f t h e a l g o r i t h m a n d
t h e r e d u n d a n t w o r k t h a t i s p e r f o r m e d i n p r o c e s s i n g a l l t h e
t r a n s a c t i o n s .
T h e c o m m u n i c a t i o n p a t t e r n o f t h i s a l g o r i t h m c a u s e s t w o
p r o b l e m s . F i r s t , d u r i n g e a c h p a s s o f t h e a l g o r i t h m e a c h
p r o c e s s o r s e n d s t o a l l t h e o t h e r p r o c e s s o r s t h e p o r t i o n o f
t h e d a t a b a s e t h a t r e s i d e s l o c a l l y . I n p a r t i c u l a r , e a c h p r o -
c e s s o r r e a d s t h e l o c a l l y s t o r e d p o r t i o n o f t h e d a t a b a s e o n e
p a g e a t a t i m e a n d s e n d s i t t o a l l t h e o t h e r p r o c e s s o r s b y
i s s u i n g P 1 s e n d o p e r a t i o n s . S i m i l a r l y , e a c h p r o c e s s o r i s -
s u e s a r e c e i v e o p e r a t i o n f r o m e a c h o t h e r p r o c e s s o r i n o r d e r
t o r e c e i v e t h e s e p a g e s . I f t h e i n t e r c o n n e c t i o n n e t w o r k o f t h e
u n d e r l y i n g p a r a l l e l c o m p u t e r i s f u l l y c o n n e c t e d ( i . e . , t h e r e i s
a d i r e c t l i n k b e t w e e n a l l p a i r s o f p r o c e s s o r s ) a n d e a c h p r o -
c e s s o r c a n r e c e i v e d a t a o n a l l i n c o m i n g l i n k s s i m u l t a n e o u s l y ,
t h e n t h i s c o m m u n i c a t i o n p a t t e r n w i l l l e a d t o a v e r y g o o d
p e r f o r m a n c e . I n p a r t i c u l a r , i f O ( N = P ) i s t h e s i z e o f t h e
d a t a b a s e a s s i g n e d l o c a l l y t o e a c h p r o c e s s o r , t h e a m o u n t o f
t i m e s p e n t i n t h e c o m m u n i c a t i o n w i l l b e O ( N ) . H o w e v e r , o n
-
8/19/2019 Assoc Parallel
5/12
Proc 0 Proc 1 Proc 2 Proc 3
N/P N/P N/P
M/P M/P M/P M/P
Local Data Remote Data
Candidate Hash Tree
CountCount
Local Data Remote Data
Candidate Hash Tree
CountCount
Local Data Remote Data
Candidate Hash Tree
CountCount
Local Data Remote Data
Candidate Hash Tree
CountCount
{A,B} 2 {A,D} 2{A,C} 3 {A,E} 1
{B,C} 3 {B,D} 5 {B,E} 3 {C,D} 1
{C,E} 3 {C,F} 1 {D,E} 4 {E,F} 1
N/PData
N: number of data items
M: size of candidate set
P: number of processors
Data Data
Broadcast Broadcast Broadcast
All-to-all Broadcast
Data
Broadcast Broadcast
Data
F i g u r e 5 : D a t a D i s t r i b u t i o n ( D D ) A l g o r i t h m
a l l r e a l i s t i c p a r a l l e l c o m p u t e r s , t h e p r o c e s s o r s a r e c o n n e c t e d
v i a a s p a r s e r n e t w o r k s ( s u c h a s 2 D , 3 D o r h y p e r c u b e ) a n d a
p r o c e s s o r c a n r e c e i v e d a t a f r o m ( o r s e n d d a t a t o ) o n l y o n e
o t h e r p r o c e s s o r a t a t i m e . O n s u c h m a c h i n e s , t h i s c o m m u n i -
c a t i o n p a t t e r n w i l l t a k e s i g n i c a n t l y m o r e t h a n O ( N ) t i m e
b e c a u s e o f c o n t e n t i o n .
S e c o n d , i f w e l o o k a t t h e s i z e o f t h e c a n d i d a t e s e t s a s a
f u n c t i o n o f t h e n u m b e r o f p a s s e s o f t h e a l g o r i t h m , w e s e e
t h a t i n t h e r s t f e w p a s s e s , t h e s i z e o f t h e c a n d i d a t e s e t s
i n c r e a s e s a n d a f t e r t h a t i t d e c r e a s e s . I n p a r t i c u l a r , d u r i n g
t h e l a s t s e v e r a l p a s s e s o f t h e a l g o r i t h m , t h e r e a r e o n l y a
s m a l l n u m b e r o f i t e m s i n t h e c a n d i d a t e s e t s . H o w e v e r , e a c h
p r o c e s s o r i n t h e D D a l g o r i t h m s t i l l s e n d s t h e l o c a l l y s t o r e d
p o r t i o n s o f t h e d a t a b a s e t o a l l t h e o t h e r p r o c e s s o r s . T h u s ,
e v e n t h o u g h t h e c o m p u t a t i o n d e c r e a s e s , t h e a m o u n t o f c o m -
m u n i c a t i o n r e m a i n s t h e s a m e .
T h e r e d u n d a n t w o r k i s i n t r o d u c e d d u e t o t h e f a c t t h a t
e v e r y p r o c e s s o r h a s t o p r o c e s s e v e r y s i n g l e t r a n s a c t i o n i n
t h e d a t a b a s e . A l t h o u g h , t h e n u m b e r o f c a n d i d a t e s s t o r e d a t
e a c h p r o c e s s o r h a s b e e n r e d u c e d b y a f a c t o r o f P , t h e a m o u n t
o f c o m p u t a t i o n p e r f o r m e d f o r e a c h t r a n s a c t i o n h a s n o t b e e n
p r o p o r t i o n a l l y r e d u c e d . I n C D ( s e e F i g u r e 4 ) , o n l y N = P
t r a n s a c t i o n s g o t h r o u g h e a c h h a s h t r e e o f M c a n d i d a t e s ,
w h e r e a s i n D D ( s e e F i g u r e 5 ) , N t r a n s a c t i o n s h a v e t o g o
t h r o u g h e a c h h a s h t r e e o f M = P c a n d i d a t e s . I f t h e a m o u n t o f
w o r k r e q u i r e d f o r e a c h t r a n s a c t i o n t o b e c h e c k e d a g a i n s t t h e
h a s h t r e e o f M = P c a n d i d a t e s i s 1 = P o f t h a t o f t h e h a s h t r e e
o f M c a n d i d a t e s , t h e n t h e r e i s n o e x t r a w o r k . H o w e v e r , f o r
t h i s t o b e t r u e i n t h e D D a l g o r i t h m , t h e a v e r a g e d e p t h o f t h e
h a s h t r e e h a s t o b e r e d u c e d b y P a n d t h e a v e r a g e n u m b e r
o f c a n d i d a t e s i n t h e l e a f n o d e s h a s t o b e a l s o r e d u c e d b y
P . T h i s d o e s n o t h a p p e n i n t h e h a s h t r e e s c h e m e d i s c u s s e d
i n S e c t i o n 2 . T o s e e t h i s , c o n s i d e r a h a s h t r e e w i t h s i n g l e
c a n d i d a t e a t t h e l e a f n o d e a n d w i t h b r a n c h i n g f a c t o r o f B
B y r e d u c i n g t h e n u m b e r o f c a n d i d a t e s b y P , t h e d e p t h o f
t h e h a s h t r e e w i l l d e c r e a s e b y o n l y l o g
B
P . W i t h B > P
( w h i c h w o u l d b e t h e m o s t l i k e l y ) , t h e l o g
B
P
-
8/19/2019 Assoc Parallel
6/12
w h i l e ( ! d o n e ) f
F i l l B u e r ( f d , S B u f ) ;
f o r ( k = 0 ; k
-
8/19/2019 Assoc Parallel
7/12
Count Count
Candidate Hash Tree
Count Count
Candidate Hash Tree
Count Count
Candidate Hash Tree
Count Count
Candidate Hash Tree
A,C
Bit Map
Proc 0 Proc 1 Proc 2 Proc 3
N/P N/P N/P
Local Data Remote Data Local Data Remote Data Local Data Remote Data Local Data Remote Data
N/PData DataData
N: number of data items
M: size of candidate set
P: number of processors
Shift Shift Shift
Data
Shift
Data
Shift
M/P M/P M/P M/P{B,D} 5
{B,C} 3
{E,F} 1
{D,E} 2
{D,G} 4
{D,F} 3
{G,J} 2
{F,G} 3
{G,I} 4
{A,B} 2
{A,C} 3
{C,E} 3
Bit Map Bit Map Bit Map
B,E F,GD
All-to-all Broadcast
F i g u r e 7 : I n t e l l i g e n t D a t a D i s t r i b u t i o n ( I D D ) A l g o r i t h m
p e r f o r m a s y n c h r o n o u s c o m m u n i c a t i o n .
T h e H y b r i d D i s t r i b u t i o n ( H D ) a l g o r i t h m a d d r e s s e s t h e
a b o v e p r o b l e m b y c o m b i n i n g t h e C D a n d t h e I D D a l g o -
r i t h m s i n t h e f o l l o w i n g w a y . C o n s i d e r a P - p r o c e s s o r s y s t e m
i n w h i c h t h e p r o c e s s o r s a r e s p l i t i n t o G e q u a l s i z e g r o u p s ,
e a c h c o n t a i n i n g P = G p r o c e s s o r s . I n t h e H D a l g o r i t h m , w e
e x e c u t e t h e C D a l g o r i t h m a s i f t h e r e w e r e o n l y P = G p r o c e s -
s o r s . T h a t i s , w e p a r t i t i o n t h e t r a n s a c t i o n s o f t h e d a t a b a s e
i n t o P = G p a r t s e a c h o f s i z e N = ( P = G ) , a n d a s s i g n t h e t a s k
o f c o m p u t i n g t h e c o u n t s o f t h e c a n d i d a t e s e t C
k
f o r e a c h
s u b s e t o f t h e t r a n s a c t i o n s t o e a c h o n e o f t h e s e g r o u p s o f
p r o c e s s o r s . W i t h i n e a c h g r o u p , t h e s e c o u n t s a r e c o m p u t e d
u s i n g t h e I D D a l g o r i t h m . T h a t i s , t h e t r a n s a c t i o n s a n d t h e
c a n d i d a t e s e t C
k
a r e p a r t i t i o n e d a m o n g t h e p r o c e s s o r s o f
e a c h g r o u p , s o t h a t e a c h p r o c e s s o r g e t s r o u g h l y j C
k
j = G c a n -
d i d a t e i t e m - s e t s a n d N = P t r a n s a c t i o n s . N o w , e a c h g r o u p
o f p r o c e s s o r s c o m p u t e s t h e c o u n t s u s i n g t h e I D D a l g o r i t h m ,
a n d t h e o v e r a l l c o u n t s a r e c o m p u t i n g b y p e r f o r m i n g a r e -
d u c t i o n o p e r a t i o n a m o n g t h e P = G g r o u p s o f p r o c e s s o r s .
T h e H D a l g o r i t h m c a n b e b e t t e r v i s u a l i z e d i f w e t h i n k o f
t h e p r o c e s s o r s a s b e i n g a r r a n g e d i n a t w o d i m e n s i o n a l g r i d
o f G r o w s a n d P = G c o l u m n s . T h e t r a n s a c t i o n s a r e p a r t i -
t i o n e d e q u a l l y a m o n g t h e P p r o c e s s o r s , a n d t h e c a n d i d a t e
s e t C
k
i s p a r t i t i o n e d a m o n g t h e p r o c e s s o r s o f e a c h c o l u m n
o f t h i s g r i d . T h i s p a r t i t i o n i n g o f C
k
i s t h e s a m e f o r e a c h
c o l u m n o f p r o c e s s o r s , t h a t i s , t h e p r o c e s s o r s a l o n g e a c h r o w
o f t h e g r i d g e t t h e s a m e s u b s e t o f C
k
. N o w , t h e I D D a l g o -
r i t h m i s e x e c u t e d i n d e p e n d e n t l y a l o n g e a c h c o l u m n o f t h e
g r i d , a n d t h e t o t a l c o u n t s o f e a c h s u b s e t o f C
k
i s o b t a i n e d
b y p e r f o r m i n g a r e d u c t i o n o p e r a t i o n a l o n g t h e r o w s o f t h i s
p r o c e s s o r g r i d . F i g u r e 8 i l l u s t r a t e s t h e H D a l g o r i t h m f o r a
3 4 g r i d o f p r o c e s s o r s .
T h e H D a l g o r i t h m d e t e r m i n e s t h e c o n g u r a t i o n o f t h e
p r o c e s s o r g r i d d y n a m i c a l l y . I n p a r t i c u l a r , t h e H D a l g o r i t h m
p a r t i t i o n s t h e c a n d i d a t e s e t i n t o a b i g e n o u g h s e c t i o n a n d
a s s i g n a g r o u p o f p r o c e s s o r s t o e a c h p a r t i t i o n . T h e s a m e
p a r a m e t e r t h a t w a s u s e d t o d e t e r m i n e w h e t h e r t o s w i t c h t o
C D a l g o r i t h m c a n b e u s e d t o d e c i d e t h e s i z e o f t h e p a r t i -
t i o n i n t h i s a l g o r i t h m . F o r e x a m p l e , l e t t h i s p a r a m e t e r b e
C . I f t h e t o t a l n u m b e r o f c a n d i d a t e s M i s l e s s t h a n C , i t
s w i t c h e s t o C D a l g o r i t h m . O t h e r w i s e n d o u t t h e n u m b e r
o f p r o c e s s o r g r o u p s G = d M = C e a n d f o r m a l o g i c a l G P = G
p r o c e s s o r m e s h c o n g u r a t i o n . I n t h e e x a m p l e o f F i g u r e 8 ,
t h e H D a l g o r i t h m e x e c u t e s t h e C D a l g o r i t h m a s i f t h e r e w e r e
o n l y 4 p r o c e s s o r s , w h e r e t h e 4 p r o c e s s o r s c o r r e s p o n d t o t h e
4 p r o c e s s o r c o l u m n s . T h a t i s , t h e d a t a b a s e t r a n s a c t i o n s a r e
p a r t i t i o n e d i n 4 p a r t s , a n d e a c h o n e o f t h e s e 4 h y p o t h e t -
i c a l p r o c e s s o r s c o m p u t e s t h e l o c a l c o u n t s o f a l l t h e c a n d i -
d a t e i t e m - s e t s . T h e n t h e g l o b a l c o u n t s c a n b e c o m p u t e d b y
p e r f o r m i n g t h e g l o b a l r e d u c t i o n o p e r a t i o n d i s c u s s e d i n S e c -
t i o n 3 . 1 . H o w e v e r , s i n c e e a c h o n e o f t h e s e h y p o t h e t i c a l p r o -
c e s s o r s i s m a d e u p o f 3 p r o c e s s o r s , t h e c o m p u t a t i o n o f l o c a l
c o u n t s o f t h e c a n d i d a t e i t e m - s e t s i n a h y p o t h e t i c a l p r o c e s s o r
c o r r e s p o n d s t o t h e c o m p u t a t i o n o f t h e c o u n t s o f t h e c a n d i -
d a t e i t e m - s e t s o n t h e d a t a b a s e t r a n s a c t i o n s s i t t i n g o n t h e
3 p r o c e s s o r s . T h i s o p e r a t i o n i s p e r f o r m e d b y e x e c u t i n g t h e
I D D a l g o r i t h m i n e a c h o f 4 h y p o t h e t i c a l p r o c e s s o r s . T h i s i s
s h o w n i n t h e s t e p 1 o f F i g u r e 8 . N o t e t h a t p r o c e s s o r s i n t h e
s a m e r o w h a v e e x a c t l y t h e s a m e c a n d i d a t e s a n d c a n d i d a t e
s e t s a l o n g t h e e a c h c o l u m n p a r t i t i o n t h e t o t a l c a n d i d a t e s e t .
A t t h e e n d o f t h i s o p e r a t i o n , e a c h p r o c e s s o r h a s c o m p l e t e
c o u n t s o f l o c a l c a n d i d a t e s f o r a l l t h e d a t a o f t h e p r o c e s s o r s
o f t h e s a m e c o l u m n ( o r o f a h y p o t h e t i c a l p r o c e s s o r ) . T h e
g l o b a l r e d u c t i o n o p e r a t i o n i s b r o k e n i n t o t w o p a r t s c o r r e -
s p o n d i n g t o t h e s t e p 2 a n d 3 o f t h e F i g u r e 8 . I n t h e s t e p 2 ,
p e r f o r m r e d u c t i o n o p e r a t i o n K G G K 9 4 ] a l o n g t h e r o w s u c h
-
8/19/2019 Assoc Parallel
8/12
Candidate Hash Tree
G,F 1
Candidate Hash Tree
D,E 2
G,F 1
Candidate Hash Tree
D,E 2
A,B 2
D,E 1
A,B 1
G,F 2
A,B 3
Candidate Hash Tree
A,B 7
D,E 7
G,F 5
Candidate Hash Tree
H,I 2
E,F 1
Candidate Hash Tree
B,C 2
H,I 2
Candidate Hash Tree
B,C 2
H,I 2
B,C 1
E,F 2 E,F 3
Candidate Hash Tree
Candidate Hash Tree
F,H 2
F,G 1
Candidate Hash Tree
C,D 1
F,H 2
F,G 1
Candidate Hash Tree
C,D 1
F,H 2
C,D 2
F,G 2
Candidate Hash Tree
B,C 7
E,F 7
H,I 8
C,D 7
F,G 5
F,H 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Frequent Item Set
F,H 8
H,I 8
Step 2: Reduction Operation Along the Rows
Follwed by One-to-all Broadcast Operation Along the RowsStep 3: All-to-all Broadcast Operation Along the First Column
All-to-all
Broadcast
Step 1: Partitioning of Candidate Sets and Data Movement Along the Columns
Data Shift
Data Shift
Data Shift
Data Shift
Data Shift
Data Shift
Candidate Hash Tree
Candidate Hash Tree
Candidate Hash Tree
G,F 1
H,I 2
F,H 2
F,G 1
E,F 1
Data Shift
Data Shift
Candidate Hash Tree
Candidate Hash Tree
Candidate Hash Tree
D,E 2
G,F 1
B,C 2
H,I 2
C,D 1
F,H 2
F,G 1
Candidate Hash Tree
Candidate Hash Tree
Candidate Hash Tree
D,E 2
B,C 2
H,I 2
C,D 1
F,H 2
A,B 2
D,E 1
B,C 1
C,D 2
A,B 1
G,F 2
E,F 2
F,G 2
A,B 3
E,F 3
Candidate Hash Tree
Candidate Hash Tree
Candidate Hash Tree
A,B 1
D,E 2
G,F 1
B,C 2
H,I 2
F,H 2
F,G 1
E,F 1
C,D 3
Data Shift Data Shift Data Shift Data Shift
F i g u r e 8 : H y b r i d D i s t r i b u t i o n ( H D ) A l g o r i t h m i n 3 4 P r o c e s s o r M e s h ( G = 3 ; P = 1 2 )
-
8/19/2019 Assoc Parallel
9/12
t h a t t h e p r o c e s s o r i n t h e r s t c o l u m n o f t h e s a m e r o w h a s
t h e t o t a l c o u n t s f o r t h e c a n d i d a t e s i n t h e s a m e r o w p r o c e s -
s o r s . I n t h e s t e p 3 , a l l t h e p r o c e s s o r s i n t h e r s t c o l u m n
g e n e r a t e f r e q u e n t s e t f r o m t h e c a n d i d a t e s e t a n d p e r f o r m
a l l - t o - a l l b r o a d c a s t o p e r a t i o n a l o n g t h e r s t c o l u m n o f t h e
p r o c e s s o r m e s h . T h e n t h e p r o c e s s o r s i n t h e r s t c o l u m n
b r o a d c a s t t h e f u l l f r e q u e n t s e t s t o t h e p r o c e s s o r s a l o n g t h e
s a m e r o w u s i n g o n e - t o - a l l b r o a d c a s t o p e r a t i o n K G G K 9 4 ] .
A t t h i s p o i n t , a l l t h e p r o c e s s o r s h a v e t h e f r e q u e n t s e t s a n d
r e a d y t o p r o c e e d t o t h e n e x t p a s s .
T h i s a l g o r i t h m i n h e r i t s a l l t h e g o o d f e a t u r e s o f t h e I D D
a l g o r i t h m . I t a l s o p r o v i d e s g o o d l o a d b a l a n c e a n d e n o u g h
c o m p u t a t i o n w o r k b y m a i n t a i n i n g m i n i m u m n u m b e r o f c a n -
d i d a t e s p e r p r o c e s s o r . A t t h e s a m e t i m e , t h e a m o u n t o f d a t a
m o v e m e n t i n t h i s a l g o r i t h m h a s b e e n c u t d o w n t o 1 = G o f t h e
I D D
4 E x p e r i m e n t a l R e s u l t s
W e i m p l e m e n t e d o u r p a r a l l e l a l g o r i t h m s o n a 1 2 8 - p r o c e s s o r
C r a y T 3 D p a r a l l e l c o m p u t e r . E a c h p r o c e s s o r o n t h e T 3 D i s
a 1 5 0 M h z D e c A l p h a ( E V 4 ) , a n d h a s 6 4 M b y t e s o f m e m o r y .
T h e p r o c e s s o r s a r e i n t e r c o n n e c t e d v i a a t h r e e d i m e n s i o n a l
t o r u s n e t w o r k t h a t h a s a p e a k u n i d i r e c t i o n a l b a n d w i d t h o f
1 5 0 M b y t e s p e r s e c o n d , a n d a s m a l l l a t e n c y . F o r c o m m u -
n i c a t i o n w e u s e d t h e m e s s a g e p a s s i n g i n t e r f a c e ( M P I ) . O u r
e x p e r i m e n t s h a v e s h o w n t h a t f o r 1 6 K b y t e s w e o b t a i n a b a n d -
w i d t h o f 7 4 M b y t e s / s e c o n d s a n d a n e e c t i v e s t a r t u p t i m e o f
1 5 0 m i c r o s e c o n d s .
W e g e n e r a t e d a s y n t h e t i c d a t a s e t u s i n g a t o o l p r o v i d e d
b y P r o 9 6 ] a n d d e s c r i b e d i n A S 9 4 ] . T h e p a r a m e t e r s f o r t h e
d a t a s e t c h o s e n a r e a v e r a g e t r a n s a c t i o n l e n g t h o f 1 5 a n d a v -
e r a g e s i z e o f f r e q u e n t i t e m s e t s o f 6 . D a t a s e t s w i t h 1 0 0 0
t r a n s a c t i o n s ( 6 . 3 K B ) w e r e g e n e r a t e d f o r d i e r e n t p r o c e s s o r s .
D u e t o t h e d i s k l i m i t a t i o n s o f t h e T 3 D s y s t e m w e h a v e k e p t
t h e s m a l l t r a n s a c t i o n s i n t h e b u e r a n d r e a d t h e t r a n s a c -
t i o n s f r o m t h e b u e r i n s t e a d o f t h e a c t u a l d i s k s . F o r t h e
e x p e r i m e n t s i n v o l v i n g l a r g e r d a t a s e t s , w e r e a d t h e s a m e
d a t a s e t m u l t i p l e t i m e s .
1
W e p e r f o r m e d s c a l e u p t e s t s w i t h 1 0 0 K t r a n s a c t i o n s p e r
p r o c e s s o r a n d m i n i m u m s u p p o r t o f 0 . 2 5 % . W e c o u l d n o t
u s e l o w e r m i n i m u m s u p p o r t b e c a u s e t h e C D a l g o r i t h m r a n
o u t o f m a i n m e m o r y . F o r t h i s e x p e r i m e n t , i n t h e I D D a n d
H D a l g o r i t h m s w e h a v e s e t t h e m i n i m u m n u m b e r o f c a n d i -
d a t e s f o r s w i t c h i n g t o t h e C D a l g o r i t h m v e r y l o w t o s h o w
t h e v a l i d i t y o f o u r a p p r o a c h e s . W i t h 0 . 2 5 % s u p p o r t , b o t h
a l g o r i t h m s s w i t c h e d t o C D a l g o r i t h m i n p a s s 7 o f t o t a l 1 2
p a s s e s a n d 9 0 . 7 % o f t h e o v e r a l l r e s p o n s e t i m e o f t h e s e r i a l
c o d e w a s s p e n t i n t h e r s t 6 p a s s e s . T h e s e s c a l e u p r e s u l t s
a r e s h o w n i n F i g u r e 9 .
A s n o t e d i n A S 9 6 ] , t h e C D a l g o r i t h m s c a l e s v e r y w e l l .
L o o k i n g a t t h e p e r f o r m a n c e o b t a i n e d b y I D D , w e s e e t h a t
i t s r e s p o n s e t i m e i n c r e a s e s a s w e i n c r e a s e t h e n u m b e r o f
p r o c e s s o r s . T h i s i s d u e t o t h e l o a d b a l a n c i n g p r o b l e m d i s -
c u s s e d i n S e c t i o n 3 , w h e r e t h e n u m b e r o f c a n d i d a t e s p e r
p r o c e s s o r d e c r e a s e s a s t h e n u m b e r o f p r o c e s s o r s i n c r e a s e s .
H o w e v e r , t h e p e r f o r m a n c e a c h i e v e d b y I D D i s m u c h b e t -
t e r t h a n t h a t o f t h e D D a l g o r i t h m o f A S 9 6 ] . I n p a r t i c u l a r ,
I D D h a s 4 . 4 t i m e s l e s s r e s p o n s e t i m e t h a n D D o n 3 2 p r o c e s -
s o r s . I t c a n b e s e e n t h a t t h e p e r f o r m a n c e g a p b e t w e e n I D D
a n d D D i s w i d e n i n g a s t h e n u m b e r o f p r o c e s s o r s i n c r e a s e s .
T h i s i s d u e t o t h e i m p r o v e m e n t w e m a d e o n I D D w i t h t h e
1
W e a l s o p e r f o r m e d s i m i l a r e x p e r i m e n t s o n a n I B M S P 2 i n w h i c h
t h e e n t i r e d a t a b a s e r e s i d e d o n d i s k s . O u r e x p e r i m e n t s s h o w t h a t
t h e I / O r e q u i r e m e n t s d o n o t c h a n g e t h e r e l a t i v e p e r f o r m a n c e o f t h e
v a r i o u s s c h e m e s .
0
500
1000
1500
2000
0 20 40 60 80 100 120 140
R e s p
o n s e t i m e ( s e c . )
Number of processors
countintelligent data
hybriddata
F i g u r e 9 : S c a l e u p r e s u l t w i t h 1 0 0 K t r a n s a c t i o n s a n d 0 . 2 5 %
m i n i m u m s u p p o r t .
b e t t e r c o m m u n i c a t i o n m e c h a n i s m f o r d a t a m o v e m e n t s a n d
t h e i n t e l l i g e n t p a r t i t i o n i n g o f t h e c a n d i d a t e s e t . L o o k i n g a t
t h e p e r f o r m a n c e o f t h e H D a l g o r i t h m , w e s e e t h a t r e s p o n s e
t i m e r e m a i n s a l m o s t c o n s t a n t a s w e i n c r e a s e t h e n u m b e r o f
p r o c e s s o r s w h i l e k e e p i n g t h e n u m b e r o f t r a n s a c t i o n s p e r p r o -
c e s s o r a n d t h e m i n i m u m s u p p o r t x e d . C o m p a r i n g a g a i n s t
C D , w e s e e t h a t H D a c t u a l l y p e r f o r m s b e t t e r a s t h e n u m b e r
o f p r o c e s s o r s i n c r e a s e s . I t s p e r f o r m a n c e o n 1 2 8 p r o c e s s o r s
i s 9 . 5 % b e t t e r t h a n C D . T h i s p e r f o r m a n c e a d v a n t a g e o f H D
o v e r C D i s d u e t o t h a t t h e n u m b e r o f p r o c e s s o r s i n v o l v e d
i n g l o b a l r e d u c t i o n o p e r a t i o n o f c o u n t s i s m u c h l e s s i n H D
t h a n i n C D
W e m e a s u r e d h o w o u r a l g o r i t h m s p e r f o r m a s w e i n c r e a s e
t h e n u m b e r o f t r a n s a c t i o n s p e r p r o c e s s o r f r o m 5 0 K ( 3 . 2 M B )
t o 8 0 0 K ( 5 0 . 4 M B ) . F o r t h e s e e x p e r i m e n t s , w e x e d t h e n u m -
b e r o f p r o c e s s o r s a t 1 6 a n d t h e m i n i m u m s u p p o r t a t 0 . 2 5 % .
T h e s e r e s u l t s a r e s h o w n i n F i g u r e 1 0 . F r o m t h i s g u r e , w e
c a n s e e t h a t C D a n d H D p e r f o r m a l m o s t i d e n t i c a l l y . F o r
b o t h a l g o r i t h m s , t h e r e s p o n s e t i m e i n c r e a s e s l i n e a r l y w i t h
t h e n u m b e r o f t r a n s a c t i o n s . I D D a l s o s c a l e s l i n e a r l y , b u t
b e c a u s e o f i t s l o a d i m b a l a n c e p r o b l e m , i t s p e r f o r m a n c e i s
s o m e w h a t w o r s e .
O u r e x p e r i m e n t s s o f a r h a v e s h o w n t h a t t h e p e r f o r m a n c e
o f H D a n d C D a r e q u i t e c o m p a r a b l e . H o w e v e r , t h e r e a l
a d v a n t a g e o f H D ( a n d I D D ) o v e r C D i s t h a t t h e y d o n o t
r e q u i r e t h e w h o l e h a s h t r e e t o r e s i d e o n e a c h p r o c e s s o r , a n d
t h u s b e t t e r e x p l o i t t h e a v a i l a b l e m e m o r y . T h i s a l l o w s u s t o
u s e a s m a l l e r m i n i m u m s u p p o r t i n t h e A p r i o r i a l g o r i t h m .
T o v e r i f y t h i s , w e p e r f o r m e d t h e e x p e r i m e n t s i n w h i c h w e
x e d t h e n u m b e r o f t r a n s a c t i o n s p e r p r o c e s s o r t o 5 0 K a n d
s u c c e s s i v e l y d e c r e a s e d t h e m i n i m u m s u p p o r t l e v e l . T h e s e
e x p e r i m e n t s f o r 1 6 a n d 6 4 p r o c e s s o r s a r e s h o w n i n F i g u r e s 1 1
a n d 1 2 r e s p e c t i v e l y . A c o u p l e o f i n t e r e s t i n g o b s e r v a t i o n s
c a n b e m a d e f r o m t h e s e r e s u l t s . F i r s t , b o t h I D D a n d H D
s u c c e s s f u l l y r a n u s i n g l o w e r s u p p o r t l e v e l s t h a t C D c o u l d n o t
r u n w i t h . I n p a r t i c u l a r , I D D a n d H D r a n d o w n t o a s u p p o r t
l e v e l o f 0 . 0 6 % o n 1 6 p r o c e s s o r s a n d 0 . 0 4 % o n 6 4 p r o c e s s o r s .
I n c o n t r a s t , C D c o u l d o n l y r u n d o w n t o a s u p p o r t l e v e l o f
0 . 2 5 % a n d r a n o u t o f m e m o r y f o r t h e l o w e r s u p p o r t s . T h e
d i e r e n c e b e t w e e n t h e s m a l l e r s u p p o r t l e v e l s o n 1 6 a n d 6 4
p r o c e s s o r s i s d u e t o t h e f a c t t h a t t h e I D D a n d H D a l g o r i t h m s
c a n e x p l o i t t h e a g g r e g a t e m e m o r y o f t h e l a r g e r n u m b e r o f
p r o c e s s o r s .
-
8/19/2019 Assoc Parallel
10/12
0
500
1000
1500
2000
2500
3000
0 200 400 600 800 1000
R e s p
o n s e t i m e ( s e c . )
Number of transactions per processor (K)
countintelligent data
hybrid
F i g u r e 1 0 : S i z e u p r e s u l t w i t h 1 6 p r o c e s s o r s a n d 0 . 2 5 % m i n -
i m u m s u p p o r t .
T h e s e c o n d t h i n g t o n o t i c e i s t h a t H D p e r f o r m s b e t t e r
t h a n I D D b o t h o n 1 6 a n d 6 4 p r o c e s s o r s , a n d t h e r e l a t i v e p e r -
f o r m a n c e o f I D D c o m p a r e d t o H D g e t w o r s e a s t h e n u m b e r o f
p r o c e s s o r s i n c r e a s e s . A s d i s c u s s e d e a r l i e r , t h i s p e r f o r m a n c e
d i e r e n c e i s d u e t o t h e l o a d i m b a l a n c e . A s t h e n u m b e r o f
p r o c e s s o r s i n c r e a s e s , t h i s l o a d i m b a l a n c e g e t s w o r s e . H o w -
e v e r , o n 1 6 p r o c e s s o r s I D D i s 3 7 % w o r s e t h a n H D f o r s u p -
p o r t l e v e l 0 . 2 5 % , b u t o n l y 1 8 % w o r s e f o r s u p p o r t o f 0 . 0 6 % .
T h i s i s b e c a u s e a s t h e s u p p o r t l e v e l d e c r e a s e s , t h e n u m b e r
o f c a n d i d a t e s ( s h o w n i n p a r e n t h e s i s i n F i g u r e s 1 1 a n d 1 2 )
i n c r e a s e s w h i c h i m p r o v e s t h e l o a d b a l a n c e .
F i g u r e s 1 1 a n d 1 2 a l s o s h o w t h e p e r f o r m a n c e o f a s i m -
p l e h y b r i d a l g o r i t h m o b t a i n e d b y c o m b i n i n g C D a n d I D D
I n t h i s s c h e m e , i n e a c h p a s s o f t h e A p r i o r i a l g o r i t h m , w e
p e r f o r m C D i f t h e h a s h t a b l e c a n t i n t h e m e m o r y o f e a c h
p r o c e s s o r s o r I D D i f i t c a n n o t . A s w e c a n s e e f r o m t h e s e r e -
s u l t s , t h i s s i m p l e h y b r i d a l g o r i t h m p e r f o r m s w o r s e t h a n H D
I n p a r t i c u l a r , t h e r e l a t i v e p e r f o r m a n c e o f t h i s s c h e m e c o m -
p a r e t o H D g e t s w o r s e a s t h e n u m b e r o f p r o c e s s o r s i n c r e a s e s .
F o r e x a m p l e , f o r a s u p p o r t l e v e l o f 0 . 0 6 % , i t i s 6 % w o r s e o n
1 6 p r o c e s s o r s a n d 1 7 % w o r s e o n 6 4 p r o c e s s o r s . T h u s t h e
H D a l g o r i t h m , b y g r a d u a l l y a d j u s t i n g t h e s u b s e t s o f p r o c e s -
s o r s t h a t p e r f o r m I D D a n d C D , a c h i e v e s b e t t e r p e r f o r m a n c e .
T h i s i s b e c a u s e o f t h e f o l l o w i n g t w o r e a s o n s . F i r s t , t h e c a n -
d i d a t e s e t i s s p l i t a m o n g f e w e r n u m b e r o f p r o c e s s o r s w h i c h
m i n i m i z e s l o a d i m b a l a n c e a n d s e c o n d , t h e r e d u c t i o n o p e r a -
t i o n t o o b t a i n t h e c o u n t s i n C D i s p e r f o r m e d a m o n g f e w e r
p r o c e s s o r s , w h i c h d e c r e a s e s t h e c o m m u n i c a t i o n o v e r h e a d .
I n a n o t h e r e x p e r i m e n t , w e v a r i e d t h e n u m b e r o f p r o c e s -
s o r s f r o m 2 t o 6 4 a n d m e a s u r e d h o w l o w w e c a n g o w i t h
m i n i m u m s u p p o r t f o r t h e I D D a n d H D a l g o r i t h m s . T a b l e 1
s h o w s t h e r e s u l t f o r t h e s e a l g o r i t h m s . T h e r e s u l t s h o w s t h a t
a s w e h a v e m o r e p r o c e s s o r s , t h e s e a l g o r i t h m s c a n h a n d l e
l o w e r m i n i m u m s u p p o r t . T a b l e 2 s h o w s h o w t h e H D a l g o -
r i t h m c h o s e t h e p r o c e s s o r c o n g u r a t i o n b a s e d o n t h e n u m -
b e r o f c a n d i d a t e s a t e a c h p a s s w i t h 6 4 p r o c e s s o r s a n d 0 . 0 4 %
m i n i m u m s u p p o r t .
5 C o n c l u s i o n
I n t h i s p a p e r , w e p r o p o s e d t w o p a r a l l e l a l g o r i t h m s f o r m i n -
i n g a s s o c i a t i o n r u l e s . T h e I D D a l g o r i t h m u t i l i z e s t o t a l m a i n
m e m o r y a v a i l a b l e m o r e e e c t i v e l y t h a n t h e C D a l g o r i t h m .
0
50
100
150
200
250
300
350
400
450
500
0.5 0.25 0.1 0.06
R e s p o n s e t i m e ( s e c . )
Minimum support (%)
(211 K)
(345 K)
(1083 K)
(2408 K)
countintelligent data
hybridsimple hybrid
F i g u r e 1 1 : R e s p o n s e t i m e o n 1 6 p r o c e s s o r s w i t h 5 0 K t r a n s -
a c t i o n s a s t h e m i n i m u m s u p p o r t v a r i e s . A t e a c h s u p p o r t
l e v e l , t h e t o t a l n u m b e r o f c a n d i d a t e i t e m - s e t s i s s h o w n i n
p a r e n t h e s i s
0
200
400
600
800
1000
1200
0.5 0.25 0.1 0.060.04
R e s p o n s e t i m e ( s e c . )
Minimum support (%)
(211 K)
(345 K)
(1083 K)
(2408 K)
(5232 K)
countintelligent data
hybridsimple hybrid
0
200
400
600
800
1000
1200
0.5 0.25 0.1 0.060.04
R e s p o n s e t i m e ( s e c . )
Minimum support (%)
(211 K)
(345 K)
(1083 K)
(2408 K)
(5232 K)
countintelligent data
hybridsimple hybrid
F i g u r e 1 2 : R e s p o n s e t i m e o n 6 4 p r o c e s s o r s w i t h 5 0 K t r a n s -
a c t i o n s a s t h e m i n i m u m s u p p o r t v a r i e s . A t e a c h s u p p o r t
l e v e l , t h e t o t a l n u m b e r o f c a n d i d a t e i t e m - s e t s i s s h o w n i n
p a r e n t h e s i s
-
8/19/2019 Assoc Parallel
11/12
N u m b e r o f p r o c e s s o r s 1 2 4 8 1 6 3 2 6 4
S u c c e s s f u l d o w n t o 0 . 2 5 0 . 2 0 . 1 5 0 . 1 0 . 0 6 0 . 0 4 0 . 0 3
R a n o u t o f m e m o r y a t 0 . 2 0 . 1 5 0 . 1 0 . 0 6 0 . 0 4 0 . 0 3 0 . 0 2
T a b l e 1 : M i n i m u m s u p p o r t ( % ) r e a c h a b l e w i t h d i e r e n t n u m b e r o f p r o c e s s o r s i n o u r a l g o r i t h m s .
P a s s 2 3 4 5 6 7 8 9 1 0
C o n g u r a t i o n 8 8 6 4 1 4 1 6 2 3 2 2 3 2 2 3 2 2 3 2 2 3 2 1 6 4
N o o f C a n d . 3 5 1 K 4 3 4 8 K 1 1 5 K 7 6 K 5 6 K 3 4 K 1 6 K 6 K 2 K
T a b l e 2 : P r o c e s s o r c o n g u r a t i o n a n d n u m b e r o f c a n d i d a t e s o f t h e H D a l g o r i t h m w i t h 6 4 p r o c e s s o r s a n d 0 . 0 4 % m i n i m u m
s u p p o r t f o r e a c h p a s s . N o t e t h a t 6 4 1 c o n g u r a t i o n i s t h e s a m e a s t h e D D a l g o r i t h m a n d 1 6 4 i s t h e s a m e a s t h e C D
a l g o r i t h m . T h e t o t a l n u m b e r o f p a s s w a s 1 3 a n d a l l p a s s e s a f t e r 9 h a d 1 6 4 c o n g u r a t i o n .
T h i s a l g o r i t h m s i m p r o v e s o v e r t h e D D a l g o r i t h m w h i c h h a s
h i g h c o m m u n i c a t i o n o v e r h e a d a n d r e d u n d a n t w o r k . T h e
c o m m u n i c a t i o n o v e r h e a d w a s r e d u c e d u s i n g a b e t t e r d a t a
m o v e m e n t c o m m u n i c a t i o n m e c h a n i s m , a n d r e d u n d a n t w o r k
w a s r e d u c e d b y p a r t i t i o n i n g t h e c a n d i d a t e s e t i n t e l l i g e n t l y
a n d u s i n g b i t m a p s t o p r u n e a w a y u n n e c e s s a r y c o m p u t a t i o n .
H o w e v e r , a s t h e n u m b e r o f p r o c e s s o r s a v a i l a b l e i n c r e a s e s , t h e
e c i e n c y o f t h i s a l g o r i t h m d e c r e a s e s u n l e s s t h e a m o u n t o f
w o r k i s i n c r e a s e d b y h a v i n g m o r e n u m b e r o f c a n d i d a t e s .
T h e H D c o m b i n e s a d v a n t a g e s o f t h e C D a n d I D D . T h i s
a l g o r i t h m p a r t i t i o n s c a n d i d a t e s e t s j u s t l i k e t h e I D D t o e x -
p l o i t t h e a g g r e g a t e m a i n m e m o r y , b u t d y n a m i c a l l y d e t e r -
m i n e s t h e n u m b e r o f p a r t i t i o n s s u c h t h a t t h e p a r t i t i o n e d
c a n d i d a t e s e t t s i n t o t h e m a i n m e m o r y o f e a c h p r o c e s s o r
a n d e a c h p r o c e s s o r h a s e n o u g h n u m b e r o f c a n d i d a t e s f o r
c o m p u t a t i o n . I t a l s o e x p l o i t s t h e a d v a n t a g e o f t h e C D b y
j u s t e x c h a n g i n g c o u n t s i n f o r m a t i o n a n d m o v i n g a r o u n d t h e
m i n i m u m n u m b e r o f t r a n s a c t i o n s a m o n g t h e s m a l l e r s u b s e t
o f p r o c e s s o r s .
T h e e x p e r i m e n t a l r e s u l t s o n a 1 2 8 - p r o c e s s o r C r a y T 3 D
p a r a l l e l m a c h i n e s h o w t h a t t h e H D a l g o r i t h m s c a l e s j u s t a s
w e l l a s t h e C D a l g o r i t h m w i t h r e s p e c t t o t h e n u m b e r o f
t r a n s a c t i o n s . I t a l s o e x p l o i t s t h e a g g r e g a t e m a i n m e m o r y
b e t t e r a n d t h u s i s a b l e t o n d o u t m o r e a s s o c i a t i o n r u l e s
w i t h m u c h s m a l l e r m i n i m u m s u p p o r t w i t h a s i n g l e s c a n o f
d a t a b a s e p e r p a s s . T h e I D D a l g o r i t h m a l s o o u t p e r f o r m s t h e
D D a l g o r i t h m , b u t i s n o t a s s c a l a b l e a s H D a n d C D
F u t u r e w o r k s i n c l u d e a p p l y i n g t h e s e a l g o r i t h m s t o r e a l
d a t a l i k e r e t a i l s a l e s t r a n s a c t i o n , m a i l o r d e r h i s t o r y d a t a b a s e
a n d W o r l d W i d e W e b s e r v e r l o g s M J H S 9 6 ] t o c o n r m t h e
e x p e r i m e n t a l r e s u l t s i n t h e r e a l l i f e d o m a i n . W e p l a n t o
p e r f o r m e x p e r i m e n t s o n d i e r e n t p l a t f o r m s i n c l u d i n g C r a y
T 3 E , I B M S P 2 a n d S G I S M P c l u s t e r s . W e a l s o p l a n o n i m -
p l e m e n t i n g o u r i d e a s i n g e n e r a l i z e d a s s o c i a t i o n r u l e s H F 9 5 ,
S A 9 5 ] , a n d s e q u e n t i a l p a t t e r n s M T V 9 5 , S A 9 6 ] .
R e f e r e n c e s
A I S 9 3 ] R . A g r a w a l , T . I m i e l i n s k i , a n d A . S w a m i . M i n -
i n g a s s o c i a t i o n r u l e s b e t w e e n s e t s o f i t e m s
i n l a r g e d a t a b a s e s . I n P r o c . o f 1 9 9 3 A C M -
S I G M O D I n t . C o n f . o n M a n a g e m e n t o f D a t a ,
W a s h i n g t o n , D . C . , 1 9 9 3 .
A S 9 4 ] R . A g r a w a l a n d R . S r i k a n t . F a s t a l g o r i t h m s
f o r m i n i n g a s s o c i a t i o n r u l e s . I n P r o c . o f t h e
2 0 t h V L D B C o n f e r e n c e , p a g e s 4 8 7 { 4 9 9 , S a n t i -
a g o , C h i l e , 1 9 9 4 .
A S 9 6 ] R . A g r a w a l a n d J . C . S h a f e r . P a r a l l e l m i n i n g o f
a s s o c i a t i o n r u l e s . I E E E T r a n s a c t i o n s o n K n o w l -
e d g e a n d D a t a E n g . , 8 ( 6 ) : 9 6 2 { 9 6 9 , D e c e m b e r
1 9 9 6 .
H F 9 5 ] J . H a n a n d Y . F u . D i s c o v e r y o f m u l t i p l e { l e v e l
a s s o c i a t i o n r u l e s f r o m l a r g e d a t a b a s e s . I n P r o c .
o f t h e 2 1 s t V L D B C o n f e r e n c e , Z u r i c h , S w i t z e r -
l a n d , 1 9 9 5 .
H K K 9 7 ] E . H . H a n , G . K a r y p i s , a n d V . K u m a r . S c a l a b l e
p a r a l l e l d a t a m i n i n g f o r a s s o c i a t i o n r u l e s . T e c h -
n i c a l R e p o r t T R - 9 7 - ? ? , D e p a r t m e n t o f C o m -
p u t e r S c i e n c e , U n i v e r s i t y o f M i n n e s o t a , M i n -
n e a p o l i s , 1 9 9 7 .
H S 9 5 ] M . A . W . H o u t s m a a n d A . N . S w a m i . S e t -
o r i e n t e d m i n i n g f o r a s s o c i a t i o n r u l e s i n r e l a -
t i o n a l d a t a b a s e s . I n P r o c . o f t h e 1 1 t h I n t ' l C o n f .
o n D a t a E n g . , p a g e s 2 5 { 3 3 , T a i p e i , T a i w a n ,
1 9 9 5 .
K G G K 9 4 ] V i p i n K u m a r , A n a n t h G r a m a , A n s h u l G u p t a ,
a n d G e o r g e K a r y p i s . I n t r o d u c t i o n t o P a r a l -
l e l C o m p u t i n g : A l g o r i t h m D e s i g n a n d A n a l y s i s
B e n j a m i n C u m m i n g s / A d d i s o n W e s l e y , R e d w o d
C i t y , 1 9 9 4 .
M J H S 9 6 ] B . M o b a s h e r , N . J a i n , E . H . H a n , a n d J . S r i -
v a s t a v a . W e b m i n i n g : P a t t e r n d i s c o v e r y f r o m
w o r l d w i d e w e b t r a n s a c t i o n s . T e c h n i c a l R e p o r t
T R - 9 6 - 0 5 0 , D e p a r t m e n t o f C o m p u t e r S c i e n c e ,
U n i v e r s i t y o f M i n n e s o t a , M i n n e a p o l i s , 1 9 9 6 .
M T V 9 5 ] H . M a n n i l a , H . T o i v o n e n , a n d A . I . V e r k a m o .
D i s c o v e r i n g f r e q u e n t e p i s o d e s i n s e q u e n c e s . I n
P r o c . o f t h e F i r s t I n t ' l C o n f e r e n c e o n K n o w l -
e d g e D i s c o v e r y a n d D a t a M i n i n g , p a g e s 2 1 0 { 2 1 5 ,
M o n t r e a l , Q u e b e c , 1 9 9 5 .
P r o 9 6 ] I B M Q u e s t D a t a M i n i n g P r o j e c t . Q u e s t s y n -
t h e t i c d a t a g e n e r a t i o n c o d e .
h t t p : / / w w w . a l m a d e n . i b m . c o m / c s / q u e s t / s y n d a t a . h t m
1 9 9 6 .
P S 8 2 ] C . H . P a p a d i m i t r i o u a n d K . S t e i g l i t z . C o m b i n a -
t o r i a l O p t i m i z a t i o n : A l g o r i t h m s a n d C o m p l e x -
i t y . P r e n t i c e - H a l l , E n g l e w o o d C l i s , N J , 1 9 8 2 .
-
8/19/2019 Assoc Parallel
12/12
S A 9 5 ] R . S r i k a n t a n d R . A g r a w a l . M i n i n g g e n e r a l i z e d
a s s o c i a t i o n r u l e s . I n P r o c . o f t h e 2 1 s t V L D B
C o n f e r e n c e , p a g e s 4 0 7 { 4 1 9 , Z u r i c h , S w i t z e r l a n d ,
1 9 9 5 .
S A 9 6 ] R . S r i k a n t a n d R . A g r a w a l . M i n i n g s e q u e n t i a l
p a t t e r n s : G e n e r a l i z a t i o n s a n d p e r f o r m a n c e i m -
p r o v e m e n t s . I n P r o c . o f t h e F i f t h I n t ' l C o n -
f e r e n c e o n E x t e n d i n g D a t a b a s e T e c h n o l o g y , A v i -
g n o n , F r a n c e , 1 9 9 6 .
S A D
+
9 3 ] M . S t o n e b r a k e r , R . A g r a w a l , U . D a y a l , E . J .
N e u h o l d , a n d A . R e u t e r . D B M S r e s e a r c h a t a
c r o s s r o a d s : T h e v i e n n a u p d a t e . I n P r o c . o f t h e
1 9 t h V L D B C o n f e r e n c e , p a g e s 6 8 8 { 6 9 2 , D u b l i n ,
I r e l a n d , 1 9 9 3 .
S O N 9 5 ] A . S a v a s e r e , E . O m i e c i n s k i , a n d S . N a v a t h e . A n
e c i e n t a l g o r i t h m f o r m i n i n g a s s o c i a t i o n r u l e s
i n l a r g e d a t a b a s e s . I n P r o c . o f t h e 2 1 s t V L D B
C o n f e r e n c e , p a g e s 4 3 2 { 4 4 3 , Z u r i c h , S w i t z e r l a n d ,
1 9 9 5 .