assoc parallel

Upload: anonymous-rrgvqj

Post on 08-Jul-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/19/2019 Assoc Parallel

    1/12

    S c a l a b l e P a r a l l e l D a t a M i n i n g f o r A s s o c i a t i o n R u l e s  

     

    E u i - H o n g ( S a m ) H a n  

    D e p a r t m e n t o f C o m p u t e r S c i e n c e  

    U n i v e r s i t y o f M i n n e s o t a  

    M i n n e a p o l i s , M N 5 5 4 5 5  

    h a n @ c s . u m n . e d u  

    G e o r g e K a r y p i s  

    D e p a r t m e n t o f C o m p u t e r S c i e n c e  

    U n i v e r s i t y o f M i n n e s o t a  

    M i n n e a p o l i s , M N 5 5 4 5 5  

    k a r y p i s @ c s . u m n . e d u  

    V i p i n K u m a r  

    D e p a r t m e n t o f C o m p u t e r S c i e n c e  

    U n i v e r s i t y o f M i n n e s o t a  

    M i n n e a p o l i s , M N 5 5 4 5 5  

    k u m a r @ c s . u m n . e d u  

    A b s t r a c t  

    O n e o f t h e i m p o r t a n t p r o b l e m s i n d a t a m i n i n g i s d i s c o v e r -  

    i n g a s s o c i a t i o n r u l e s f r o m d a t a b a s e s o f t r a n s a c t i o n s w h e r e  

    e a c h t r a n s a c t i o n c o n s i s t s o f a s e t o f i t e m s . T h e m o s t t i m e  

    c o n s u m i n g o p e r a t i o n i n t h i s d i s c o v e r y p r o c e s s i s t h e c o m -  

    p u t a t i o n o f t h e f r e q u e n c y o f t h e o c c u r r e n c e s o f i n t e r e s t i n g  

    s u b s e t o f i t e m s ( c a l l e d c a n d i d a t e s ) i n t h e d a t a b a s e o f t r a n s -  

    a c t i o n s . T o p r u n e t h e e x p o n e n t i a l l y l a r g e s p a c e o f c a n d i -  

    d a t e s , m o s t e x i s t i n g a l g o r i t h m s , c o n s i d e r o n l y t h o s e c a n d i -  

    d a t e s t h a t h a v e a u s e r d e n e d m i n i m u m s u p p o r t . E v e n w i t h  

    t h e p r u n i n g , t h e t a s k o f n d i n g a l l a s s o c i a t i o n r u l e s r e q u i r e s  

    a l o t o f c o m p u t a t i o n p o w e r a n d t i m e . P a r a l l e l c o m p u t e r s  

    o e r a p o t e n t i a l s o l u t i o n t o t h e c o m p u t a t i o n r e q u i r e m e n t  

    o f t h i s t a s k , p r o v i d e d e c i e n t a n d s c a l a b l e p a r a l l e l a l g o -  

    r i t h m s c a n b e d e s i g n e d . I n t h i s p a p e r , w e p r e s e n t t w o n e w  

    p a r a l l e l a l g o r i t h m s f o r m i n i n g a s s o c i a t i o n r u l e s . T h e   I n t e l -  

    l i g e n t D a t a D i s t r i b u t i o n   a l g o r i t h m e c i e n t l y u s e s a g g r e g a t e  

    m e m o r y o f t h e p a r a l l e l c o m p u t e r b y e m p l o y i n g i n t e l l i g e n t  

    c a n d i d a t e p a r t i t i o n i n g s c h e m e a n d u s e s e c i e n t c o m m u n i -  

    c a t i o n m e c h a n i s m t o m o v e d a t a a m o n g t h e p r o c e s s o r s . T h e  

    H y b r i d D i s t r i b u t i o n   a l g o r i t h m f u r t h e r i m p r o v e s u p o n t h e   I n - 

    t e l l i g e n t D a t a D i s t r i b u t i o n   a l g o r i t h m b y d y n a m i c a l l y p a r t i -  

    t i o n i n g t h e c a n d i d a t e s e t t o m a i n t a i n g o o d l o a d b a l a n c e .

    T h e e x p e r i m e n t a l r e s u l t s o n a C r a y T 3 D p a r a l l e l c o m p u t e r  

    s h o w t h a t t h e   H y b r i d D i s t r i b u t i o n   a l g o r i t h m s c a l e s l i n e a r l y  

    a n d e x p l o i t s t h e a g g r e g a t e m e m o r y b e t t e r a n d c a n g e n e r a t e  

    m o r e a s s o c i a t i o n r u l e s w i t h a s i n g l e s c a n o f d a t a b a s e p e r  

    p a s s .

    1 I n t r o d u c t i o n  

    O n e o f t h e i m p o r t a n t p r o b l e m s i n d a t a m i n i n g S A D  

    9 3 ] i s  

    d i s c o v e r i n g a s s o c i a t i o n r u l e s f r o m d a t a b a s e s o f t r a n s a c t i o n s ,

     

    T h i s w o r k w a s s u p p o r t e d b y N S F g r a n t A S C - 9 6 3 4 7 1 9 , A r m y  

    R e s e a r c h O c e c o n t r a c t D A / D A A H 0 4 - 9 5 - 1 - 0 5 3 8 , C r a y R e s e a r c h  

    I n c . F e l l o w s h i p , a n d I B M p a r t n e r s h i p a w a r d , t h e c o n t e n t o f  

    w h i c h d o e s n o t n e c e s s a r i l y r e e c t t h e p o l i c y o f t h e g o v e r n m e n t ,

    a n d n o o c i a l e n d o r s e m e n t s h o u l d b e i n f e r r e d . A c c e s s t o c o m -

    p u t i n g f a c i l i t i e s w a s p r o v i d e d b y A H P C R C , M i n n e s o t a S u p e r c o m -

    p u t e r I n s t i t u t e , C r a y R e s e a r c h I n c . , a n d N S F g r a n t C D A - 9 4 1 4 0 1 5 .

    S e e h t t p : / / w w w . c s . u m n . e d u /    h a n / p a p e r s . h t m l # D a t a M i n i n g P a p e r s  

    f o r a n e x t e n d e d v e r s i o n o f t h i s p a p e r a n d o t h e r r e l a t e d p a p e r s .

    w h e r e e a c h t r a n s a c t i o n c o n t a i n s a s e t o f i t e m s . T h e m o s t  

    t i m e c o n s u m i n g o p e r a t i o n i n t h i s d i s c o v e r y p r o c e s s i s t h e  

    c o m p u t a t i o n o f t h e f r e q u e n c i e s o f t h e o c c u r r e n c e o f s u b s e t s  

    o f i t e m s , a l s o c a l l e d c a n d i d a t e s , i n t h e d a t a b a s e o f t r a n s a c -  

    t i o n s . S i n c e u s u a l l y s u c h t r a n s a c t i o n - b a s e d d a t a b a s e s c o n -  

    t a i n e x t r e m e l y l a r g e a m o u n t s o f d a t a a n d l a r g e n u m b e r  

    o f d i s t i n c t i t e m s , t h e t o t a l n u m b e r o f c a n d i d a t e s i s p r o -  

    h i b i t i v e l y l a r g e . H e n c e , c u r r e n t a s s o c i a t i o n r u l e d i s c o v e r y  

    t e c h n i q u e s A S 9 4 , H S 9 5 , S O N 9 5 , S A 9 5 ] t r y t o p r u n e t h e  

    s e a r c h s p a c e b y r e q u i r i n g a m i n i m u m l e v e l o f s u p p o r t f o r  

    c a n d i d a t e s u n d e r c o n s i d e r a t i o n . S u p p o r t i s a m e a s u r e b a s e d  

    o n t h e n u m b e r o f o c c u r r e n c e s o f t h e c a n d i d a t e s i n d a t a b a s e  

    t r a n s a c t i o n s . A p r i o r i   A S 9 4 ] i s a r e c e n t s t a t e - o f - t h e - a r t a l -  

    g o r i t h m t h a t a g g r e s s i v e l y p r u n e s t h e s e t o f p o t e n t i a l c a n -  

    d i d a t e s o f s i z e   k  b y l o o k i n g a t t h e p r e c i s e s u p p o r t f o r c a n -  

    d i d a t e s o f s i z e   k    1 . I n t h e   k 

    t h 

    i t e r a t i o n , t h i s a l g o r i t h m  

    c o m p u t e s t h e o c c u r r e n c e s o f p o t e n t i a l c a n d i d a t e s o f s i z e   k 

    i n e a c h o f t h e t r a n s a c t i o n s . T o d o t h i s t a s k e c i e n t l y , t h e  

    a l g o r i t h m m a i n t a i n s a l l p o t e n t i a l c a n d i d a t e s o f s i z e   k  i n a 

    h a s h t r e e . T h i s a l g o r i t h m d o e s n o t r e q u i r e t h e t r a n s a c t i o n s  

    t o s t a y i n m a i n m e m o r y , b u t r e q u i r e s t h e h a s h t r e e s t o s t a y  

    i n m a i n m e m o r y .

    E v e n w i t h t h e h i g h l y e e c t i v e p r u n i n g m e t h o d o f   A p r i -  

    o r i  , t h e t a s k o f n d i n g a l l a s s o c i a t i o n r u l e s r e q u i r e s a l o t o f  

    c o m p u t a t i o n p o w e r t h a t i s a v a i l a b l e o n l y i n p a r a l l e l c o m -  

    p u t e r s . F u r t h e r m o r e , t h e s i z e o f t h e m a i n m e m o r y i n t h e  

    s e r i a l c o m p u t e r p u t s a n u p p e r l i m i t o n t h e s i z e o f t h e c a n d i -  

    d a t e s e t s t h a t c a n b e c o n s i d e r e d i n a n y i t e r a t i o n ( a n d t h u s  

    a l o w e r b o u n d o n t h e m i n i m u m l e v e l o f s u p p o r t i m p o s e d  

    o n c a n d i d a t e s u n d e r c o n s i d e r a t i o n ) . P a r a l l e l c o m p u t e r s a l s o  

    o e r i n c r e a s e d m e m o r y t o s o l v e t h i s p r o b l e m .

    T w o p a r a l l e l a l g o r i t h m s , C o u n t D i s t r i b u t i o n   a n d  D a t a  

    D i s t r i b u t i o n   w e r e p r o p o s e d i n A S 9 6 ] . T h e   C o u n t D i s t r i b u -  

    t i o n   a l g o r i t h m h a s s h o w n t o s c a l e l i n e a r l y a n d h a v e e x c e l l e n t  

    s p e e d u p a n d s i z e u p b e h a v i o r w i t h r e s p e c t t o t h e n u m b e r o f  

    t r a n s a c t i o n s A S 9 6 ] . H o w e v e r , t h i s a l g o r i t h m w o r k s o n l y  

    w h e n t h e e n t i r e h a s h t r e e i n e a c h p a s s o f t h e a l g o r i t h m t s  

    i n t o t h e m a i n m e m o r y o f s i n g l e p r o c e s s o r o f t h e p a r a l l e l c o m -  

    p u t e r s . H e n c e , t h e   C o u n t D i s t r i b u t i o n   a l g o r i t h m , l i k e i t s s e -  

    q u e n t i a l c o u n t e r p a r t   A p r i o r i  , i s u n s c a l a b l e w i t h r e s p e c t t o  

    i n c r e a s i n g c a n d i d a t e s i z e . T h e   D a t a D i s t r i b u t i o n   a l g o r i t h m  

    a d d r e s s e s t h e m e m o r y p r o b l e m o f t h e   C o u n t D i s t r i b u t i o n  

    a l g o r i t h m b y p a r t i t i o n i n g t h e c a n d i d a t e s e t a n d a s s i g n i n g  

    a p a r t i t i o n t o e a c h p r o c e s s o r i n t h e s y s t e m . H o w e v e r , t h i s  

    a l g o r i t h m r e s u l t s i n h i g h c o m m u n i c a t i o n o v e r h e a d d u e t o  

    d a t a m o v e m e n t a n d r e d u n d a n t c o m p u t a t i o n A S 9 6 ] .

    I n t h i s p a p e r , w e p r e s e n t t w o p a r a l l e l a l g o r i t h m s f o r m i n -  

    i n g a s s o c i a t i o n r u l e s . W e r s t p r e s e n t   I n t e l l i g e n t D a t a D i s -  

    t r i b u t i o n   a l g o r i t h m t h a t i m p r o v e s u p o n t h e   D a t a D i s t r i b u -  

  • 8/19/2019 Assoc Parallel

    2/12

    t i o n   a l g o r i t h m s u c h t h a t t h e c o m m u n i c a t i o n o v e r h e a d a n d  

    r e d u n d a n t c o m p u t a t i o n i s m i n i m i z e d . T h e   H y b r i d D i s t r i b u -  

    t i o n   a l g o r i t h m f u r t h e r i m p r o v e s u p o n t h e   I n t e l l i g e n t D a t a  

    D i s t r i b u t i o n   a l g o r i t h m b y d y n a m i c a l l y g r o u p i n g p r o c e s s o r s  

    a n d p a r t i t i o n i n g t h e c a n d i d a t e s e t a c c o r d i n g l y t o m a i n t a i n  

    g o o d l o a d b a l a n c e . T h e e x p e r i m e n t a l r e s u l t s o n a C r a y  

    T 3 D p a r a l l e l c o m p u t e r s h o w t h a t t h e   H y b r i d D i s t r i b u t i o n  

    a l g o r i t h m s c a l e s l i n e a r l y a n d e x p l o i t s t h e a g g r e g a t e m e m o r y  

    b e t t e r a n d c a n g e n e r a t e m o r e a s s o c i a t i o n r u l e s w i t h a s i n g l e  

    s c a n o f d a t a b a s e p e r p a s s . A n e x t e n d e d v e r s i o n o f t h i s p a p e r  

    t h a t a l s o c o n t a i n s t h e a n a l y s i s o f t h e p e r f o r m a n c e o f t h e s e  

    s c h e m e s i s a v a i l a b l e i n H K K 9 7 ] .

    T h e r e s t o f t h i s p a p e r i s o r g a n i z e d a s f o l l o w s . S e c t i o n 2  

    p r o v i d e s a n o v e r v i e w o f t h e s e r i a l a l g o r i t h m f o r m i n i n g a s -  

    s o c i a t i o n r u l e s . S e c t i o n 3 d e s c r i b e s e x i s t i n g a n d p r o p o s e d  

    p a r a l l e l a l g o r i t h m s . E x p e r i m e n t a l r e s u l t s a r e s h o w n i n S e c -  

    t i o n 4 . S e c t i o n 5 c o n t a i n s c o n c l u s i o n s .

    2 B a s i c C o n c e p t s  

    L e t  T  b e t h e s e t o f t r a n s a c t i o n s w h e r e e a c h t r a n s a c t i o n i s  

    a s u b s e t o f t h e i t e m - s e t   I  . L e t   C  b e a s u b s e t o f   I  , t h e n w e  

    d e n e t h e   s u p p o r t c o u n t   o f  C  w i t h r e s p e c t t o   T  t o b e :

      (  C  ) =  j f  t  j t  2  T ; C    t  g j

    A n  a s s o c i a t i o n r u l e   i s a n e x p r e s s i o n o f t h e f o r m   X 

    s ;  

    =  )  Y  ,

    w h e r e   X    I  a n d  Y    I  . T h e   s u p p o r t   s  o f t h e r u l e   X 

    s ;  

    =  )  Y 

    i s d e n e d a s     (  X    Y  )  =  j T  j , a n d t h e c o n d e n c e     i s d e n e d  

    a s    (  X    Y  )  =   (  X  ) . F o r e x a m p l e , c o n s i d e r a r u l e   f  1 2  g  =  ) 

    f  3  g  , i . e . i t e m s 1 a n d 2 i m p l i e s 3 . T h e s u p p o r t o f t h i s r u l e i s  

    t h e f r e q u e n c y o f t h e i t e m - s e t   f  1 2 3  g  i n t h e t r a n s a c t i o n s . F o r  

    e x a m p l e , a s u p p o r t o f 0 . 0 5 m e a n s t h a t 5 % o f t h e t r a n s a c -  

    t i o n s c o n t a i n   f  1 2 3  g  . T h e c o n d e n c e o f t h i s r u l e i s d e n e d  

    a s t h e r a t i o o f t h e f r e q u e n c i e s o f   f  1 2 3  g  a n d  f  1 2  g  . F o r  

    e x a m p l e , i f 1 0 % o f t h e t r a n s a c t i o n s c o n t a i n   f  1 2  g  , t h e n t h e  

    c o n d e n c e o f t h e r u l e i s 0   0 5  =  0  1 0 = 0  5 . A r u l e t h a t h a s a  

    v e r y h i g h c o n d e n c e ( i . e . , t h a t i s c l o s e t o 1 . 0 ) i s o f t e n v e r y  

    i m p o r t a n t , b e c a u s e i t p r o v i d e s a n a c c u r a t e p r e d i c t i o n o n t h e  

    a s s o c i a t i o n o f t h e i t e m s i n t h e r u l e . T h e s u p p o r t o f a r u l e  

    i s a l s o i m p o r t a n t , s i n c e i t i n d i c a t e s h o w f r e q u e n t t h e r u l e i s  

    i n t h e t r a n s a c t i o n s . R u l e s t h a t h a v e v e r y s m a l l s u p p o r t a r e  

    o f t e n u n i n t e r e s t i n g , s i n c e t h e y d o n o t d e s c r i b e s i g n i c a n t l y  

    l a r g e p o p u l a t i o n s . T h i s i s o n e o f t h e r e a s o n s w h y m o s t a l g o -  

    r i t h m s d i s r e g a r d a n y r u l e s t h a t d o n o t s a t i s f y t h e m i n i m u m  

    s u p p o r t c o n d i t i o n s p e c i e d b y t h e u s e r . T h i s l t e r i n g d u e  

    t o t h e m i n i m u m r e q u i r e d s u p p o r t i s a l s o c r i t i c a l i n r e d u c -  

    i n g t h e n u m b e r o f d e r i v e d a s s o c i a t i o n r u l e s t o a m a n a g e a b l e  

    s i z e .

    T h e t a s k o f d i s c o v e r i n g a n a s s o c i a t i o n r u l e i s t o n d a l l

    r u l e s   X 

    s ;  

    =  )  Y  , w h e r e   s  i s a t l e a s t a g i v e n m i n i m u m s u p -  

    p o r t t h r e s h o l d a n d     i s a t l e a s t a g i v e n m i n i m u m c o n d e n c e  

    t h r e s h o l d . T h e a s s o c i a t i o n r u l e d i s c o v e r y i s c o m p o s e d o f  

    t w o s t e p s . T h e r s t s t e p i s t o d i s c o v e r a l l t h e f r e q u e n t  

    i t e m - s e t s ( c a n d i d a t e s e t s t h a t h a s m o r e s u p p o r t t h a n t h e  

    m i n i m u m s u p p o r t t h r e s h o l d s p e c i e d ) a n d t h e s e c o n d s t e p  

    i s t o g e n e r a t e a s s o c i a t i o n r u l e s t h a t h a v e h i g h e r c o n d e n c e  

    t h a n t h e m i n i m u m c o n d e n c e t h r e s h o l d f r o m t h e s e f r e q u e n t  

    i t e m - s e t s .

    A n u m b e r o f a l g o r i t h m s h a v e b e e n d e v e l o p e d f o r d i s c o v -  

    e r i n g a s s o c i a t i o n r u l e s A I S 9 3 , A S 9 4 , H S 9 5 ] . O u r p a r a l l e l

    a l g o r i t h m s a r e b a s e d o n t h e   A p r i o r i   a l g o r i t h m A S 9 4 ] t h a t  

    h a s s m a l l e r c o m p u t a t i o n a l c o m p l e x i t y c o m p a r e d t o o t h e r a l -  

    g o r i t h m s . I n t h e r e s t o f t h i s s e c t i o n , w e b r i e y d e s c r i b e t h e  

    A p r i o r i   a l g o r i t h m . T h e r e a d e r s h o u l d r e f e r t o A S 9 4 ] f o r  

    f u r t h e r d e t a i l s .

    1 F 

    =  f  f r e q u e n t 1 - i t e m - s e t s  g  ;

    2 f o r  ( k = 2 ; F 

    k    1 

    6=    ; k + + ) d o   b e g i n  

    3 C 

    = a p r i o r i g e n (  F 

    k    1 

    4 f o r  a l l t r a n s a c t i o n s   t  2  T 

    5 . s u b s e t (  C 

    , t ) 

    6 F 

    =  f  c  2  C 

    j c . c o u n t     m i n s u p   g 

    7 e n d 

    8 . A n s w e r =  

    F i g u r e 1 : A p r i o r i A l g o r i t h m  

    T h e  A p r i o r i   a l g o r i t h m c o n s i s t s o f a n u m b e r o f p a s s e s .

    D u r i n g p a s s   k  , t h e a l g o r i t h m n d s t h e s e t o f f r e q u e n t i t e m -  

    s e t s   F 

    o f l e n g t h   k  t h a t s a t i s f y t h e m i n i m u m s u p p o r t r e -  

    q u i r e m e n t . T h e a l g o r i t h m t e r m i n a t e s w h e n   F 

    i s e m p t y .

    T h e h i g h l e v e l s t r u c t u r e s o f t h e   A p r i o r i   a l g o r i t h m a r e g i v e n  

    i n F i g u r e 1 . I n i t i a l l y   F 

    c o n t a i n s a l l t h e i t e m s ( i . e . , i t e m s e t  

    o f s i z e o n e ) t h a t s a t i s f y t h e m i n i m u m s u p p o r t r e q u i r e m e n t .

    T h e n f o r   k  = 2  ; 3  ; 4  ; : : : , t h e a l g o r i t h m g e n e r a t e s   C 

    o f c a n -  

    d i d a t e s i t e m - s e t s o f l e n g t h   k  u s i n g   F 

    k    1 

    . T h i s i s d o n e i n  

    t h e f u n c t i o n   a p r i o r i g e n   , w h i c h g e n e r a t e s   C 

    b y p e r f o r m i n g  

    a j o i n o p e r a t i o n o n t h e i t e m - s e t s o f   F 

    k    1 

    . O n c e t h e c a n -  

    d i d a t e i t e m - s e t s a r e f o u n d , t h e i r f r e q u e n c i e s a r e c o m p u t e d  

    b y c o u n t i n g h o w m a n y t r a n s a c t i o n s c o n t a i n t h e s e c a n d i d a t e  

    i t e m - s e t s . F i n a l l y , F 

    i s g e n e r a t e d b y p r u n i n g   C 

    t o e l i m -  

    i n a t e i t e m - s e t s w i t h f r e q u e n c i e s s m a l l e r t h a n t h e m i n i m u m  

    s u p p o r t . T h e u n i o n o f t h e f r e q u e n t i t e m - s e t s ,

    , i s t h e  

    f r e q u e n t i t e m - s e t s f r o m w h i c h w e g e n e r a t e a s s o c i a t i o n r u l e s .

    C o m p u t i n g t h e c o u n t s o f t h e c a n d i d a t e i t e m - s e t s i s t h e  

    m o s t c o m p u t a t i o n a l l y e x p e n s i v e s t e p o f t h e a l g o r i t h m . O n e  

    n a i v e w a y t o c o m p u t e t h e s e c o u n t s i s t o s c a n e a c h t r a n s -  

    a c t i o n a n d s e e i f i t c o n t a i n s a n y o f t h e c a n d i d a t e i t e m - s e t s  

    a s i t s s u b s e t b y p e r f o r m i n g a s t r i n g - m a t c h i n g a g a i n s t e a c h  

    c a n d i d a t e i t e m - s e t . A f a s t e r w a y o f p e r f o r m i n g t h i s o p e r a -  

    t i o n i s t o u s e a c a n d i d a t e h a s h t r e e i n w h i c h t h e c a n d i d a t e  

    i t e m - s e t s a r e h a s h e d A S 9 4 ] . F i g u r e 2 s h o w s o n e e x a m p l e  

    o f t h e c a n d i d a t e h a s h t r e e w i t h c a n d i d a t e s o f l e n g t h 3 . T h e  

    i n t e r n a l n o d e s o f t h e h a s h t r e e h a v e h a s h t a b l e s t h a t c o n t a i n  

    l i n k s t o c h i l d n o d e s . T h e l e a f n o d e s c o n t a i n t h e c a n d i d a t e  

    i t e m - s e t s . W h e n e a c h c a n d i d a t e i t e m - s e t i s g e n e r a t e d , t h e  

    i t e m s i n t h e s e t a r e s t o r e d i n s o r t e d o r d e r . E a c h c a n d i d a t e  

    i t e m - s e t i s i n s e r t e d i n t o t h e h a s h t r e e b y h a s h i n g e a c h i t e m  

    a t t h e i n t e r n a l n o d e s i n s e q u e n c e a n d f o l l o w i n g t h e l i n k s i n  

    t h e h a s h t a b l e . O n c e t h e l e a f i s r e a c h e d , t h e c a n d i d a t e i t e m -  

    s e t i s i n s e r t e d a t t h e l e a f i f t h e t o t a l n u m b e r o f c a n d i d a t e  

    i t e m - s e t s a r e l e s s t h a n t h e m a x i m u m a l l o w e d . I f t h e t o t a l

    n u m b e r o f c a n d i d a t e i t e m - s e t s a t t h e l e a f e x c e e d s t h e m a x i -  

    m u m a l l o w e d a n d t h e r e a r e m o r e i t e m s t o b e h a s h e d i n t h e  

    c a n d i d a t e i t e m - s e t , t h e l e a f n o d e i s c o n v e r t e d i n t o a n i n t e r -  

    n a l n o d e a n d c h i l d n o d e s a r e c r e a t e d f o r t h e n e w i n t e r n a l

    n o d e . T h e c a n d i d a t e i t e m - s e t s a r e d i s t r i b u t e d t o t h e c h i l d  

    n o d e s a c c o r d i n g t o t h e h a s h v a l u e s o f t h e i t e m s . F o r e x a m -  

    p l e , t h e c a n d i d a t e i t e m s e t   f  1 2 4  g  i s i n s e r t e d b y h a s h i n g  

    i t e m 1 a t t h e r o o t t o r e a c h t h e l e f t c h i l d n o d e o f t h e r o o t ,

    h a s h i n g i t e m 2 a t t h a t n o d e t o r e a c h t h e m i d d l e c h i l d n o d e ,

    h a s h i n g i t e m 3 t o r e a c h t h e l e f t c h i l d n o d e w h i c h i s a l e a f  

    n o d e .

    T h e  s u b s e t   f u n c t i o n t r a v e r s e s t h e h a s h t r e e f r o m t h e r o o t  

    w i t h e v e r y i t e m i n a t r a n s a c t i o n a s a p o s s i b l e s t a r t i n g i t e m  

    o f a c a n d i d a t e . I n t h e n e x t l e v e l o f t h e t r e e , a l l t h e i t e m s  

    o f t h e t r a n s a c t i o n f o l l o w i n g t h e s t a r t i n g i t e m a r e h a s h e d .

  • 8/19/2019 Assoc Parallel

    3/12

    2,5,8

    1,4,7 3,6,9

    Hash Function

    1 2 3 5 6

    3 4 5 3 5 6

    2 3 5 6

    3 5 6

    5 6

    1 +

    2 +

    3 +

    2 3 4

    Transaction

    Candidate Hash Tree

    3 6 71 3 61 4 5

    1 2 4 1 2 5 1 5 9

    6 8 9

    3 5 7

    4 5 7 4 5 8

    3 6 8

    5 6 7

    F i g u r e 2 : S u b s e t o p e r a t i o n o n t h e r o o t o f a c a n d i d a t e h a s h  

    t r e e .

    1 2 3 5 6

    3 4 5 3 5 6

    3 5 61 2 +

    1 3 + 5 6

    1 5 + 6

    2 3 5 6

    3 5 6

    5 6

    1 +

    2 +

    3 +

    2 3 4

    Transaction

    3 6 71 3 61 4 5

    1 2 4 1 2 5 1 5 9

    6 8 9

    3 5 7

    4 5 7 4 5 8

    3 6 8

    5 6 7

    Candidate Hash Tree

    F i g u r e 3 : S u b s e t o p e r a t i o n o n t h e l e f t m o s t s u b t r e e o f t h e  

    r o o t o f a c a n d i d a t e h a s h t r e e .

    T h i s i s d o n e r e c u r s i v e l y u n t i l a l e a f i s r e a c h e d . A t t h i s t i m e ,

    a l l t h e c a n d i d a t e s a t t h e l e a f a r e c h e c k e d a g a i n s t t h e t r a n s -  

    a c t i o n a n d t h e i r c o u n t s a r e u p d a t e d a c c o r d i n g l y . F i g u r e 2  

    s h o w s t h e s u b s e t o p e r a t i o n a t t h e r s t l e v e l o f t h e t r e e w i t h  

    t r a n s a c t i o n   f  1 2 3 5 6  g  . T h e i t e m 1 i s h a s h e d t o t h e l e f t  

    c h i l d n o d e o f t h e r o o t a n d t h e f o l l o w i n g t r a n s a c t i o n   f  2 3 5 

    6  g  i s a p p l i e d r e c u r s i v e l y t o t h e l e f t c h i l d n o d e . T h e i t e m 2  

    i s h a s h e d t o t h e m i d d l e c h i l d n o d e o f t h e r o o t a n d t h e w h o l e  

    t r a n s a c t i o n i s c h e c k e d a g a i n s t t w o c a n d i d a t e i t e m - s e t s i n t h e  

    m i d d l e c h i l d n o d e . T h e n i t e m 3 i s h a s h e d t o t h e r i g h t c h i l d  

    n o d e o f t h e r o o t a n d t h e f o l l o w i n g t r a n s a c t i o n   f  5 6  g  i s a p -  

    p l i e d r e c u r s i v e l y t o t h e r i g h t c h i l d n o d e . F i g u r e 3 s h o w s t h e  

    s u b s e t o p e r a t i o n o n t h e l e f t c h i l d n o d e o f t h e r o o t . H e r e  

    t h e i t e m s 2 a n d 5 a r e h a s h e d t o t h e m i d d l e c h i l d n o d e a n d  

    t h e f o l l o w i n g t r a n s a c t i o n s   f  3 5 6  g  a n d  f  6  g  r e s p e c t i v e l y a r e  

    a p p l i e d r e c u r s i v e l y t o t h e m i d d l e c h i l d n o d e . T h e i t e m 3 i s  

    h a s h e d t o t h e r i g h t c h i l d n o d e a n d t h e r e m a i n i n g t r a n s a c t i o n  

    f  5 6  g  i s a p p l i e d r e c u r s i v e l y t o t h e r i g h t c h i l d n o d e .

    T h e b u l k o f t h e c o m p u t a t i o n i s s p e n t i n n d i n g t h e f r e -  

    q u e n t i t e m - s e t s a n d t h e a m o u n t o f t i m e r e q u i r e d t o n d t h e  

    r u l e s f r o m t h e s e f r e q u e n t i t e m - s e t s i s r e l a t i v e l y s m a l l . F o r  

    t h i s r e a s o n , p a r a l l e l a s s o c i a t i o n a l g o r i t h m s f o c u s o n h o w t o  

    p a r a l l e l i z e t h e r s t s t e p . T h e p a r a l l e l i m p l e m e n t a t i o n o f t h e  

    s e c o n d s t e p i s s t r a i g h t f o r w a r d a n d i s d i s c u s s e d i n A S 9 6 ] .

    3 P a r a l l e l A l g o r i t h m s  

    I n t h i s s e c t i o n , w e w i l l f o c u s o n t h e p a r a l l e l i z a t i o n o f t h e  

    r s t t a s k t h a t n d s a l l f r e q u e n t i t e m - s e t s . W e r s t d i s c u s s  

    t w o p a r a l l e l a l g o r i t h m s p r o p o s e d i n A S 9 6 ] t o h e l p m o t i v a t e  

    o u r p a r a l l e l f o r m u l a t i o n s . I n a l l o u r d i s c u s s i o n s , w e a s s u m e  

    t h a t t h e t r a n s a c t i o n s a r e e v e n l y d i s t r i b u t e d a m o n g t h e p r o -  

    c e s s o r s .

    3 . 1 C o u n t D i s t r i b u t i o n A l g o r i t h m  

    I n t h e   C o u n t D i s t r i b u t i o n   (  C D  ) a l g o r i t h m p r o p o s e d i n A S 9 6 ] ,

    e a c h p r o c e s s o r c o m p u t e s h o w m a n y t i m e s a l l t h e c a n d i d a t e s  

    a p p e a r i n t h e l o c a l l y s t o r e d t r a n s a c t i o n s . T h i s i s d o n e b y  

    b u i l d i n g t h e e n t i r e h a s h t r e e t h a t c o r r e s p o n d s t o a l l t h e c a n -  

    d i d a t e s a n d t h e n p e r f o r m i n g a s i n g l e p a s s o v e r t h e l o c a l l y  

    s t o r e d t r a n s a c t i o n s t o c o l l e c t t h e c o u n t s . T h e g l o b a l c o u n t s  

    o f t h e c a n d i d a t e s a r e c o m p u t e d b y s u m m i n g t h e s e i n d i v i d -  

    u a l c o u n t s u s i n g a g l o b a l r e d u c t i o n o p e r a t i o n K G G K 9 4 ] .

    T h i s a l g o r i t h m i s i l l u s t r a t e d i n F i g u r e 4 . N o t e t h a t s i n c e  

    e a c h p r o c e s s o r n e e d s t o b u i l d a h a s h t r e e f o r a l l t h e c a n d i -  

    d a t e s , t h e s e h a s h t r e e s a r e i d e n t i c a l a t e a c h p r o c e s s o r . T h u s ,

    e x c l u d i n g t h e g l o b a l r e d u c t i o n , e a c h p r o c e s s o r i n t h e   C D  a l - 

    g o r i t h m e x e c u t e s t h e s e r i a l A p r i o r i   a l g o r i t h m o n t h e l o c a l l y  

    s t o r e d t r a n s a c t i o n s .

    T h i s a l g o r i t h m h a s b e e n s h o w n t o s c a l e l i n e a r l y w i t h t h e  

    n u m b e r o f t r a n s a c t i o n s A S 9 6 ] . T h i s i s b e c a u s e e a c h p r o -  

    c e s s o r c a n c o m p u t e t h e c o u n t s i n d e p e n d e n t l y o f t h e o t h e r  

    p r o c e s s o r s a n d n e e d s t o c o m m u n i c a t e w i t h t h e o t h e r p r o -  

    c e s s o r s o n l y o n c e a t t h e e n d o f t h e c o m p u t a t i o n s t e p . H o w -  

    e v e r , t h i s a l g o r i t h m w o r k s w e l l o n l y w h e n t h e h a s h t r e e s c a n  

    t i n t o t h e m a i n m e m o r y o f e a c h p r o c e s s o r . I f t h e n u m b e r  

    o f c a n d i d a t e s i s l a r g e , t h e n t h e h a s h t r e e d o e s n o t t i n t o  

    t h e m a i n m e m o r y . I n t h i s c a s e , t h i s a l g o r i t h m h a s t o p a r -  

    t i t i o n t h e h a s h t r e e a n d c o m p u t e t h e c o u n t s b y s c a n n i n g  

    t h e d a t a b a s e m u l t i p l e t i m e s , o n c e f o r e a c h p a r t i t i o n o f t h e  

    h a s h t r e e . N o t e t h a t t h e n u m b e r o f c a n d i d a t e s i n c r e a s e s i f  

    e i t h e r t h e n u m b e r o f d i s t i n c t i t e m s i n t h e d a t a b a s e i n c r e a s e s  

    o r i f t h e m i n i m u m s u p p o r t l e v e l o f t h e a s s o c i a t i o n r u l e s d e -  

    c r e a s e s . T h u s t h e   C D  a l g o r i t h m i s e e c t i v e f o r s m a l l n u m b e r  

    o f d i s t i n c t i t e m s a n d a h i g h m i n i m u m s u p p o r t l e v e l .

  • 8/19/2019 Assoc Parallel

    4/12

    Proc 0 Proc 1 Proc 2 Proc 3

    Candidate Hash Tree

    N/P

    Data

    {B,E} 2

    {A,D} 3

    M

    Count

    N/P

    Data

    {A,C} 3

    {B,C} 2

    {C,D} 3

    M

    Count

    N/P

    Data

    {A,B} 2

    {B,E} 2

    {A,D} 3

    {C,D} 3

    M

    Count

    {A,B} 1

    {A,C} 2

    {B,C} 1

    {C,D} 2

    {A,B} 3

    {A,D} 4

    {B,E} 4

    {D,E} 1{D,E} 5

    {A,C} 1

    {B,C} 5

    {D,E} 2

    N/P

    Data

    {A,B} 2

    {A,C} 3

    {B,C} 2

    {B,E} 2

    {A,D} 3

    {D,E} 3

    {C,D} 3

    M

    Count

    Candidate Hash Tree Candidate Hash Tree Candidate Hash Tree

    N: number of data items

    M: size of candidate set

    P: number of processors

    Global Reduction

    F i g u r e 4 : C o u n t D i s t r i b u t i o n ( C D ) A l g o r i t h m  

    3 . 2 D a t a D i s t r i b u t i o n A l g o r i t h m  

    T h e  D a t a D i s t r i b u t i o n   (  D D  ) a l g o r i t h m A S 9 6 ] a d d r e s s e s t h e  

    m e m o r y p r o b l e m o f t h e   C D  a l g o r i t h m b y p a r t i t i o n i n g t h e  

    c a n d i d a t e i t e m - s e t s a m o n g t h e p r o c e s s o r s . T h i s p a r t i t i o n -  

    i n g i s d o n e i n a r o u n d r o b i n f a s h i o n . E a c h p r o c e s s o r i s  

    r e s p o n s i b l e f o r c o m p u t i n g t h e c o u n t s o f i t s l o c a l l y s t o r e d  

    s u b s e t o f t h e c a n d i d a t e i t e m - s e t s f o r a l l t h e t r a n s a c t i o n s i n  

    t h e d a t a b a s e . I n o r d e r t o d o t h a t , e a c h p r o c e s s o r n e e d s t o  

    s c a n t h e p o r t i o n s o f t h e t r a n s a c t i o n s a s s i g n e d t o t h e o t h e r  

    p r o c e s s o r s a s w e l l a s i t s l o c a l l y s t o r e d p o r t i o n o f t h e t r a n s -  

    a c t i o n s . I n t h e   D D  a l g o r i t h m , t h i s i s d o n e b y h a v i n g e a c h  

    p r o c e s s o r r e c e i v e t h e p o r t i o n s o f t h e t r a n s a c t i o n s s t o r e d i n  

    t h e o t h e r p r o c e s s o r s a c c o r d i n g t o t h e f o l l o w i n g f a s h i o n . E a c h  

    p r o c e s s o r a l l o c a t e s   P  b u e r s ( e a c h o n e p a g e l o n g a n d o n e  

    f o r e a c h p r o c e s s o r ) . A t p r o c e s s o r   P 

    i

    , t h e   i 

    t h 

    b u e r i s u s e d  

    t o s t o r e t r a n s a c t i o n s f r o m t h e l o c a l l y s t o r e d d a t a b a s e a n d  

    t h e r e m a i n i n g b u e r s a r e u s e d t o s t o r e t r a n s a c t i o n s f r o m  

    t h e o t h e r p r o c e s s o r s , s u c h t h a t b u e r   j  s t o r e s t r a n s a c t i o n s  

    f r o m p r o c e s s o r   P 

    . N o w e a c h p r o c e s s o r   P 

    i

    c h e c k s t h e   P 

    b u e r s t o s e e w h i c h o n e c o n t a i n s d a t a . L e t   k  b e t h i s b u e r  

    ( t i e s a r e b r o k e n i n f a v o r o f b u e r s o f o t h e r p r o c e s s o r s a n d  

    t i e s a m o n g b u e r s o f o t h e r p r o c e s s o r s a r e b r o k e n a r b i t r a r -  

    i l y ) . T h e p r o c e s s o r p r o c e s s e s t h e t r a n s a c t i o n s i n t h i s b u e r  

    a n d u p d a t e s t h e c o u n t s o f i t s o w n c a n d i d a t e s u b s e t . I f t h i s  

    b u e r c o r r e s p o n d s t o t h e b u e r t h a t s t o r e s l o c a l t r a n s a c t i o n s  

    ( i . e . , k  =  i  ) , t h e n i t i s s e n t t o a l l t h e o t h e r p r o c e s s o r s a s y n -  

    c h r o n o u s l y a n d a n e w p a g e i s r e a d f r o m t h e l o c a l d a t a b a s e .

    I f t h i s b u e r c o r r e s p o n d s t o a b u e r t h a t s t o r e s t r a n s a c t i o n s  

    f r o m a n o t h e r p r o c e s s o r ( i . e . , k  6=  i  ) , t h e n i t i s c l e a r e d a n d  

    a n a s y n c h r o n o u s r e c e i v e r e q u e s t i s i s s u e d t o p r o c e s s o r   P 

    T h i s c o n t i n u e s u n t i l e v e r y p r o c e s s o r h a s p r o c e s s e d a l l t h e  

    t r a n s a c t i o n s . H a v i n g c o m p u t e d t h e c o u n t s o f i t s c a n d i d a t e  

    i t e m - s e t s , e a c h p r o c e s s o r n d s t h e f r e q u e n t i t e m - s e t s f r o m  

    i t s c a n d i d a t e i t e m - s e t a n d t h e s e f r e q u e n t i t e m - s e t s a r e s e n t  

    t o e v e r y o t h e r p r o c e s s o r u s i n g a n a l l - t o - a l l b r o a d c a s t o p e r a -  

    t i o n K G G K 9 4 ] . F i g u r e 5 s h o w s t h e h i g h l e v e l o p e r a t i o n s o f  

    t h e a l g o r i t h m . N o t e t h a t e a c h p r o c e s s o r h a s a d i e r e n t s e t  

    o f c a n d i d a t e s i n t h e c a n d i d a t e h a s h t r e e .

    T h i s a l g o r i t h m e x p l o i t s t h e t o t a l a v a i l a b l e m e m o r y b e t -  

    t e r t h a n   C D  , a s i t p a r t i t i o n s t h e c a n d i d a t e s e t a m o n g p r o -  

    c e s s o r s . A s t h e n u m b e r o f p r o c e s s o r s i n c r e a s e s , t h e n u m b e r  

    o f c a n d i d a t e s t h a t t h e a l g o r i t h m c a n h a n d l e a l s o i n c r e a s e s .

    H o w e v e r , a s r e p o r t e d i n A S 9 6 ] , t h e p e r f o r m a n c e o f t h i s a l -  

    g o r i t h m i s s i g n i c a n t l y w o r s e t h a n t h e   C D  a l g o r i t h m . T h e  

    r u n t i m e o f t h i s a l g o r i t h m i s 1 0 t o 2 0 t i m e s m o r e t h a n t h a t  

    o f t h e   C D  a l g o r i t h m o n 1 6 p r o c e s s o r s A S 9 6 ] . T h e p r o b l e m  

    l i e s w i t h t h e c o m m u n i c a t i o n p a t t e r n o f t h e a l g o r i t h m a n d  

    t h e r e d u n d a n t w o r k t h a t i s p e r f o r m e d i n p r o c e s s i n g a l l t h e  

    t r a n s a c t i o n s .

    T h e c o m m u n i c a t i o n p a t t e r n o f t h i s a l g o r i t h m c a u s e s t w o  

    p r o b l e m s . F i r s t , d u r i n g e a c h p a s s o f t h e a l g o r i t h m e a c h  

    p r o c e s s o r s e n d s t o a l l t h e o t h e r p r o c e s s o r s t h e p o r t i o n o f  

    t h e d a t a b a s e t h a t r e s i d e s l o c a l l y . I n p a r t i c u l a r , e a c h p r o -  

    c e s s o r r e a d s t h e l o c a l l y s t o r e d p o r t i o n o f t h e d a t a b a s e o n e  

    p a g e a t a t i m e a n d s e n d s i t t o a l l t h e o t h e r p r o c e s s o r s b y  

    i s s u i n g   P    1 s e n d o p e r a t i o n s . S i m i l a r l y , e a c h p r o c e s s o r i s -  

    s u e s a r e c e i v e o p e r a t i o n f r o m e a c h o t h e r p r o c e s s o r i n o r d e r  

    t o r e c e i v e t h e s e p a g e s . I f t h e i n t e r c o n n e c t i o n n e t w o r k o f t h e  

    u n d e r l y i n g p a r a l l e l c o m p u t e r i s f u l l y c o n n e c t e d ( i . e . , t h e r e i s  

    a d i r e c t l i n k b e t w e e n a l l p a i r s o f p r o c e s s o r s ) a n d e a c h p r o -  

    c e s s o r c a n r e c e i v e d a t a o n a l l i n c o m i n g l i n k s s i m u l t a n e o u s l y ,

    t h e n t h i s c o m m u n i c a t i o n p a t t e r n w i l l l e a d t o a v e r y g o o d  

    p e r f o r m a n c e . I n p a r t i c u l a r , i f   O  (  N = P  ) i s t h e s i z e o f t h e  

    d a t a b a s e a s s i g n e d l o c a l l y t o e a c h p r o c e s s o r , t h e a m o u n t o f  

    t i m e s p e n t i n t h e c o m m u n i c a t i o n w i l l b e   O  (  N  ) . H o w e v e r , o n  

  • 8/19/2019 Assoc Parallel

    5/12

    Proc 0 Proc 1 Proc 2 Proc 3

    N/P N/P N/P

    M/P M/P M/P M/P

    Local Data Remote Data

    Candidate Hash Tree

    CountCount

    Local Data Remote Data

    Candidate Hash Tree

    CountCount

    Local Data Remote Data

    Candidate Hash Tree

    CountCount

    Local Data Remote Data

    Candidate Hash Tree

    CountCount

    {A,B} 2 {A,D} 2{A,C} 3 {A,E} 1

    {B,C} 3 {B,D} 5 {B,E} 3 {C,D} 1

    {C,E} 3 {C,F} 1 {D,E} 4 {E,F} 1

    N/PData

    N: number of data items

    M: size of candidate set

    P: number of processors

    Data Data

    Broadcast Broadcast Broadcast

    All-to-all Broadcast

    Data

    Broadcast Broadcast

    Data

    F i g u r e 5 : D a t a D i s t r i b u t i o n ( D D ) A l g o r i t h m  

    a l l r e a l i s t i c p a r a l l e l c o m p u t e r s , t h e p r o c e s s o r s a r e c o n n e c t e d  

    v i a a s p a r s e r n e t w o r k s ( s u c h a s 2 D , 3 D o r h y p e r c u b e ) a n d a  

    p r o c e s s o r c a n r e c e i v e d a t a f r o m ( o r s e n d d a t a t o ) o n l y o n e  

    o t h e r p r o c e s s o r a t a t i m e . O n s u c h m a c h i n e s , t h i s c o m m u n i -  

    c a t i o n p a t t e r n w i l l t a k e s i g n i c a n t l y m o r e t h a n   O  (  N  ) t i m e  

    b e c a u s e o f c o n t e n t i o n .

    S e c o n d , i f w e l o o k a t t h e s i z e o f t h e c a n d i d a t e s e t s a s a  

    f u n c t i o n o f t h e n u m b e r o f p a s s e s o f t h e a l g o r i t h m , w e s e e  

    t h a t i n t h e r s t f e w p a s s e s , t h e s i z e o f t h e c a n d i d a t e s e t s  

    i n c r e a s e s a n d a f t e r t h a t i t d e c r e a s e s . I n p a r t i c u l a r , d u r i n g  

    t h e l a s t s e v e r a l p a s s e s o f t h e a l g o r i t h m , t h e r e a r e o n l y a  

    s m a l l n u m b e r o f i t e m s i n t h e c a n d i d a t e s e t s . H o w e v e r , e a c h  

    p r o c e s s o r i n t h e   D D  a l g o r i t h m s t i l l s e n d s t h e l o c a l l y s t o r e d  

    p o r t i o n s o f t h e d a t a b a s e t o a l l t h e o t h e r p r o c e s s o r s . T h u s ,

    e v e n t h o u g h t h e c o m p u t a t i o n d e c r e a s e s , t h e a m o u n t o f c o m -  

    m u n i c a t i o n r e m a i n s t h e s a m e .

    T h e r e d u n d a n t w o r k i s i n t r o d u c e d d u e t o t h e f a c t t h a t  

    e v e r y p r o c e s s o r h a s t o p r o c e s s e v e r y s i n g l e t r a n s a c t i o n i n  

    t h e d a t a b a s e . A l t h o u g h , t h e n u m b e r o f c a n d i d a t e s s t o r e d a t  

    e a c h p r o c e s s o r h a s b e e n r e d u c e d b y a f a c t o r o f  P  , t h e a m o u n t  

    o f c o m p u t a t i o n p e r f o r m e d f o r e a c h t r a n s a c t i o n h a s n o t b e e n  

    p r o p o r t i o n a l l y r e d u c e d . I n   C D  ( s e e F i g u r e 4 ) , o n l y   N = P 

    t r a n s a c t i o n s g o t h r o u g h e a c h h a s h t r e e o f   M  c a n d i d a t e s ,

    w h e r e a s i n   D D  ( s e e F i g u r e 5 ) , N  t r a n s a c t i o n s h a v e t o g o  

    t h r o u g h e a c h h a s h t r e e o f   M = P  c a n d i d a t e s . I f t h e a m o u n t o f  

    w o r k r e q u i r e d f o r e a c h t r a n s a c t i o n t o b e c h e c k e d a g a i n s t t h e  

    h a s h t r e e o f   M = P  c a n d i d a t e s i s 1   = P  o f t h a t o f t h e h a s h t r e e  

    o f  M  c a n d i d a t e s , t h e n t h e r e i s n o e x t r a w o r k . H o w e v e r , f o r  

    t h i s t o b e t r u e i n t h e   D D  a l g o r i t h m , t h e a v e r a g e d e p t h o f t h e  

    h a s h t r e e h a s t o b e r e d u c e d b y   P  a n d t h e a v e r a g e n u m b e r  

    o f c a n d i d a t e s i n t h e l e a f n o d e s h a s t o b e a l s o r e d u c e d b y  

    P  . T h i s d o e s n o t h a p p e n i n t h e h a s h t r e e s c h e m e d i s c u s s e d  

    i n S e c t i o n 2 . T o s e e t h i s , c o n s i d e r a h a s h t r e e w i t h s i n g l e  

    c a n d i d a t e a t t h e l e a f n o d e a n d w i t h b r a n c h i n g f a c t o r o f   B 

    B y r e d u c i n g t h e n u m b e r o f c a n d i d a t e s b y   P  , t h e d e p t h o f  

    t h e h a s h t r e e w i l l d e c r e a s e b y o n l y l o g  

    P  . W i t h   B > P 

    ( w h i c h w o u l d b e t h e m o s t l i k e l y ) , t h e l o g  

    P

  • 8/19/2019 Assoc Parallel

    6/12

    w h i l e ( ! d o n e ) f 

    F i l l B u e r ( f d , S B u f ) ;

    f o r ( k = 0 ; k  

  • 8/19/2019 Assoc Parallel

    7/12

    Count Count

    Candidate Hash Tree

    Count Count

    Candidate Hash Tree

    Count Count

    Candidate Hash Tree

    Count Count

    Candidate Hash Tree

    A,C

    Bit Map

    Proc 0 Proc 1 Proc 2 Proc 3

    N/P N/P N/P

    Local Data Remote Data Local Data Remote Data Local Data Remote Data Local Data Remote Data

    N/PData DataData

    N: number of data items

    M: size of candidate set

    P: number of processors

    Shift Shift Shift

    Data

    Shift

    Data

    Shift

    M/P M/P M/P M/P{B,D} 5

    {B,C} 3

    {E,F} 1

    {D,E} 2

    {D,G} 4

    {D,F} 3

    {G,J} 2

    {F,G} 3

    {G,I} 4

    {A,B} 2

    {A,C} 3

    {C,E} 3

    Bit Map Bit Map Bit Map

    B,E F,GD

    All-to-all Broadcast

    F i g u r e 7 : I n t e l l i g e n t D a t a D i s t r i b u t i o n ( I D D ) A l g o r i t h m  

    p e r f o r m a s y n c h r o n o u s c o m m u n i c a t i o n .

    T h e  H y b r i d D i s t r i b u t i o n   (  H D  ) a l g o r i t h m a d d r e s s e s t h e  

    a b o v e p r o b l e m b y c o m b i n i n g t h e   C D  a n d t h e   I D D  a l g o -  

    r i t h m s i n t h e f o l l o w i n g w a y . C o n s i d e r a   P  - p r o c e s s o r s y s t e m  

    i n w h i c h t h e p r o c e s s o r s a r e s p l i t i n t o   G  e q u a l s i z e g r o u p s ,

    e a c h c o n t a i n i n g   P = G  p r o c e s s o r s . I n t h e   H D  a l g o r i t h m , w e  

    e x e c u t e t h e   C D  a l g o r i t h m a s i f t h e r e w e r e o n l y   P = G  p r o c e s -  

    s o r s . T h a t i s , w e p a r t i t i o n t h e t r a n s a c t i o n s o f t h e d a t a b a s e  

    i n t o   P = G  p a r t s e a c h o f s i z e   N =  (  P = G  ) , a n d a s s i g n t h e t a s k  

    o f c o m p u t i n g t h e c o u n t s o f t h e c a n d i d a t e s e t   C 

    f o r e a c h  

    s u b s e t o f t h e t r a n s a c t i o n s t o e a c h o n e o f t h e s e g r o u p s o f  

    p r o c e s s o r s . W i t h i n e a c h g r o u p , t h e s e c o u n t s a r e c o m p u t e d  

    u s i n g t h e   I D D  a l g o r i t h m . T h a t i s , t h e t r a n s a c t i o n s a n d t h e  

    c a n d i d a t e s e t   C 

    a r e p a r t i t i o n e d a m o n g t h e p r o c e s s o r s o f  

    e a c h g r o u p , s o t h a t e a c h p r o c e s s o r g e t s r o u g h l y   j C 

    j = G  c a n -  

    d i d a t e i t e m - s e t s a n d   N = P  t r a n s a c t i o n s . N o w , e a c h g r o u p  

    o f p r o c e s s o r s c o m p u t e s t h e c o u n t s u s i n g t h e   I D D  a l g o r i t h m ,

    a n d t h e o v e r a l l c o u n t s a r e c o m p u t i n g b y p e r f o r m i n g a r e -  

    d u c t i o n o p e r a t i o n a m o n g t h e   P = G  g r o u p s o f p r o c e s s o r s .

    T h e  H D  a l g o r i t h m c a n b e b e t t e r v i s u a l i z e d i f w e t h i n k o f  

    t h e p r o c e s s o r s a s b e i n g a r r a n g e d i n a t w o d i m e n s i o n a l g r i d  

    o f  G  r o w s a n d   P = G  c o l u m n s . T h e t r a n s a c t i o n s a r e p a r t i -  

    t i o n e d e q u a l l y a m o n g t h e   P  p r o c e s s o r s , a n d t h e c a n d i d a t e  

    s e t  C 

    i s p a r t i t i o n e d a m o n g t h e p r o c e s s o r s o f e a c h c o l u m n  

    o f t h i s g r i d . T h i s p a r t i t i o n i n g o f   C 

    i s t h e s a m e f o r e a c h  

    c o l u m n o f p r o c e s s o r s , t h a t i s , t h e p r o c e s s o r s a l o n g e a c h r o w  

    o f t h e g r i d g e t t h e s a m e s u b s e t o f   C 

    . N o w , t h e   I D D  a l g o -  

    r i t h m i s e x e c u t e d i n d e p e n d e n t l y a l o n g e a c h c o l u m n o f t h e  

    g r i d , a n d t h e t o t a l c o u n t s o f e a c h s u b s e t o f   C 

    i s o b t a i n e d  

    b y p e r f o r m i n g a r e d u c t i o n o p e r a t i o n a l o n g t h e r o w s o f t h i s  

    p r o c e s s o r g r i d . F i g u r e 8 i l l u s t r a t e s t h e   H D  a l g o r i t h m f o r a  

    3    4 g r i d o f p r o c e s s o r s .

    T h e  H D  a l g o r i t h m d e t e r m i n e s t h e c o n g u r a t i o n o f t h e  

    p r o c e s s o r g r i d d y n a m i c a l l y . I n p a r t i c u l a r , t h e   H D  a l g o r i t h m  

    p a r t i t i o n s t h e c a n d i d a t e s e t i n t o a b i g e n o u g h s e c t i o n a n d  

    a s s i g n a g r o u p o f p r o c e s s o r s t o e a c h p a r t i t i o n . T h e s a m e  

    p a r a m e t e r t h a t w a s u s e d t o d e t e r m i n e w h e t h e r t o s w i t c h t o  

    C D  a l g o r i t h m c a n b e u s e d t o d e c i d e t h e s i z e o f t h e p a r t i -  

    t i o n i n t h i s a l g o r i t h m . F o r e x a m p l e , l e t t h i s p a r a m e t e r b e  

    C  . I f t h e t o t a l n u m b e r o f c a n d i d a t e s   M  i s l e s s t h a n   C  , i t 

    s w i t c h e s t o   C D  a l g o r i t h m . O t h e r w i s e n d o u t t h e n u m b e r  

    o f p r o c e s s o r g r o u p s   G  =  d  M = C  e  a n d f o r m a l o g i c a l G    P = G 

    p r o c e s s o r m e s h c o n g u r a t i o n . I n t h e e x a m p l e o f F i g u r e 8 ,

    t h e  H D  a l g o r i t h m e x e c u t e s t h e   C D  a l g o r i t h m a s i f t h e r e w e r e  

    o n l y 4 p r o c e s s o r s , w h e r e t h e 4 p r o c e s s o r s c o r r e s p o n d t o t h e  

    4 p r o c e s s o r c o l u m n s . T h a t i s , t h e d a t a b a s e t r a n s a c t i o n s a r e  

    p a r t i t i o n e d i n 4 p a r t s , a n d e a c h o n e o f t h e s e 4 h y p o t h e t -  

    i c a l p r o c e s s o r s c o m p u t e s t h e l o c a l c o u n t s o f a l l t h e c a n d i -  

    d a t e i t e m - s e t s . T h e n t h e g l o b a l c o u n t s c a n b e c o m p u t e d b y  

    p e r f o r m i n g t h e g l o b a l r e d u c t i o n o p e r a t i o n d i s c u s s e d i n S e c -  

    t i o n 3 . 1 . H o w e v e r , s i n c e e a c h o n e o f t h e s e h y p o t h e t i c a l p r o -  

    c e s s o r s i s m a d e u p o f 3 p r o c e s s o r s , t h e c o m p u t a t i o n o f l o c a l

    c o u n t s o f t h e c a n d i d a t e i t e m - s e t s i n a h y p o t h e t i c a l p r o c e s s o r  

    c o r r e s p o n d s t o t h e c o m p u t a t i o n o f t h e c o u n t s o f t h e c a n d i -  

    d a t e i t e m - s e t s o n t h e d a t a b a s e t r a n s a c t i o n s s i t t i n g o n t h e  

    3 p r o c e s s o r s . T h i s o p e r a t i o n i s p e r f o r m e d b y e x e c u t i n g t h e  

    I D D  a l g o r i t h m i n e a c h o f 4 h y p o t h e t i c a l p r o c e s s o r s . T h i s i s  

    s h o w n i n t h e s t e p 1 o f F i g u r e 8 . N o t e t h a t p r o c e s s o r s i n t h e  

    s a m e r o w h a v e e x a c t l y t h e s a m e c a n d i d a t e s a n d c a n d i d a t e  

    s e t s a l o n g t h e e a c h c o l u m n p a r t i t i o n t h e t o t a l c a n d i d a t e s e t .

    A t t h e e n d o f t h i s o p e r a t i o n , e a c h p r o c e s s o r h a s c o m p l e t e  

    c o u n t s o f l o c a l c a n d i d a t e s f o r a l l t h e d a t a o f t h e p r o c e s s o r s  

    o f t h e s a m e c o l u m n ( o r o f a h y p o t h e t i c a l p r o c e s s o r ) . T h e  

    g l o b a l r e d u c t i o n o p e r a t i o n i s b r o k e n i n t o t w o p a r t s c o r r e -  

    s p o n d i n g t o t h e s t e p 2 a n d 3 o f t h e F i g u r e 8 . I n t h e s t e p 2 ,

    p e r f o r m r e d u c t i o n o p e r a t i o n K G G K 9 4 ] a l o n g t h e r o w s u c h  

  • 8/19/2019 Assoc Parallel

    8/12

    Candidate Hash Tree

    G,F 1

    Candidate Hash Tree

    D,E 2

    G,F 1

    Candidate Hash Tree

    D,E 2

    A,B 2

    D,E 1

    A,B 1

    G,F 2

    A,B 3

    Candidate Hash Tree

    A,B 7

    D,E 7

    G,F 5

    Candidate Hash Tree

    H,I 2

    E,F 1

    Candidate Hash Tree

    B,C 2

    H,I 2

    Candidate Hash Tree

    B,C 2

    H,I 2

    B,C 1

    E,F 2 E,F 3

    Candidate Hash Tree

    Candidate Hash Tree

    F,H 2

    F,G 1

    Candidate Hash Tree

    C,D 1

    F,H 2

    F,G 1

    Candidate Hash Tree

    C,D 1

    F,H 2

    C,D 2

    F,G 2

    Candidate Hash Tree

    B,C 7

    E,F 7

    H,I 8

    C,D 7

    F,G 5

    F,H 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Frequent Item Set

    F,H 8

    H,I 8

    Step 2: Reduction Operation Along the Rows

    Follwed by One-to-all Broadcast Operation Along the RowsStep 3: All-to-all Broadcast Operation Along the First Column

    All-to-all

    Broadcast

    Step 1: Partitioning of Candidate Sets and Data Movement Along the Columns

    Data Shift

    Data Shift

    Data Shift

    Data Shift

    Data Shift

    Data Shift

    Candidate Hash Tree

    Candidate Hash Tree

    Candidate Hash Tree

    G,F 1

    H,I 2

    F,H 2

    F,G 1

    E,F 1

    Data Shift

    Data Shift

    Candidate Hash Tree

    Candidate Hash Tree

    Candidate Hash Tree

    D,E 2

    G,F 1

    B,C 2

    H,I 2

    C,D 1

    F,H 2

    F,G 1

    Candidate Hash Tree

    Candidate Hash Tree

    Candidate Hash Tree

    D,E 2

    B,C 2

    H,I 2

    C,D 1

    F,H 2

    A,B 2

    D,E 1

    B,C 1

    C,D 2

    A,B 1

    G,F 2

    E,F 2

    F,G 2

    A,B 3

    E,F 3

    Candidate Hash Tree

    Candidate Hash Tree

    Candidate Hash Tree

    A,B 1

    D,E 2

    G,F 1

    B,C 2

    H,I 2

    F,H 2

    F,G 1

    E,F 1

    C,D 3

    Data Shift Data Shift Data Shift Data Shift

    F i g u r e 8 : H y b r i d D i s t r i b u t i o n ( H D ) A l g o r i t h m i n 3     4 P r o c e s s o r M e s h (  G  = 3  ; P  = 1 2 )  

  • 8/19/2019 Assoc Parallel

    9/12

    t h a t t h e p r o c e s s o r i n t h e r s t c o l u m n o f t h e s a m e r o w h a s  

    t h e t o t a l c o u n t s f o r t h e c a n d i d a t e s i n t h e s a m e r o w p r o c e s -  

    s o r s . I n t h e s t e p 3 , a l l t h e p r o c e s s o r s i n t h e r s t c o l u m n  

    g e n e r a t e f r e q u e n t s e t f r o m t h e c a n d i d a t e s e t a n d p e r f o r m  

    a l l - t o - a l l b r o a d c a s t o p e r a t i o n a l o n g t h e r s t c o l u m n o f t h e  

    p r o c e s s o r m e s h . T h e n t h e p r o c e s s o r s i n t h e r s t c o l u m n  

    b r o a d c a s t t h e f u l l f r e q u e n t s e t s t o t h e p r o c e s s o r s a l o n g t h e  

    s a m e r o w u s i n g o n e - t o - a l l b r o a d c a s t o p e r a t i o n K G G K 9 4 ] .

    A t t h i s p o i n t , a l l t h e p r o c e s s o r s h a v e t h e f r e q u e n t s e t s a n d  

    r e a d y t o p r o c e e d t o t h e n e x t p a s s .

    T h i s a l g o r i t h m i n h e r i t s a l l t h e g o o d f e a t u r e s o f t h e   I D D 

    a l g o r i t h m . I t a l s o p r o v i d e s g o o d l o a d b a l a n c e a n d e n o u g h  

    c o m p u t a t i o n w o r k b y m a i n t a i n i n g m i n i m u m n u m b e r o f c a n -  

    d i d a t e s p e r p r o c e s s o r . A t t h e s a m e t i m e , t h e a m o u n t o f d a t a  

    m o v e m e n t i n t h i s a l g o r i t h m h a s b e e n c u t d o w n t o 1  = G  o f t h e  

    I D D 

    4 E x p e r i m e n t a l R e s u l t s  

    W e i m p l e m e n t e d o u r p a r a l l e l a l g o r i t h m s o n a 1 2 8 - p r o c e s s o r  

    C r a y T 3 D p a r a l l e l c o m p u t e r . E a c h p r o c e s s o r o n t h e T 3 D i s  

    a 1 5 0 M h z D e c A l p h a ( E V 4 ) , a n d h a s 6 4 M b y t e s o f m e m o r y .

    T h e p r o c e s s o r s a r e i n t e r c o n n e c t e d v i a a t h r e e d i m e n s i o n a l

    t o r u s n e t w o r k t h a t h a s a p e a k u n i d i r e c t i o n a l b a n d w i d t h o f  

    1 5 0 M b y t e s p e r s e c o n d , a n d a s m a l l l a t e n c y . F o r c o m m u -  

    n i c a t i o n w e u s e d t h e m e s s a g e p a s s i n g i n t e r f a c e ( M P I ) . O u r  

    e x p e r i m e n t s h a v e s h o w n t h a t f o r 1 6 K b y t e s w e o b t a i n a b a n d -  

    w i d t h o f 7 4 M b y t e s / s e c o n d s a n d a n e e c t i v e s t a r t u p t i m e o f  

    1 5 0 m i c r o s e c o n d s .

    W e g e n e r a t e d a s y n t h e t i c d a t a s e t u s i n g a t o o l p r o v i d e d  

    b y P r o 9 6 ] a n d d e s c r i b e d i n A S 9 4 ] . T h e p a r a m e t e r s f o r t h e  

    d a t a s e t c h o s e n a r e a v e r a g e t r a n s a c t i o n l e n g t h o f 1 5 a n d a v -  

    e r a g e s i z e o f f r e q u e n t i t e m s e t s o f 6 . D a t a s e t s w i t h 1 0 0 0  

    t r a n s a c t i o n s ( 6 . 3 K B ) w e r e g e n e r a t e d f o r d i e r e n t p r o c e s s o r s .

    D u e t o t h e d i s k l i m i t a t i o n s o f t h e T 3 D s y s t e m w e h a v e k e p t  

    t h e s m a l l t r a n s a c t i o n s i n t h e b u e r a n d r e a d t h e t r a n s a c -  

    t i o n s f r o m t h e b u e r i n s t e a d o f t h e a c t u a l d i s k s . F o r t h e  

    e x p e r i m e n t s i n v o l v i n g l a r g e r d a t a s e t s , w e r e a d t h e s a m e  

    d a t a s e t m u l t i p l e t i m e s .

    W e p e r f o r m e d s c a l e u p t e s t s w i t h 1 0 0 K t r a n s a c t i o n s p e r  

    p r o c e s s o r a n d m i n i m u m s u p p o r t o f 0 . 2 5 % . W e c o u l d n o t  

    u s e l o w e r m i n i m u m s u p p o r t b e c a u s e t h e   C D  a l g o r i t h m r a n  

    o u t o f m a i n m e m o r y . F o r t h i s e x p e r i m e n t , i n t h e   I D D  a n d 

    H D  a l g o r i t h m s w e h a v e s e t t h e m i n i m u m n u m b e r o f c a n d i -  

    d a t e s f o r s w i t c h i n g t o t h e   C D  a l g o r i t h m v e r y l o w t o s h o w  

    t h e v a l i d i t y o f o u r a p p r o a c h e s . W i t h 0 . 2 5 % s u p p o r t , b o t h  

    a l g o r i t h m s s w i t c h e d t o   C D  a l g o r i t h m i n p a s s 7 o f t o t a l 1 2  

    p a s s e s a n d 9 0 . 7 % o f t h e o v e r a l l r e s p o n s e t i m e o f t h e s e r i a l

    c o d e w a s s p e n t i n t h e r s t 6 p a s s e s . T h e s e s c a l e u p r e s u l t s  

    a r e s h o w n i n F i g u r e 9 .

    A s n o t e d i n A S 9 6 ] , t h e   C D  a l g o r i t h m s c a l e s v e r y w e l l .

    L o o k i n g a t t h e p e r f o r m a n c e o b t a i n e d b y   I D D  , w e s e e t h a t  

    i t s r e s p o n s e t i m e i n c r e a s e s a s w e i n c r e a s e t h e n u m b e r o f  

    p r o c e s s o r s . T h i s i s d u e t o t h e l o a d b a l a n c i n g p r o b l e m d i s -  

    c u s s e d i n S e c t i o n 3 , w h e r e t h e n u m b e r o f c a n d i d a t e s p e r  

    p r o c e s s o r d e c r e a s e s a s t h e n u m b e r o f p r o c e s s o r s i n c r e a s e s .

    H o w e v e r , t h e p e r f o r m a n c e a c h i e v e d b y   I D D  i s m u c h b e t -  

    t e r t h a n t h a t o f t h e   D D  a l g o r i t h m o f A S 9 6 ] . I n p a r t i c u l a r ,

    I D D  h a s 4 . 4 t i m e s l e s s r e s p o n s e t i m e t h a n   D D  o n 3 2 p r o c e s -  

    s o r s . I t c a n b e s e e n t h a t t h e p e r f o r m a n c e g a p b e t w e e n   I D D 

    a n d  D D  i s w i d e n i n g a s t h e n u m b e r o f p r o c e s s o r s i n c r e a s e s .

    T h i s i s d u e t o t h e i m p r o v e m e n t w e m a d e o n   I D D  w i t h t h e  

    W e a l s o p e r f o r m e d s i m i l a r e x p e r i m e n t s o n a n I B M S P 2 i n w h i c h  

    t h e e n t i r e d a t a b a s e r e s i d e d o n d i s k s . O u r e x p e r i m e n t s s h o w t h a t  

    t h e I / O r e q u i r e m e n t s d o n o t c h a n g e t h e r e l a t i v e p e r f o r m a n c e o f t h e  

    v a r i o u s s c h e m e s .

    0

    500

    1000

    1500

    2000

    0 20 40 60 80 100 120 140

       R  e  s  p

      o  n  s  e   t   i  m  e   (  s  e  c .   )

    Number of processors

    countintelligent data

    hybriddata

    F i g u r e 9 : S c a l e u p r e s u l t w i t h 1 0 0 K t r a n s a c t i o n s a n d 0 . 2 5 %  

    m i n i m u m s u p p o r t .

    b e t t e r c o m m u n i c a t i o n m e c h a n i s m f o r d a t a m o v e m e n t s a n d  

    t h e i n t e l l i g e n t p a r t i t i o n i n g o f t h e c a n d i d a t e s e t . L o o k i n g a t  

    t h e p e r f o r m a n c e o f t h e   H D  a l g o r i t h m , w e s e e t h a t r e s p o n s e  

    t i m e r e m a i n s a l m o s t c o n s t a n t a s w e i n c r e a s e t h e n u m b e r o f  

    p r o c e s s o r s w h i l e k e e p i n g t h e n u m b e r o f t r a n s a c t i o n s p e r p r o -  

    c e s s o r a n d t h e m i n i m u m s u p p o r t x e d . C o m p a r i n g a g a i n s t  

    C D  , w e s e e t h a t   H D  a c t u a l l y p e r f o r m s b e t t e r a s t h e n u m b e r  

    o f p r o c e s s o r s i n c r e a s e s . I t s p e r f o r m a n c e o n 1 2 8 p r o c e s s o r s  

    i s 9 . 5 % b e t t e r t h a n   C D  . T h i s p e r f o r m a n c e a d v a n t a g e o f   H D 

    o v e r   C D  i s d u e t o t h a t t h e n u m b e r o f p r o c e s s o r s i n v o l v e d  

    i n g l o b a l r e d u c t i o n o p e r a t i o n o f c o u n t s i s m u c h l e s s i n   H D 

    t h a n i n   C D 

    W e m e a s u r e d h o w o u r a l g o r i t h m s p e r f o r m a s w e i n c r e a s e  

    t h e n u m b e r o f t r a n s a c t i o n s p e r p r o c e s s o r f r o m 5 0 K ( 3 . 2 M B )  

    t o 8 0 0 K ( 5 0 . 4 M B ) . F o r t h e s e e x p e r i m e n t s , w e x e d t h e n u m -  

    b e r o f p r o c e s s o r s a t 1 6 a n d t h e m i n i m u m s u p p o r t a t 0 . 2 5 % .

    T h e s e r e s u l t s a r e s h o w n i n F i g u r e 1 0 . F r o m t h i s g u r e , w e  

    c a n s e e t h a t   C D  a n d  H D  p e r f o r m a l m o s t i d e n t i c a l l y . F o r  

    b o t h a l g o r i t h m s , t h e r e s p o n s e t i m e i n c r e a s e s l i n e a r l y w i t h  

    t h e n u m b e r o f t r a n s a c t i o n s . I D D  a l s o s c a l e s l i n e a r l y , b u t  

    b e c a u s e o f i t s l o a d i m b a l a n c e p r o b l e m , i t s p e r f o r m a n c e i s  

    s o m e w h a t w o r s e .

    O u r e x p e r i m e n t s s o f a r h a v e s h o w n t h a t t h e p e r f o r m a n c e  

    o f  H D  a n d  C D  a r e q u i t e c o m p a r a b l e . H o w e v e r , t h e r e a l

    a d v a n t a g e o f   H D  ( a n d   I D D  ) o v e r   C D  i s t h a t t h e y d o n o t  

    r e q u i r e t h e w h o l e h a s h t r e e t o r e s i d e o n e a c h p r o c e s s o r , a n d  

    t h u s b e t t e r e x p l o i t t h e a v a i l a b l e m e m o r y . T h i s a l l o w s u s t o  

    u s e a s m a l l e r m i n i m u m s u p p o r t i n t h e   A p r i o r i   a l g o r i t h m .

    T o v e r i f y t h i s , w e p e r f o r m e d t h e e x p e r i m e n t s i n w h i c h w e  

    x e d t h e n u m b e r o f t r a n s a c t i o n s p e r p r o c e s s o r t o 5 0 K a n d  

    s u c c e s s i v e l y d e c r e a s e d t h e m i n i m u m s u p p o r t l e v e l . T h e s e  

    e x p e r i m e n t s f o r 1 6 a n d 6 4 p r o c e s s o r s a r e s h o w n i n F i g u r e s 1 1  

    a n d 1 2 r e s p e c t i v e l y . A c o u p l e o f i n t e r e s t i n g o b s e r v a t i o n s  

    c a n b e m a d e f r o m t h e s e r e s u l t s . F i r s t , b o t h   I D D  a n d  H D 

    s u c c e s s f u l l y r a n u s i n g l o w e r s u p p o r t l e v e l s t h a t   C D  c o u l d n o t  

    r u n w i t h . I n p a r t i c u l a r , I D D  a n d  H D  r a n d o w n t o a s u p p o r t  

    l e v e l o f 0 . 0 6 % o n 1 6 p r o c e s s o r s a n d 0 . 0 4 % o n 6 4 p r o c e s s o r s .

    I n c o n t r a s t , C D  c o u l d o n l y r u n d o w n t o a s u p p o r t l e v e l o f  

    0 . 2 5 % a n d r a n o u t o f m e m o r y f o r t h e l o w e r s u p p o r t s . T h e  

    d i e r e n c e b e t w e e n t h e s m a l l e r s u p p o r t l e v e l s o n 1 6 a n d 6 4  

    p r o c e s s o r s i s d u e t o t h e f a c t t h a t t h e   I D D  a n d  H D  a l g o r i t h m s  

    c a n e x p l o i t t h e a g g r e g a t e m e m o r y o f t h e l a r g e r n u m b e r o f  

    p r o c e s s o r s .

  • 8/19/2019 Assoc Parallel

    10/12

    0

    500

    1000

    1500

    2000

    2500

    3000

    0 200 400 600 800 1000

       R  e  s  p

      o  n  s  e   t   i  m  e   (  s  e  c .   )

    Number of transactions per processor (K)

    countintelligent data

    hybrid

    F i g u r e 1 0 : S i z e u p r e s u l t w i t h 1 6 p r o c e s s o r s a n d 0 . 2 5 % m i n -  

    i m u m s u p p o r t .

    T h e s e c o n d t h i n g t o n o t i c e i s t h a t   H D  p e r f o r m s b e t t e r  

    t h a n   I D D  b o t h o n 1 6 a n d 6 4 p r o c e s s o r s , a n d t h e r e l a t i v e p e r -  

    f o r m a n c e o f  I D D  c o m p a r e d t o   H D  g e t w o r s e a s t h e n u m b e r o f  

    p r o c e s s o r s i n c r e a s e s . A s d i s c u s s e d e a r l i e r , t h i s p e r f o r m a n c e  

    d i e r e n c e i s d u e t o t h e l o a d i m b a l a n c e . A s t h e n u m b e r o f  

    p r o c e s s o r s i n c r e a s e s , t h i s l o a d i m b a l a n c e g e t s w o r s e . H o w -  

    e v e r , o n 1 6 p r o c e s s o r s   I D D  i s 3 7 % w o r s e t h a n   H D  f o r s u p -  

    p o r t l e v e l 0 . 2 5 % , b u t o n l y 1 8 % w o r s e f o r s u p p o r t o f 0 . 0 6 % .

    T h i s i s b e c a u s e a s t h e s u p p o r t l e v e l d e c r e a s e s , t h e n u m b e r  

    o f c a n d i d a t e s ( s h o w n i n p a r e n t h e s i s i n F i g u r e s 1 1 a n d 1 2 )  

    i n c r e a s e s w h i c h i m p r o v e s t h e l o a d b a l a n c e .

    F i g u r e s 1 1 a n d 1 2 a l s o s h o w t h e p e r f o r m a n c e o f a s i m -  

    p l e h y b r i d a l g o r i t h m o b t a i n e d b y c o m b i n i n g   C D  a n d  I D D 

    I n t h i s s c h e m e , i n e a c h p a s s o f t h e   A p r i o r i   a l g o r i t h m , w e  

    p e r f o r m   C D  i f t h e h a s h t a b l e c a n t i n t h e m e m o r y o f e a c h  

    p r o c e s s o r s o r   I D D  i f i t c a n n o t . A s w e c a n s e e f r o m t h e s e r e -  

    s u l t s , t h i s s i m p l e h y b r i d a l g o r i t h m p e r f o r m s w o r s e t h a n   H D 

    I n p a r t i c u l a r , t h e r e l a t i v e p e r f o r m a n c e o f t h i s s c h e m e c o m -  

    p a r e t o   H D  g e t s w o r s e a s t h e n u m b e r o f p r o c e s s o r s i n c r e a s e s .

    F o r e x a m p l e , f o r a s u p p o r t l e v e l o f 0 . 0 6 % , i t i s 6 % w o r s e o n  

    1 6 p r o c e s s o r s a n d 1 7 % w o r s e o n 6 4 p r o c e s s o r s . T h u s t h e  

    H D  a l g o r i t h m , b y g r a d u a l l y a d j u s t i n g t h e s u b s e t s o f p r o c e s -  

    s o r s t h a t p e r f o r m   I D D  a n d  C D  , a c h i e v e s b e t t e r p e r f o r m a n c e .

    T h i s i s b e c a u s e o f t h e f o l l o w i n g t w o r e a s o n s . F i r s t , t h e c a n -  

    d i d a t e s e t i s s p l i t a m o n g f e w e r n u m b e r o f p r o c e s s o r s w h i c h  

    m i n i m i z e s l o a d i m b a l a n c e a n d s e c o n d , t h e r e d u c t i o n o p e r a -  

    t i o n t o o b t a i n t h e c o u n t s i n   C D  i s p e r f o r m e d a m o n g f e w e r  

    p r o c e s s o r s , w h i c h d e c r e a s e s t h e c o m m u n i c a t i o n o v e r h e a d .

    I n a n o t h e r e x p e r i m e n t , w e v a r i e d t h e n u m b e r o f p r o c e s -  

    s o r s f r o m 2 t o 6 4 a n d m e a s u r e d h o w l o w w e c a n g o w i t h  

    m i n i m u m s u p p o r t f o r t h e   I D D  a n d  H D  a l g o r i t h m s . T a b l e 1  

    s h o w s t h e r e s u l t f o r t h e s e a l g o r i t h m s . T h e r e s u l t s h o w s t h a t  

    a s w e h a v e m o r e p r o c e s s o r s , t h e s e a l g o r i t h m s c a n h a n d l e  

    l o w e r m i n i m u m s u p p o r t . T a b l e 2 s h o w s h o w t h e   H D  a l g o -  

    r i t h m c h o s e t h e p r o c e s s o r c o n g u r a t i o n b a s e d o n t h e n u m -  

    b e r o f c a n d i d a t e s a t e a c h p a s s w i t h 6 4 p r o c e s s o r s a n d 0 . 0 4 %  

    m i n i m u m s u p p o r t .

    5 C o n c l u s i o n  

    I n t h i s p a p e r , w e p r o p o s e d t w o p a r a l l e l a l g o r i t h m s f o r m i n -  

    i n g a s s o c i a t i o n r u l e s . T h e   I D D  a l g o r i t h m u t i l i z e s t o t a l m a i n  

    m e m o r y a v a i l a b l e m o r e e e c t i v e l y t h a n t h e   C D  a l g o r i t h m .

    0

    50

    100

    150

    200

    250

    300

    350

    400

    450

    500

    0.5 0.25 0.1 0.06

       R  e  s  p  o  n  s  e   t   i  m  e   (  s  e  c .   )

    Minimum support (%)

    (211 K)

    (345 K)

    (1083 K)

    (2408 K)

    countintelligent data

    hybridsimple hybrid

    F i g u r e 1 1 : R e s p o n s e t i m e o n 1 6 p r o c e s s o r s w i t h 5 0 K t r a n s -  

    a c t i o n s a s t h e m i n i m u m s u p p o r t v a r i e s . A t e a c h s u p p o r t  

    l e v e l , t h e t o t a l n u m b e r o f c a n d i d a t e i t e m - s e t s i s s h o w n i n  

    p a r e n t h e s i s  

    0

    200

    400

    600

    800

    1000

    1200

    0.5 0.25 0.1 0.060.04

       R  e  s  p  o  n  s  e   t   i  m  e   (  s  e  c .   )

    Minimum support (%)

    (211 K)

    (345 K)

    (1083 K)

    (2408 K)

    (5232 K)

    countintelligent data

    hybridsimple hybrid

    0

    200

    400

    600

    800

    1000

    1200

    0.5 0.25 0.1 0.060.04

       R  e  s  p  o  n  s  e   t   i  m  e   (  s  e  c .   )

    Minimum support (%)

    (211 K)

    (345 K)

    (1083 K)

    (2408 K)

    (5232 K)

    countintelligent data

    hybridsimple hybrid

    F i g u r e 1 2 : R e s p o n s e t i m e o n 6 4 p r o c e s s o r s w i t h 5 0 K t r a n s -  

    a c t i o n s a s t h e m i n i m u m s u p p o r t v a r i e s . A t e a c h s u p p o r t  

    l e v e l , t h e t o t a l n u m b e r o f c a n d i d a t e i t e m - s e t s i s s h o w n i n  

    p a r e n t h e s i s  

  • 8/19/2019 Assoc Parallel

    11/12

    N u m b e r o f p r o c e s s o r s 1 2 4 8 1 6 3 2 6 4  

    S u c c e s s f u l d o w n t o 0 . 2 5 0 . 2 0 . 1 5 0 . 1 0 . 0 6 0 . 0 4 0 . 0 3  

    R a n o u t o f m e m o r y a t 0 . 2 0 . 1 5 0 . 1 0 . 0 6 0 . 0 4 0 . 0 3 0 . 0 2  

    T a b l e 1 : M i n i m u m s u p p o r t ( % ) r e a c h a b l e w i t h d i e r e n t n u m b e r o f p r o c e s s o r s i n o u r a l g o r i t h m s .

    P a s s 2 3 4 5 6 7 8 9 1 0  

    C o n g u r a t i o n 8     8 6 4    1 4    1 6 2    3 2 2    3 2 2    3 2 2    3 2 2    3 2 1    6 4 

    N o o f C a n d . 3 5 1 K 4 3 4 8 K 1 1 5 K 7 6 K 5 6 K 3 4 K 1 6 K 6 K 2 K  

    T a b l e 2 : P r o c e s s o r c o n g u r a t i o n a n d n u m b e r o f c a n d i d a t e s o f t h e   H D  a l g o r i t h m w i t h 6 4 p r o c e s s o r s a n d 0 . 0 4 % m i n i m u m  

    s u p p o r t f o r e a c h p a s s . N o t e t h a t 6 4     1 c o n g u r a t i o n i s t h e s a m e a s t h e   D D  a l g o r i t h m a n d 1     6 4 i s t h e s a m e a s t h e   C D 

    a l g o r i t h m . T h e t o t a l n u m b e r o f p a s s w a s 1 3 a n d a l l p a s s e s a f t e r 9 h a d 1     6 4 c o n g u r a t i o n .

    T h i s a l g o r i t h m s i m p r o v e s o v e r t h e   D D  a l g o r i t h m w h i c h h a s  

    h i g h c o m m u n i c a t i o n o v e r h e a d a n d r e d u n d a n t w o r k . T h e  

    c o m m u n i c a t i o n o v e r h e a d w a s r e d u c e d u s i n g a b e t t e r d a t a  

    m o v e m e n t c o m m u n i c a t i o n m e c h a n i s m , a n d r e d u n d a n t w o r k  

    w a s r e d u c e d b y p a r t i t i o n i n g t h e c a n d i d a t e s e t i n t e l l i g e n t l y  

    a n d u s i n g b i t m a p s t o p r u n e a w a y u n n e c e s s a r y c o m p u t a t i o n .

    H o w e v e r , a s t h e n u m b e r o f p r o c e s s o r s a v a i l a b l e i n c r e a s e s , t h e  

    e c i e n c y o f t h i s a l g o r i t h m d e c r e a s e s u n l e s s t h e a m o u n t o f  

    w o r k i s i n c r e a s e d b y h a v i n g m o r e n u m b e r o f c a n d i d a t e s .

    T h e  H D  c o m b i n e s a d v a n t a g e s o f t h e   C D  a n d  I D D  . T h i s  

    a l g o r i t h m p a r t i t i o n s c a n d i d a t e s e t s j u s t l i k e t h e   I D D  t o e x -  

    p l o i t t h e a g g r e g a t e m a i n m e m o r y , b u t d y n a m i c a l l y d e t e r -  

    m i n e s t h e n u m b e r o f p a r t i t i o n s s u c h t h a t t h e p a r t i t i o n e d  

    c a n d i d a t e s e t t s i n t o t h e m a i n m e m o r y o f e a c h p r o c e s s o r  

    a n d e a c h p r o c e s s o r h a s e n o u g h n u m b e r o f c a n d i d a t e s f o r  

    c o m p u t a t i o n . I t a l s o e x p l o i t s t h e a d v a n t a g e o f t h e   C D  b y 

     j u s t e x c h a n g i n g c o u n t s i n f o r m a t i o n a n d m o v i n g a r o u n d t h e 

    m i n i m u m n u m b e r o f t r a n s a c t i o n s a m o n g t h e s m a l l e r s u b s e t  

    o f p r o c e s s o r s .

    T h e e x p e r i m e n t a l r e s u l t s o n a 1 2 8 - p r o c e s s o r C r a y T 3 D  

    p a r a l l e l m a c h i n e s h o w t h a t t h e   H D  a l g o r i t h m s c a l e s j u s t a s  

    w e l l a s t h e   C D  a l g o r i t h m w i t h r e s p e c t t o t h e n u m b e r o f  

    t r a n s a c t i o n s . I t a l s o e x p l o i t s t h e a g g r e g a t e m a i n m e m o r y  

    b e t t e r a n d t h u s i s a b l e t o n d o u t m o r e a s s o c i a t i o n r u l e s  

    w i t h m u c h s m a l l e r m i n i m u m s u p p o r t w i t h a s i n g l e s c a n o f  

    d a t a b a s e p e r p a s s . T h e   I D D  a l g o r i t h m a l s o o u t p e r f o r m s t h e  

    D D  a l g o r i t h m , b u t i s n o t a s s c a l a b l e a s   H D  a n d  C D 

    F u t u r e w o r k s i n c l u d e a p p l y i n g t h e s e a l g o r i t h m s t o r e a l

    d a t a l i k e r e t a i l s a l e s t r a n s a c t i o n , m a i l o r d e r h i s t o r y d a t a b a s e  

    a n d W o r l d W i d e W e b s e r v e r l o g s M J H S 9 6 ] t o c o n r m t h e  

    e x p e r i m e n t a l r e s u l t s i n t h e r e a l l i f e d o m a i n . W e p l a n t o  

    p e r f o r m e x p e r i m e n t s o n d i e r e n t p l a t f o r m s i n c l u d i n g C r a y  

    T 3 E , I B M S P 2 a n d S G I S M P c l u s t e r s . W e a l s o p l a n o n i m -  

    p l e m e n t i n g o u r i d e a s i n g e n e r a l i z e d a s s o c i a t i o n r u l e s H F 9 5 ,

    S A 9 5 ] , a n d s e q u e n t i a l p a t t e r n s M T V 9 5 , S A 9 6 ] .

    R e f e r e n c e s  

    A I S 9 3 ] R . A g r a w a l , T . I m i e l i n s k i , a n d A . S w a m i . M i n -  

    i n g a s s o c i a t i o n r u l e s b e t w e e n s e t s o f i t e m s  

    i n l a r g e d a t a b a s e s . I n   P r o c . o f 1 9 9 3 A C M -  

    S I G M O D I n t . C o n f . o n M a n a g e m e n t o f D a t a  ,

    W a s h i n g t o n , D . C . , 1 9 9 3 .

    A S 9 4 ] R . A g r a w a l a n d R . S r i k a n t . F a s t a l g o r i t h m s  

    f o r m i n i n g a s s o c i a t i o n r u l e s . I n   P r o c . o f t h e  

    2 0 t h V L D B C o n f e r e n c e  , p a g e s 4 8 7 { 4 9 9 , S a n t i -  

    a g o , C h i l e , 1 9 9 4 .

    A S 9 6 ] R . A g r a w a l a n d J . C . S h a f e r . P a r a l l e l m i n i n g o f  

    a s s o c i a t i o n r u l e s . I E E E T r a n s a c t i o n s o n K n o w l -  

    e d g e a n d D a t a E n g . , 8 ( 6 ) : 9 6 2 { 9 6 9 , D e c e m b e r  

    1 9 9 6 .

    H F 9 5 ] J . H a n a n d Y . F u . D i s c o v e r y o f m u l t i p l e { l e v e l

    a s s o c i a t i o n r u l e s f r o m l a r g e d a t a b a s e s . I n   P r o c .

    o f t h e 2 1 s t V L D B C o n f e r e n c e  , Z u r i c h , S w i t z e r -  

    l a n d , 1 9 9 5 .

    H K K 9 7 ] E . H . H a n , G . K a r y p i s , a n d V . K u m a r . S c a l a b l e  

    p a r a l l e l d a t a m i n i n g f o r a s s o c i a t i o n r u l e s . T e c h -  

    n i c a l R e p o r t T R - 9 7 - ? ? , D e p a r t m e n t o f C o m -  

    p u t e r S c i e n c e , U n i v e r s i t y o f M i n n e s o t a , M i n -  

    n e a p o l i s , 1 9 9 7 .

    H S 9 5 ] M . A . W . H o u t s m a a n d A . N . S w a m i . S e t -  

    o r i e n t e d m i n i n g f o r a s s o c i a t i o n r u l e s i n r e l a -  

    t i o n a l d a t a b a s e s . I n   P r o c . o f t h e 1 1 t h I n t ' l C o n f .

    o n D a t a E n g . , p a g e s 2 5 { 3 3 , T a i p e i , T a i w a n ,

    1 9 9 5 .

    K G G K 9 4 ] V i p i n K u m a r , A n a n t h G r a m a , A n s h u l G u p t a ,

    a n d G e o r g e K a r y p i s . I n t r o d u c t i o n t o P a r a l -  

    l e l C o m p u t i n g : A l g o r i t h m D e s i g n a n d A n a l y s i s  

    B e n j a m i n C u m m i n g s / A d d i s o n W e s l e y , R e d w o d  

    C i t y , 1 9 9 4 .

    M J H S 9 6 ] B . M o b a s h e r , N . J a i n , E . H . H a n , a n d J . S r i -  

    v a s t a v a . W e b m i n i n g : P a t t e r n d i s c o v e r y f r o m  

    w o r l d w i d e w e b t r a n s a c t i o n s . T e c h n i c a l R e p o r t  

    T R - 9 6 - 0 5 0 , D e p a r t m e n t o f C o m p u t e r S c i e n c e ,

    U n i v e r s i t y o f M i n n e s o t a , M i n n e a p o l i s , 1 9 9 6 .

    M T V 9 5 ] H . M a n n i l a , H . T o i v o n e n , a n d A . I . V e r k a m o .

    D i s c o v e r i n g f r e q u e n t e p i s o d e s i n s e q u e n c e s . I n  

    P r o c . o f t h e F i r s t I n t ' l C o n f e r e n c e o n K n o w l -  

    e d g e D i s c o v e r y a n d D a t a M i n i n g  , p a g e s 2 1 0 { 2 1 5 ,

    M o n t r e a l , Q u e b e c , 1 9 9 5 .

    P r o 9 6 ] I B M Q u e s t D a t a M i n i n g P r o j e c t . Q u e s t s y n -  

    t h e t i c d a t a g e n e r a t i o n c o d e .

    h t t p : / / w w w . a l m a d e n . i b m . c o m / c s / q u e s t / s y n d a t a . h t m

    1 9 9 6 .

    P S 8 2 ] C . H . P a p a d i m i t r i o u a n d K . S t e i g l i t z . C o m b i n a -  

    t o r i a l O p t i m i z a t i o n : A l g o r i t h m s a n d C o m p l e x -  

    i t y  . P r e n t i c e - H a l l , E n g l e w o o d C l i s , N J , 1 9 8 2 .

  • 8/19/2019 Assoc Parallel

    12/12

    S A 9 5 ] R . S r i k a n t a n d R . A g r a w a l . M i n i n g g e n e r a l i z e d  

    a s s o c i a t i o n r u l e s . I n   P r o c . o f t h e 2 1 s t V L D B  

    C o n f e r e n c e  , p a g e s 4 0 7 { 4 1 9 , Z u r i c h , S w i t z e r l a n d ,

    1 9 9 5 .

    S A 9 6 ] R . S r i k a n t a n d R . A g r a w a l . M i n i n g s e q u e n t i a l

    p a t t e r n s : G e n e r a l i z a t i o n s a n d p e r f o r m a n c e i m -  

    p r o v e m e n t s . I n   P r o c . o f t h e F i f t h I n t ' l C o n -  

     f e r e n c e o n E x t e n d i n g D a t a b a s e T e c h n o l o g y  , A v i -  

    g n o n , F r a n c e , 1 9 9 6 .

    S A D  

    9 3 ] M . S t o n e b r a k e r , R . A g r a w a l , U . D a y a l , E . J .

    N e u h o l d , a n d A . R e u t e r . D B M S r e s e a r c h a t a  

    c r o s s r o a d s : T h e v i e n n a u p d a t e . I n   P r o c . o f t h e  

    1 9 t h V L D B C o n f e r e n c e  , p a g e s 6 8 8 { 6 9 2 , D u b l i n ,

    I r e l a n d , 1 9 9 3 .

    S O N 9 5 ] A . S a v a s e r e , E . O m i e c i n s k i , a n d S . N a v a t h e . A n  

    e c i e n t a l g o r i t h m f o r m i n i n g a s s o c i a t i o n r u l e s  

    i n l a r g e d a t a b a s e s . I n   P r o c . o f t h e 2 1 s t V L D B  

    C o n f e r e n c e  , p a g e s 4 3 2 { 4 4 3 , Z u r i c h , S w i t z e r l a n d ,

    1 9 9 5 .