using linear algebra for information retrieval

Upload: simon-wistow

Post on 30-May-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    1/24

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    2/24

    U S I N G L I N E A R A L G E B R A F O R I N T E L L I G E N T

    I N F O R M A T I O N R E T R I E V A L

    M I C H A E L W . B E R R Y

    y

    , S U S A N T . D U M A I S

    z

    A N D G A V I N W . O ' B R I E N

    x

    A b s t r a c t . C u r r e n t l y , m o s t a p p r o a c h e s t o r e t r i e v i n g t e x t u a l m a t e r i a l s f r o m s c i e n t i c d a t a b a s e s

    d e p e n d o n a l e x i c a l m a t c h b e t w e e n w o r d s i n u s e r s ' r e q u e s t s a n d t h o s e i n o r a s s i g n e d t o d o c u m e n t s i n a

    d a t a b a s e . B e c a u s e o f t h e t r e m e n d o u s d i v e r s i t y i n t h e w o r d s p e o p l e u s e t o d e s c r i b e t h e s a m e d o c u m e n t ,

    l e x i c a l m e t h o d s a r e n e c e s s a r i l y i n c o m p l e t e a n d i m p r e c i s e . U s i n g t h e s i n g u l a r v a l u e d e c o m p o s i t i o n

    ( S V D ) , o n e c a n t a k e a d v a n t a g e o f t h e i m p l i c i t h i g h e r - o r d e r s t r u c t u r e i n t h e a s s o c i a t i o n o f t e r m s w i t h

    d o c u m e n t s b y d e t e r m i n i n g t h e S V D o f l a r g e s p a r s e t e r m b y d o c u m e n t m a t r i c e s . T e r m s a n d d o c u m e n t s

    r e p r e s e n t e d b y 2 0 0 - 3 0 0 o f t h e l a r g e s t s i n g u l a r v e c t o r s a r e t h e n m a t c h e d a g a i n s t u s e r q u e r i e s . W e c a l l

    t h i s r e t r i e v a l m e t h o d L a t e n t S e m a n t i c I n d e x i n g ( L S I ) b e c a u s e t h e s u b s p a c e r e p r e s e n t s i m p o r t a n t

    a s s o c i a t i v e r e l a t i o n s h i p s b e t w e e n t e r m s a n d d o c u m e n t s t h a t a r e n o t e v i d e n t i n i n d i v i d u a l d o c u m e n t s .

    L S I i s a c o m p l e t e l y a u t o m a t i c y e t i n t e l l i g e n t i n d e x i n g m e t h o d , w i d e l y a p p l i c a b l e , a n d a p r o m i s i n g

    w a y t o i m p r o v e u s e r s ' a c c e s s t o m a n y k i n d s o f t e x t u a l m a t e r i a l s , o r t o d o c u m e n t s a n d s e r v i c e s f o r

    w h i c h t e x t u a l d e s c r i p t i o n s a r e a v a i l a b l e . A s u r v e y o f t h e c o m p u t a t i o n a l r e q u i r e m e n t s f o r m a n a g i n g

    L S I - e n c o d e d d a t a b a s e s a s w e l l a s c u r r e n t a n d f u t u r e a p p l i c a t i o n s o f L S I i s p r e s e n t e d .

    K e y w o r d s . i n d e x i n g , i n f o r m a t i o n , l a t e n t , m a t r i c e s , r e t r i e v a l , s e m a n t i c , s i n g u l a r v a l u e

    d e c o m p o s i t i o n , s p a r s e , u p d a t i n g

    A M S ( M O S ) s u b j e c t c l a s s i c a t i o n s . 1 5 A 1 8 , 1 5 A 4 8 , 6 5 F 1 5 , 6 5 F 5 0 , 6 8 P 2 0

    1 . I n t r o d u c t i o n . T y p i c a l l y , i n f o r m a t i o n i s r e t r i e v e d b y l i t e r a l l y m a t c h i n g t e r m s i n d o c u m e n t s

    w i t h t h o s e o f a q u e r y . H o w e v e r , l e x i c a l m a t c h i n g m e t h o d s c a n b e i n a c c u r a t e w h e n t h e y a r e u s e d t o

    m a t c h a u s e r ' s q u e r y . S i n c e t h e r e a r e u s u a l l y m a n y w a y s t o e x p r e s s a g i v e n c o n c e p t ( s y n o n y m y ) , t h e

    l i t e r a l t e r m s i n a u s e r ' s q u e r y m a y n o t m a t c h t h o s e o f a r e l e v a n t d o c u m e n t . I n a d d i t i o n , m o s t w o r d s

    h a v e m u l t i p l e m e a n i n g s ( p o l y s e m y ) , s o t e r m s i n a u s e r ' s q u e r y w i l l l i t e r a l l y m a t c h t e r m s i n i r r e l e v a n t

    d o c u m e n t s . A b e t t e r a p p r o a c h w o u l d a l l o w u s e r s t o r e t r i e v e i n f o r m a t i o n o n t h e b a s i s o f a c o n c e p t u a l

    t o p i c o r m e a n i n g o f a d o c u m e n t .

    L a t e n t S e m a n t i c I n d e x i n g ( L S I ) 4 ] t r i e s t o o v e r c o m e t h e p r o b l e m s o f l e x i c a l m a t c h i n g b y u s i n g

    s t a t i s t i c a l l y d e r i v e d c o n c e p t u a l i n d i c e s i n s t e a d o f i n d i v i d u a l w o r d s f o r r e t r i e v a l . L S I a s s u m e s t h a t

    t h e r e i s s o m e u n d e r l y i n g o r l a t e n t s t r u c t u r e i n w o r d u s a g e t h a t i s p a r t i a l l y o b s c u r e d b y v a r i a b i l i t y i n

    w o r d c h o i c e . A t r u n c a t e d s i n g u l a r v a l u e d e c o m p o s i t i o n ( S V D ) 1 4 ] i s u s e d t o e s t i m a t e t h e s t r u c t u r e i n

    w o r d u s a g e a c r o s s d o c u m e n t s . R e t r i e v a l i s t h e n p e r f o r m e d u s i n g t h e d a t a b a s e o f s i n g u l a r v a l u e s a n d

    v e c t o r s o b t a i n e d f r o m t h e t r u n c a t e d S V D . P e r f o r m a n c e d a t a s h o w s t h a t t h e s e s t a t i s t i c a l l y d e r i v e d

    v e c t o r s a r e m o r e r o b u s t i n d i c a t o r s o f m e a n i n g t h a n i n d i v i d u a l t e r m s . A n u m b e r o f s o f t w a r e t o o l s h a v e

    b e e n d e v e l o p e d t o p e r f o r m o p e r a t i o n s s u c h a s p a r s i n g d o c u m e n t t e x t s , c r e a t i n g a t e r m b y d o c u m e n t

    m a t r i x , c o m p u t i n g t h e t r u n c a t e d S V D o f t h i s m a t r i x , c r e a t i n g t h e L S I d a t a b a s e o f s i n g u l a r v a l u e s a n d

    v e c t o r s f o r r e t r i e v a l , m a t c h i n g u s e r q u e r i e s t o d o c u m e n t s , a n d a d d i n g n e w t e r m s o r d o c u m e n t s t o a n

    e x i s t i n g L S I d a t a b a s e s 4 , 2 3 ] . T h e b u l k o f L S I p r o c e s s i n g t i m e i s s p e n t i n c o m p u t i n g t h e t r u n c a t e d

    S V D o f t h e l a r g e s p a r s e t e r m b y d o c u m e n t m a t r i c e s .

    S e c t i o n 2 i s a r e v i e w o f b a s i c c o n c e p t s n e e d e d t o u n d e r s t a n d L S I . S e c t i o n 3 u s e s a c o n s t r u c t i v e

    e x a m p l e t o i l l u s t r a t e h o w L S I r e p r e s e n t s t e r m s a n d d o c u m e n t s i n t h e s a m e s e m a n t i c s p a c e , h o w

    a q u e r y i s r e p r e s e n t e d , h o w a d d i t i o n a l d o c u m e n t s a r e a d d e d ( o r f o l d e d - i n ) , a n d h o w S V D - u p d a t i n g

    r e p r e s e n t s a d d i t i o n a l d o c u m e n t s . I n S e c t i o n 4 , a n a l g o r i t h m f o r S V D - u p d a t i n g i s d i s c u s s e d a l o n g w i t h

    a c o m p a r i s o n t o t h e f o l d i n g - i n p r o c e s s w i t h r e g a r d t o r o b u s t n e s s o f q u e r y m a t c h i n g a n d c o m p u t a t i o n a l

    c o m p l e x i t y . S e c t i o n 5 s u r v e y s p r o m i s i n g a p p l i c a t i o n s o f L S I a l o n g w i t h p a r a m e t e r e s t i m a t i o n p r o b l e m s

    t h a t a r i s e w i t h i t s u s e .

    T h i s r e s e a r c h w a s s u p p o r t e d b y t h e N a t i o n a l S c i e n c e F o u n d a t i o n u n d e r g r a n t N o s . N S F - C D A -

    9 1 1 5 4 2 8 a n d N S F - A S C - 9 2 - 0 3 0 0 4 . S u b m i t t e d t o S I A M R e v i e w

    y

    D e p a r t m e n t o f C o m p u t e r S c i e n c e , 1 0 7 A y r e s H a l l , U n i v e r s i t y o f T e n n e s s e e , K n o x v i l l e , T N 3 7 9 9 6 -

    1 3 0 1 , b e r r y @ c s . u t k . e d u

    z

    I n f o r m a t i o n S c i e n c e R e s e a r c h G r o u p , B e l l c o r e , 4 4 5 S o u t h S t r e e t , R o o m 2 L - 3 7 1 , M o r r i s t o w n , N J

    0 7 9 6 2 - 1 9 1 0 , s t d @ b e l l c o r e . c o m

    x

    D e p a r t m e n t o f C o m p u t e r S c i e n c e , 1 0 7 A y r e s H a l l , U n i v e r s i t y o f T e n n e s s e e , K n o x v i l l e , T N 3 7 9 9 6 -

    1 3 0 1 , o b r i e n @ c s . u t k . e d u

    2

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    3/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 3

    2 . B a c k g r o u n d . T h e s i n g u l a r v a l u e d e c o m p o s i t i o n i s c o m m o n l y u s e d i n t h e s o l u t i o n o f u n c o n -

    s t r a i n e d l i n e a r l e a s t s q u a r e s p r o b l e m s , m a t r i x r a n k e s t i m a t i o n , a n d c a n o n i c a l c o r r e l a t i o n a n a l y s i s 2 ] .

    G i v e n a n m n m a t r i x A , w h e r e w i t h o u t l o s s o f g e n e r a l i t y m n a n d r a n k ( A ) = r , t h e s i n g u l a r

    v a l u e d e c o m p o s i t i o n o f A , d e n o t e d b y S V D ( A ) , i s d e n e d a s

    A = U V

    T

    ( 1 )

    w h e r e U

    T

    U = V

    T

    V = I

    n

    a n d = d i a g (

    1

    n

    ) > 0 f o r 1 i r

    j

    = 0 f o r j r + 1 . T h e

    r s t r c o l u m n s o f t h e o r t h o g o n a l m a t r i c e s U a n d V d e n e t h e o r t h o n o r m a l e i g e n v e c t o r s a s s o c i a t e d

    w i t h t h e r n o n z e r o e i g e n v a l u e s o f A A

    T

    a n d A

    T

    A , r e s p e c t i v e l y . T h e c o l u m n s o f U a n d V a r e r e f e r r e d

    t o a s t h e l e f t a n d r i g h t s i n g u l a r v e c t o r s , r e s p e c t i v e l y , a n d t h e s i n g u l a r v a l u e s o f A a r e d e n e d a s t h e

    d i a g o n a l e l e m e n t s o f w h i c h a r e t h e n o n n e g a t i v e s q u a r e r o o t s o f t h e n e i g e n v a l u e s o f A A

    T

    1 4 ] .

    T h e f o l l o w i n g t w o t h e o r e m s i l l u s t r a t e h o w t h e S V D c a n r e v e a l i m p o r t a n t i n f o r m a t i o n a b o u t t h e

    s t r u c t u r e o f a m a t r i x .

    T h e o r e m 2 . 1 . L e t t h e S V D o f A b e g i v e n b y E q u a t i o n ( 1 ) a n d

    1

    2

    r

    >

    r + 1

    = =

    n

    = 0

    a n d l e t R ( A ) a n d N ( A ) d e n o t e t h e r a n g e a n d n u l l s p a c e o f A , r e s p e c t i v e l y .

    T h e n ,

    1 . r a n k p r o p e r t y : r a n k ( A ) = r N ( A ) s p a n f v

    r + 1

    v

    n

    g , a n d

    R ( A ) s p a n f u

    1

    u

    r

    g , w h e r e U = u

    1

    u

    2

    u

    m

    a n d V = v

    1

    v

    2

    v

    n

    2 . d y a d i c d e c o m p o s i t i o n : A =

    r

    X

    = 1

    u v

    T

    3 . n o r m s : k A k

    2

    F

    =

    2

    1

    + +

    2

    r

    , a n d k A k

    2

    2

    =

    1

    P r o o f . S e e 1 4 ] .

    T h e o r e m 2 . 2 . E c k a r t a n d Y o u n g ] L e t t h e S V D o f A b e g i v e n b y E q u a t i o n ( 1 ) w i t h r = r a n k ( A )

    p = m i n ( m n ) a n d d e n e

    A

    k

    =

    k

    X

    = 1

    u v

    T

    ( 2 )

    t h e n

    m n

    r a n k ( B = k

    k A ; B k

    2

    F

    = k A ; A

    k

    k

    2

    F

    =

    2

    k + 1

    + +

    2

    p

    P r o o f . S e e 1 5 ] .

    I n o t h e r w o r d s , A

    k

    , w h i c h i s c o n s t r u c t e d f r o m t h e k - l a r g e s t s i n g u l a r t r i p l e t s o f A , i s t h e c l o s e s t

    r a n k - k m a t r i x t o A 1 4 ] . I n f a c t , A

    k

    i s t h e b e s t a p p r o x i m a t i o n t o A f o r a n y u n i t a r i l y i n v a r i a n t n o r m

    2 1 ] . H e n c e ,

    m n

    r a n k ( B = k

    k A ; B k

    2

    = k A ; A

    k

    k

    2

    =

    k + 1

    ( 3 )

    2 . 1 . L a t e n t S e m a n t i c I n d e x i n g . I n o r d e r t o i m p l e m e n t L a t e n t S e m a n t i c I n d e x i n g 4 , 1 1 ] a

    m a t r i x o f t e r m s b y d o c u m e n t s m u s t b e c o n s t r u c t e d . T h e e l e m e n t s o f t h e t e r m - d o c u m e n t m a t r i x a r e

    t h e o c c u r r e n c e s o f e a c h w o r d i n a p a r t i c u l a r d o c u m e n t , i . e . ,

    A = a

    j

    ( 4 )

    w h e r e a

    j

    d e n o t e s t h e f r e q u e n c y i n w h i c h t e r m i o c c u r s i n d o c u m e n t j . S i n c e e v e r y w o r d d o e s n o t

    n o r m a l l y a p p e a r i n e a c h d o c u m e n t , t h e m a t r i x A i s u s u a l l y s p a r s e . I n p r a c t i c e , l o c a l a n d g l o b a l

    w e i g h t i n g s a r e a p p l i e d 6 ] t o i n c r e a s e / d e c r e a s e t h e i m p o r t a n c e o f t e r m s w i t h i n o r a m o n g d o c u m e n t s .

    S p e c i c a l l y , w e c a n w r i t e

    a

    j

    = L ( i j ) G ( i )( 5 )

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    4/24

    4 B e r r y , D u m a i s a n d O ' B r i e n

    w h e r e L ( i j ) i s t h e l o c a l w e i g h t i n g f o r t e r m i i n d o c u m e n t j , a n d G ( i ) i s t h e g l o b a l w e i g h t i n g f o r t e r m

    i . T h e m a t r i x A i s f a c t o r e d i n t o t h e p r o d u c t o f 3 m a t r i c e s ( E q u a t i o n ( 1 ) ) u s i n g t h e s i n g u l a r v a l u e

    d e c o m p o s i t i o n ( S V D ) . T h e S V D d e r i v e s t h e l a t e n t s e m a n t i c s t r u c t u r e m o d e l f r o m t h e o r t h o g o n a l

    m a t r i c e s U a n d V c o n t a i n i n g l e f t a n d r i g h t s i n g u l a r v e c t o r s o f A , r e s p e c t i v e l y , a n d t h e d i a g o n a l

    m a t r i x , , o f s i n g u l a r v a l u e s o f A . T h e s e m a t r i c e s r e e c t a b r e a k d o w n o f t h e o r i g i n a l r e l a t i o n s h i p s

    i n t o l i n e a r l y - i n d e p e n d e n t v e c t o r s o r f a c t o r v a l u e s . T h e u s e o f k f a c t o r s o r k - l a r g e s t s i n g u l a r t r i p l e t s i s

    e q u i v a l e n t t o a p p r o x i m a t i n g t h e o r i g i n a l ( a n d s o m e w h a t u n r e l i a b l e ) t e r m - d o c u m e n t m a t r i x b y A

    k

    n

    E q u a t i o n ( 2 ) . I n s o m e s e n s e , t h e S V D c a n b e v i e w e d a s a t e c h n i q u e f o r d e r i v i n g a s e t o f u n c o r r e l a t e d

    i n d e x i n g v a r i a b l e s o r f a c t o r s , w h e r e b y e a c h t e r m a n d d o c u m e n t i s r e p r e s e n t e d b y a v e c t o r i n k - s p a c e

    u s i n g e l e m e n t s o f t h e l e f t o r r i g h t s i n g u l a r v e c t o r s ( s e e T a b l e 1 ) .

    T a b l e 1

    I n t e r p r e t a t i o n o f S V D c o m p o n e n t s w i t h i n L S I .

    A

    k

    = B e s t r a n k - k a p p r o x i m a t i o n t o A

    m = N u m b e r o f t e r m s

    U = T e r m v e c t o r s n = N u m b e r o f d o c u m e n t s

    = S i n g u l a r v a l u e s k = N u m b e r o f f a c t o r s

    V = D o c u m e n t v e c t o r s r = R a n k o f A

    F i g u r e 1 i s a m a t h e m a t i c a l r e p r e s e n t a t i o n o f t h e s i n g u l a r v a l u e d e c o m p o s i t i o n . U a n d V a r e

    c o n s i d e r e d t h e t e r m a n d d o c u m e n t v e c t o r s r e s p e c t i v e l y , a n d r e p r e s e n t s t h e s i n g u l a r v a l u e s . T h e

    s h a d e d r e g i o n s i n U a n d V a n d t h e d i a g o n a l l i n e i n r e p r e s e n t A

    k

    f r o m E q u a t i o n ( 2 ) .

    I t i s i m p o r t a n t f o r t h e L S I m e t h o d t h a t t h e d e r i v e d A

    k

    m a t r i x n o t r e c o n s t r u c t t h e o r i g i n a l t e r m

    d o c u m e n t m a t r i x A e x a c t l y . T h e t r u n c a t e d S V D , i n o n e s e n s e , c a p t u r e s m o s t o f t h e i m p o r t a n t

    u n d e r l y i n g s t r u c t u r e i n t h e a s s o c i a t i o n o f t e r m s a n d d o c u m e n t s , y e t a t t h e s a m e t i m e r e m o v e s t h e

    n o i s e o r v a r i a b i l i t y i n w o r d u s a g e t h a t p l a g u e s w o r d - b a s e d r e t r i e v a l m e t h o d s . I n t u i t i v e l y , s i n c e t h e

    n u m b e r o f d i m e n s i o n s , k , i s m u c h s m a l l e r t h a n t h e n u m b e r o f u n i q u e t e r m s , m , m i n o r d i e r e n c e s i n

    t e r m i n o l o g y w i l l b e i g n o r e d . T e r m s w h i c h o c c u r i n s i m i l a r d o c u m e n t s , f o r e x a m p l e , w i l l b e n e a r e a c h

    o t h e r i n t h e k - d i m e n s i o n a l f a c t o r s p a c e e v e n i f t h e y n e v e r c o - o c c u r i n t h e s a m e d o c u m e n t . T h i s m e a n s

    t h a t s o m e d o c u m e n t s w h i c h d o n o t s h a r e a n y w o r d s w i t h a u s e r s q u e r y m a y n o n e t h e l e s s b e n e a r i t

    n k - s p a c e . T h i s d e r i v e d r e p r e s e n t a t i o n w h i c h c a p t u r e s t e r m - t e r m a s s o c i a t i o n s i s u s e d f o r r e t r i e v a l .

    C o n s i d e r t h e w o r d s c a r a u t o m o b i l e d r i v e r , a n d e l e p h a n t . T h e t e r m s c a r a n d a u t o m o b i l e a r e

    s y n o n y m s , d r i v e r i s a r e l a t e d c o n c e p t a n d e l e p h a n t i s u n r e l a t e d . I n m o s t r e t r i e v a l s y s t e m s , t h e q u e r y

    a u t o m o b i l e s i s n o m o r e l i k e l y t o r e t r i e v e d o c u m e n t s a b o u t c a r s t h a n d o c u m e n t s a b o u t e l e p h a n t s ,

    i f n e i t h e r u s e d p r e c i s e l y t h e t e r m a u t o m o b i l e i n t h e d o c u m e n t s . I t w o u l d b e p r e f e r a b l e i f a q u e r y

    a b o u t a u t o m o b i l e s a l s o r e t r i e v e d a r t i c l e s a b o u t c a r s a n d e v e n a r t i c l e s a b o u t d r i v e r s t o a l e s s e r e x t e n t .

    T h e d e r i v e d k - d i m e n s i o n a l f e a t u r e s p a c e c a n r e p r e s e n t t h e s e u s e f u l t e r m i n t e r - r e l a t i o n s h i p s . R o u g h l y

    s p e a k i n g , t h e w o r d s c a r a n d a u t o m o b i l e w i l l o c c u r w i t h m a n y o f t h e s a m e w o r d s ( e . g . m o t o r , m o d e l ,

    v e h i c l e , c h a s s i s , c a r m a k e r s , s e d a n , e n g i n e , e t c . ) , a n d t h e y w i l l h a v e s i m i l a r r e p r e s e n t a t i o n s i n k - s p a c e .

    T h e c o n t e x t s f o r d r i v e r w i l l o v e r l a p t o a l e s s e r e x t e n t , a n d t h o s e f o r e l e p h a n t w i l l b e q u i t e d i s s i m i l a r .

    T h e m a i n i d e a i n L S I i s t o e x p l i c i t l y m o d e l t h e i n t e r r e l a t i o n s h i p s a m o n g t e r m s ( u s i n g t h e t r u n c a t e d

    S V D ) a n d t o e x p l o i t t h i s t o i m p r o v e r e t r i e v a l .

    2 . 2 . Q u e r i e s . F o r p u r p o s e s o f i n f o r m a t i o n r e t r i e v a l , a u s e r ' s q u e r y m u s t b e r e p r e s e n t e d a s a

    v e c t o r i n k - d i m e n s i o n a l s p a c e a n d c o m p a r e d t o d o c u m e n t s . A q u e r y ( l i k e a d o c u m e n t ) i s a s e t o f

    w o r d s . F o r e x a m p l e , t h e u s e r q u e r y c a n b e r e p r e s e n t e d b y

    q = q

    T

    U

    k

    1

    k

    ( 6 )

    w h e r e q i s s i m p l y t h e v e c t o r o f w o r d s i n t h e u s e r s q u e r y , m u l t i p l i e d b y t h e a p p r o p r i a t e t e r m w e i g h t s

    ( s e e E q u a t i o n ( 5 ) ) . T h e s u m o f t h e s e k - d i m e n s i o n a l t e r m s v e c t o r s i s r e e c t e d b y t h e q

    T

    U

    k

    t e r m

    i n E q u a t i o n ( 6 ) , a n d t h e r i g h t m u l t i p l i c a t i o n b y

    1

    k

    d i e r e n t i a l l y w e i g h t s t h e s e p a r a t e d i m e n s i o n s .

    T h u s , t h e q u e r y v e c t o r i s l o c a t e d a t t h e w e i g h t e d s u m o f i t s c o n s t i t u e n t t e r m v e c t o r s . T h e q u e r y

    v e c t o r c a n t h e n b e c o m p a r e d t o a l l e x i s t i n g d o c u m e n t v e c t o r s , a n d t h e d o c u m e n t s r a n k e d b y t h e i r

    s i m i l a r i t y ( n e a r n e s s ) t o t h e q u e r y . O n e c o m m o n m e a s u r e o f s i m i l a r i t y i s t h e c o s i n e b e t w e e n t h e q u e r y

    v e c t o r a n d d o c u m e n t v e c t o r . T y p i c a l l y , t h e z c l o s e s t d o c u m e n t s o r a l l d o c u m e n t s e x c e e d i n g s o m e

    c o s i n e t h r e s h o l d a r e r e t u r n e d t o t h e u s e r 4 ] .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    5/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 5

    A

    k

    m n

    =

    U

    T e r m

    V e c t o r s

    m r

    k

    r r

    k

    k

    V

    T

    D o c u m e n t

    V e c t o r s

    r n

    k

    F i g . 1 M a t h e m a t i c a l r e p r e s e n t a t i o n o f t h e m a t r i x A

    k

    2 . 3 . U p d a t i n g . S u p p o s e a n L S I - g e n e r a t e d d a t a b a s e a l r e a d y e x i s t s . T h a t i s , a c o l l e c t i o n o f

    t e x t o b j e c t s h a s b e e n p a r s e d , a t e r m - d o c u m e n t m a t r i x h a s b e e n g e n e r a t e d , a n d t h e S V D o f t h e t e r m -

    d o c u m e n t m a t r i x h a s b e e n c o m p u t e d . I f m o r e t e r m s a n d d o c u m e n t s m u s t b e a d d e d , t w o a l t e r n a t i v e s

    f o r i n c o r p o r a t i n g t h e m c u r r e n t l y e x i s t : r e c o m p u t i n g t h e S V D o f a n e w t e r m - d o c u m e n t m a t r i x o r

    f o l d i n g - i n t h e n e w t e r m s a n d d o c u m e n t s .

    F o u r t e r m s a r e d e n e d b e l o w t o a v o i d c o n f u s i o n w h e n d i s c u s s i n g u p d a t i n g . U p d a t i n g r e f e r s t o

    t h e g e n e r a l p r o c e s s o f a d d i n g n e w t e r m s a n d / o r d o c u m e n t s t o a n e x i s t i n g L S I - g e n e r a t e d d a t a b a s e .

    U p d a t i n g c a n m e a n e i t h e r f o l d i n g - i n o r S V D - u p d a t i n g . S V D - u p d a t i n g i s t h e n e w m e t h o d o f u p d a t i n g

    d e v e l o p e d i n 2 3 ] . F o l d i n g - i n t e r m s o r d o c u m e n t s i s a m u c h s i m p l e r a l t e r n a t i v e t h a t u s e s a n e x i s t i n g

    S V D t o r e p r e s e n t n e w i n f o r m a t i o n . R e c o m p u t i n g t h e S V D i s n o t a n u p d a t i n g m e t h o d , b u t a w a y

    o f c r e a t i n g a n L S I - g e n e r a t e d d a t a b a s e w i t h n e w t e r m s a n d / o r d o c u m e n t s f r o m s c r a t c h w h i c h c a n b e

    c o m p a r e d t o e i t h e r u p d a t i n g m e t h o d .

    R e c o m p u t i n g t h e S V D o f a l a r g e r t e r m - d o c u m e n t m a t r i x r e q u i r e s m o r e c o m p u t a t i o n t i m e a n d ,

    f o r l a r g e p r o b l e m s , m a y b e i m p o s s i b l e d u e t o m e m o r y c o n s t r a i n t s . R e c o m p u t i n g t h e S V D a l l o w s

    t h e n e w p t e r m s a n d q d o c u m e n t s t o d i r e c t l y a e c t t h e l a t e n t s e m a n t i c s t r u c t u r e b y c r e a t i n g a n e w

    t e r m - d o c u m e n t m a t r i x A

    ( m + p ( n + q

    , c o m p u t i n g t h e S V D o f t h e n e w t e r m - d o c u m e n t m a t r i x , a n d

    g e n e r a t i n g a d i e r e n t A

    k

    m a t r i x . I n c o n t r a s t , f o l d i n g - i n i s b a s e d o n t h e e x i s t i n g l a t e n t s e m a n t i c

    s t r u c t u r e , t h e c u r r e n t A

    k

    , a n d h e n c e n e w t e r m s a n d d o c u m e n t s h a v e n o e e c t o n t h e r e p r e s e n t a t i o n

    o f t h e p r e - e x i s t i n g t e r m s a n d d o c u m e n t s . F o l d i n g - i n r e q u i r e s l e s s t i m e a n d m e m o r y b u t c a n h a v e

    d e t e r i o r a t i n g e e c t s o n t h e r e p r e s e n t a t i o n o f t h e n e w t e r m s a n d d o c u m e n t s .

    F o l d i n g - i n d o c u m e n t s i s e s s e n t i a l l y t h e p r o c e s s d e s c r i b e d i n S e c t i o n 2 . 2 f o r q u e r y r e p r e s e n t a t i o n .

    E a c h n e w d o c u m e n t i s r e p r e s e n t e d a s a w e i g h t e d s u m o f i t s c o m p o n e n t t e r m v e c t o r s . O n c e a n e w

    d o c u m e n t v e c t o r h a s b e e n c o m p u t e d i t i s a p p e n d e d t o t h e s e t o f e x i s t i n g d o c u m e n t v e c t o r s o r c o l u m n s

    o f V

    k

    ( s e e F i g u r e 2 ) . S i m i l a r l y , n e w t e r m s c a n b e r e p r e s e n t e d a s a w e i g h t e d s u m o f t h e v e c t o r s f o r

    d o c u m e n t s i n w h i c h t h e y a p p e a r . O n c e t h e t e r m v e c t o r h a s b e e n c o m p u t e d i t i s a p p e n d e d t o t h e s e t

    o f e x i s t i n g t e r m v e c t o r s o r c o l u m n s o f U

    k

    ( s e e F i g u r e 3 ) .

    T o f o l d - i n a n e w m 1 d o c u m e n t v e c t o r , d , i n t o a n e x i s t i n g L S I m o d e l , a p r o j e c t i o n ,

    d o f d o n t o

    t h e s p a n o f t h e c u r r e n t t e r m v e c t o r s ( c o l u m n s o f U

    k

    ) i s c o m p u t e d b y

    d = d

    T

    U

    k

    1

    k

    ( 7 )

    S i m i l a r l y , t o f o l d - i n a n e w 1 n t e r m v e c t o r , t , i n t o a n e x i s t i n g L S I m o d e l , a p r o j e c t i o n ,

    t o f t o n t o

    t h e s p a n o f t h e c u r r e n t d o c u m e n t v e c t o r s ( c o l u m n s o f V

    k

    ) i s d e t e r m i n e d b y

    t = t V

    k

    1

    k

    ( 8 )

    3 . A D e m o n s t r a t i o n o f L a t e n t S e m a n t i c I n d e x i n g . I n t h i s s e c t i o n , L a t e n t S e m a n t i c I n -

    d e x i n g ( L S I ) a n d t h e f o l d i n g - i n p r o c e s s d i s c u s s e d i n S e c t i o n 2 . 3 a r e a p p l i e d t o a s m a l l d a t a b a s e o f b o o k

    t i t l e s . I n T a b l e 2 , 1 7 b o o k t i t l e s f r o m b o o k r e v i e w s p u b l i s h e d i n t h e D e c e m b e r 1 9 9 3 i s s u e ( v o l u m e 5 4 ,

    n u m b e r 4 ) o f S I A M R e v i e w a r e l i s t e d . A l l t h e u n d e r l i n e d w o r d s i n T a b l e 2 d e n o t e k e y w o r d s w h i c h

    a r e u s e d a s r e f e r e n t s t o t h e b o o k t i t l e s . T h e p a r s i n g r u l e u s e d f o r t h i s s a m p l e d a t a b a s e r e q u i r e d t h a t

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    6/24

    6 B e r r y , D u m a i s a n d O ' B r i e n

    p

    A

    k

    m n

    m ( n + p )

    =

    U

    k

    m k

    m k

    k

    k k

    k k

    p

    V

    T

    k

    k ( n + p )

    k n

    F i g . 2 M a t h e m a t i c a l r e p r e s e n t a t i o n o f f o l d i n g - i n p d o c u m e n t s .

    A

    k

    q

    ( m + q ) n

    m n

    =

    U

    k

    ( m + q ) k

    m k

    q

    k

    k k

    k k

    V

    T

    k

    k n

    k n

    F i g . 3 M a t h e m a t i c a l r e p r e s e n t a t i o n o f f o l d i n g - i n q t e r m s .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    7/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 7

    k e y w o r d s a p p e a r i n m o r e t h a n o n e b o o k t i t l e . O f c o u r s e , a l t e r n a t i v e p a r s i n g s t r a t e g i e s c a n i n c r e a s e

    o r d e c r e a s e t h e n u m b e r o f i n d e x i n g k e y w o r d s ( o r t e r m s ) .

    T a b l e 2

    D a t a b a s e o f t i t l e s f r o m b o o k s r e v i e w e d i n S I A M R e v i e w . U n d e r l i n e d k e y w o r d s a p p e a r i n m o r e

    t h a n o n e b o o k t i t l e .

    L a b e l T i t l e s

    B 1 A C o u r s e o n I n t e g r a l E q u a t i o n s

    B 2 A t t r a c t o r s f o r S e m i g r o u p s a n d E v o l u t i o n E q u a t i o n s

    B 3 A u t o m a t i c D i e r e n t i a t i o n o f A l g o r i t h m s : T h e o r y , I m p l e m e n t a t i o n ,

    a n d A p p l i c a t i o n

    B 4 G e o m e t r i c a l A s p e c t s o f P a r t i a l D i e r e n t i a l E q u a t i o n s

    B 5 I d e a l s , V a r i e t i e s , a n d A l g o r i t h m s { A n I n t r o d u c t i o n t o

    C o m p u t a t i o n a l A l g e b r a i c G e o m e t r y a n d C o m m u t a t i v e A l g e b r a

    B 6 I n t r o d u c t i o n t o H a m i l t o n i a n D y n a m i c a l S y s t e m s a n d t h e

    N - B o d y P r o b l e m

    B 7 K n a p s a c k P r o b l e m s : A l g o r i t h m s a n d C o m p u t e r I m p l e m e n t a t i o n s

    B 8 M e t h o d s o f S o l v i n g S i n g u l a r S y s t e m s o f O r d i n a r y

    D i e r e n t i a l E q u a t i o n s

    B 9 N o n l i n e a r S y s t e m s

    B 1 0 O r d i n a r y D i e r e n t i a l E q u a t i o n s

    B 1 1 O s c i l l a t i o n T h e o r y f o r N e u t r a l D i e r e n t i a l

    E q u a t i o n s w i t h D e l a y

    B 1 2 O s c i l l a t i o n T h e o r y o f D e l a y D i e r e n t i a l E q u a t i o n s

    B 1 3 P s e u d o d i e r e n t i a l O p e r a t o r s a n d N o n l i n e a r P a r t i a l D i e r e n t i a l

    E q u a t i o n s

    B 1 4 S i n c M e t h o d s f o r Q u a d r a t u r e a n d D i e r e n t i a l E q u a t i o n s

    B 1 5 S t a b i l i t y o f S t o c h a s t i c D i e r e n t i a l E q u a t i o n s w i t h R e s p e c t

    t o S e m i - M a r t i n g a l e s

    B 1 6 T h e B o u n d a r y I n t e g r a l A p p r o a c h t o S t a t i c a n d D y n a m i c

    C o n t a c t P r o b l e m s

    B 1 7 T h e D o u b l e M e l l i n - B a r n e s T y p e I n t e g r a l s a n d T h e i r A p p l i c a t i o n s

    t o C o n v o l u t i o n T h e o r y

    C o r r e s p o n d i n g t o t h e t e x t i n T a b l e 2 i s t h e 1 6 1 7 t e r m - d o c u m e n t m a t r i x s h o w n i n T a b l e 3 . T h e

    e l e m e n t s o f t h i s m a t r i x a r e t h e f r e q u e n c i e s i n w h i c h a t e r m o c c u r s i n a d o c u m e n t o r b o o k t i t l e ( s e e

    S e c t i o n 4 ) . F o r e x a m p l e , i n b o o k t i t l e B 3 , t h e t h i r d c o l u m n o f t h e t e r m - d o c u m e n t m a t r i x , a l g o r i t h m s

    t h e o r y i m p l e m e n t a t i o n , a n d a p p l i c a t i o n a l l o c c u r o n c e . F o r s i m p l i c i t y , t e r m w e i g h t i n g i s n o t u s e d i n

    t h i s e x a m p l e m a t r i x . N o w c o m p u t e t h e t r u n c a t e d S V D ( w i t h k = 2 ) o f t h e 1 6 1 7 m a t r i x i n T a b l e 2

    t o o b t a i n t h e r a n k - 2 a p p r o x i m a t i o n A

    2

    a s d e n e d i n F i g u r e 1 .

    U s i n g t h e r s t c o l u m n o f U

    2

    m u l t i p l i e d b y t h e r s t s i n g u l a r v a l u e ,

    1

    , f o r t h e x - c o o r d i n a t e s a n d

    t h e s e c o n d c o l u m n o f U

    2

    m u l t i p l i e d b y t h e s e c o n d s i n g u l a r v a l u e ,

    2

    , f o r t h e y - c o o r d i n a t e s , t h e t e r m s

    c a n b e r e p r e s e n t e d o n t h e C a r t e s i a n p l a n e . S i m i l a r l y , t h e r s t c o l u m n o f V

    2

    s c a l e d b y

    1

    a r e t h e

    x - c o o r d i n a t e s a n d t h e s e c o n d c o l u m n o f V

    2

    s c a l e d b y

    2

    a r e t h e y - c o o r d i n a t e s f o r t h e d o c u m e n t s

    ( b o o k t i t l e s ) . F i g u r e 4 i s a t w o - d i m e n s i o n a l p l o t o f t h e t e r m s a n d d o c u m e n t s f o r t h e 1 6 1 7 s a m p l e

    t e r m - d o c u m e n t m a t r i x .

    N o t i c e t h e d o c u m e n t s a n d t e r m s p e r t a i n i n g t o d i e r e n t i a l e q u a t i o n s a r e c l u s t e r e d a r o u n d t h e x -

    a x i s a n d t h e m o r e g e n e r a l t e r m s a n d d o c u m e n t s r e l a t e d t o a l g o r i t h m s a n d a p p l i c a t i o n s a r e c l u s t e r e d

    a r o u n d t h e y - a x i s . S u c h g r o u p i n g s s u g g e s t t h a t t h e s u b s e t o f b o o k t i t l e s f B 2 , B 4 , B 8 , B 9 , B 1 0

    B 1 3 , B 1 4 , B 1 5 g c o n t a i n s t i t l e s s i m i l a r i n m e a n i n g , f o r e x a m p l e .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    8/24

    8 B e r r y , D u m a i s a n d O ' B r i e n

    T a b l e 3

    T h e 1 6 1 7 t e r m - d o c u m e n t m a t r i x c o r r e s p o n d i n g t o t h e b o o k t i t l e s i n T a b l e 2 .

    T e r m s D o c u m e n t s

    B 1 B 2 B 3 B 4 B 5 B 6 B 7 B 8 B 9 B 1 0 B 1 1 B 1 2 B 1 3 B 1 4 B 1 5 B 1 6 B 1 7

    a l g o r i t h m s 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0

    a p p l i c a t i o n 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1

    d e l a y 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0

    d i e r e n t i a l 0 0 0 1 0 0 0 1 0 1 1 1 1 1 1 0 0

    e q u a t i o n s 1 1 0 1 0 0 0 1 0 1 1 1 1 1 1 0 0

    i m p l e m e n t a t i o n 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0

    i n t e g r a l 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1

    i n t r o d u c t i o n 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0

    m e t h o d s 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0

    n o n l i n e a r 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0

    o r d i n a r y 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0

    o s c i l l a t i o n 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0

    p a r t i a l 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0

    p r o b l e m 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0

    s y s t e m s 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0

    t h e o r y 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 1

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    9/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 9

    0.0 0.2 0.4 0.6 0.8 1.0

    0.1

    0.2

    - 0.2

    -0.5

    algorithms

    application

    delay

    differentialequations

    implementation

    integral

    introduction

    methods

    nonlinear

    ordinary

    oscillation

    partial

    problem

    systems

    theory

    B1

    B2

    B3

    B4

    B5

    B6

    B7

    B8

    B9

    B10

    B11

    B12

    B13

    B14B15

    B16

    B17

    F i g . 4 T w o - d i m e n s i o n a l p l o t o f t e r m s a n d d o c u m e n t s f o r t h e 1 6 1 7 e x a m p l e .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    10/24

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    11/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 1

    3 . 4 . R e c o m p u t i n g t h e S V D . I d e a l l y , t h e m o s t r o b u s t w a y t o p r o d u c e t h e b e s t r a n k - k a p p r o x -

    i m a t i o n ( A

    k

    ) t o a t e r m - d o c u m e n t m a t r i x w h i c h h a s b e e n u p d a t e d w i t h n e w t e r m s a n d d o c u m e n t s i s t o

    s i m p l y c o m p u t e t h e S V D o f a r e c o n s t r u c t e d t e r m - d o c u m e n t m a t r i x , s a y

    ~

    A . U p d a t i n g m e t h o d s w h i c h

    c a n a p p r o x i m a t e t h e S V D o f t h e l a r g e r t e r m - d o c u m e n t m a t r i x

    ~

    A b e c o m e a t t r a c t i v e i n t h e p r e s e n c e

    o f m e m o r y o r t i m e c o n s t r a i n t s . A s d i s c u s s e d i n 2 3 ] , t h e t h e a c c u r a c y o f S V D - u p d a t i n g a p p r o a c h e s

    c a n b e e a s i l y c o m p a r e d t o t h a t o b t a i n e d w h e n t h e S V D o f

    ~

    A i s e x p l i c i t l y c o m p u t e d .

    S u p p o s e t h e t i t l e s f r o m T a b l e 5 a r e c o m b i n e d w i t h t h o s e o f T a b l e 2 i n o r d e r t o c r e a t e a n e w 1 6 2 0

    t e r m - d o c u m e n t m a t r i x

    ~

    A . F o l l o w i n g F i g u r e 1 , w e t h e n c o n s t r u c t t h e b e s t r a n k - 2 a p p r o x i m a t i o n t o

    ~

    A

    ~

    A

    2

    =

    ~

    U

    2

    ~

    2

    ~

    V

    T

    2

    ( 9 )

    F i g u r e 8 i s a t w o - d i m e n s i o n a l p l o t o f t h e 1 6 t e r m s a n d 2 0 d o c u m e n t s ( b o o k t i t l e s ) u s i n g t h e e l e m e n t s

    o f

    ~

    U

    2

    a n d

    ~

    V

    2

    f o r t e r m a n d d o c u m e n t c o o r d i n a t e s , r e s p e c t i v e l y . N o t i c e t h e d i e r e n c e i n t e r m a n d

    d o c u m e n t p o s i t i o n s b e t w e e n F i g u r e s 7 a n d 8 . C l e a r l y , t h e t h e n e w b o o k t i t l e s f r o m T a b l e 5 h a v e

    h e l p e d r e d e n e t h e u n d e r l y i n g l a t e n t s t r u c t u r e w h e n t h e S V D o f

    ~

    A i s c o m p u t e d . T h a t i s , o n e c a n

    d i s c u s s o r d i n a r y a l g o r i t h m s a n d o r d i n a r y d i e r e n t i a l e q u a t i o n s i n d i e r e n t c o n t e x t s . F o l d i n g - i n t h e

    3 n e w b o o k t i t l e s b a s e d o n t h e e x i s t i n g r a n k - 2 a p p r o x i m a t i o n t o A ( d e n e d b y T a b l e 3 ) m a y n o t

    a c c u r a t e l y r e p r o d u c e t h e t r u e L S I r e p r e s e n t a t i o n o f t h e n e w ( o r u p d a t e d ) d a t a b a s e .

    I n p r a c t i c e , t h e d i e r e n c e b e t w e e n f o l d i n g - i n a n d S V D - u p d a t i n g i s l i k e l y t o d e p e n d o n t h e n u m b e r

    o f n e w d o c u m e n t s a n d t e r m s r e l a t i v e t o t h e n u m b e r i n t h e o r i g i n a l S V D o f A . T h u s , w e e x p e c t

    S V D - u p d a t i n g t o b e e s p e c i a l l y v a l u a b l e f o r r a p i d l y c h a n g i n g d a t a b a s e s .

    T a b l e 4

    R e t u r n e d d o c u m e n t s b a s e d o n d i e r e n t n u m b e r s o f L S I f a c t o r s .

    N u m b e r o f F a c t o r s

    k = 2 k = 4 k = 8

    B 1 7 . 9 9 B 1 7 . 8 7 B 1 7 . 8 8

    B 3 . 9 9 B 3 . 8 2 B 3 . 7 8

    B 6 . 9 9 B 1 2 . 5 7 B 1 2 . 3 7

    B 1 6 . 9 9 B 1 1 . 5 7 B 1 1 . 3 7

    B 5 . 9 8 B 1 6 . 3 8

    B 7 . 9 8 B 7 . 3 8

    B 1 2 . 5 5 B 1 . 3 5

    B 1 1 . 5 5 B 5 . 2 2

    B 1 . 3 8

    T a b l e 5

    A d d i t i o n a l t i t l e s f o r u p d a t i n g .

    L a b e l T i t l e s

    B 1 8 S y s t e m s o f N o n l i n e a r E q u a t i o n s

    B 1 9 O r d i n a r y A l g o r i t h m s f o r I n t e g r a l a n d D i e r e n t i a l E q u a t i o n s

    B 2 0 O r d i n a r y A p p l i c a t i o n s o f O s c i l l a t i o n T h e o r y

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    12/24

    1 2 B e r r y , D u m a i s a n d O ' B r i e n

    0.0 0.2 0.4 0.6 0.8 1.0

    0.1

    0.2

    - 0.2

    -0.5

    algorithms

    application

    delay

    differentialequations

    implementation

    integral

    introduction

    methods

    nonlinear

    ordinary

    oscillation

    partial

    problem

    systems

    theory

    B1

    B2

    B3

    B4

    B5

    B6

    B7

    B8

    B9

    B10

    B11

    B12

    B13

    B14B15

    B16

    B17

    QUERY

    F i g . 6 A T w o - d i m e n s i o n a l p l o t o f t e r m s a n d d o c u m e n t s a l o n g w i t h t h e q u e r y a p p l i c a t i o n

    t h e o r y

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    13/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 3

    0.0 0.2 0.4 0.6 0.8 1.0

    0.1

    0.2

    - 0.2

    -0.5

    algorithms

    application

    delay

    differentialequations

    implementation

    integral

    introduction

    methods

    nonlinear

    ordinary

    oscillation

    partial

    problem

    systems

    theory

    B1

    B2

    B3

    B4

    B5

    B6

    B7

    B8

    B9

    B10

    B11

    B12

    B13

    B14B15

    B16

    B17

    B18

    B19 B20

    F i g . 7 T w o - d i m e n s i o n a l p l o t o f f o l d e d - i n b o o k t i t l e s .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    14/24

    1 4 B e r r y , D u m a i s a n d O ' B r i e n

    0.0 0.2 0.4 0.6 0.8 1.0

    0.1

    0.2

    - 0.2

    -0.5

    algorithms

    application

    delay

    differential

    equations

    implementation

    integral

    introduction

    methods

    nonlinear

    ordinary

    oscillation

    partial

    problem

    systems

    theory

    B1

    B2

    B3

    B4

    B5

    B6

    B7

    B8

    B9

    B10

    B11

    B12

    B13

    B14

    B15

    B16

    B17

    B18

    B19

    B20

    F i g . 8 T w o - d i m e n s i o n a l p l o t o f t e r m s a n d d o c u m e n t s u s i n g t h e S V D o f a r e c o n s t r u c t e d

    t e r m - d o c u m e n t m a t r i x .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    15/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 5

    4 . S V D - U p d a t i n g . T h e p r o c e s s o f S V D - u p d a t i n g d i s c u s s e d i n S e c t i o n 2 . 3 c a n a l s o b e i l l u s -

    t r a t e d u s i n g t i t l e s f r o m T a b l e s 2 a n d 5 . T h e t h r e e s t e p s r e q u i r e d t o p e r f o r m a c o m p l e t e S V D - u p d a t e

    i n v o l v e a d d i n g n e w d o c u m e n t s , a d d i n g n e w t e r m s , a n d c o r r e c t i o n f o r c h a n g e s i n t e r m w e i g h t i n g s . T h e

    o r d e r o f t h e s e s t e p s , h o w e v e r , n e e d n o t f o l l o w t h e o r d e r i n g p r e s e n t e d i n t h i s s e c t i o n ( s e e 2 3 ] ) .

    4 . 1 . O v e r v i e w . L e t D d e n o t e t h e p n e w d o c u m e n t v e c t o r s t o p r o c e s s , t h e n D i s a n m p s p a r s e

    m a t r i x s i n c e m o s t t e r m s ( a s w a s t h e c a s e w i t h t h e o r i g i n a l t e r m - d o c u m e n t m a t r i x A ) d o n o t o c c u r i n

    e a c h d o c u m e n t . D i s a p p e n d e d t o t h e c o l u m n s o f t h e r a n k - k a p p r o x i m a t i o n o f t h e m n m a t r i x A

    i . e . , f r o m E q u a t i o n ( 2 ) , A

    k

    s o t h a t t h e k - l a r g e s t s i n g u l a r v a l u e s a n d c o r r e s p o n d i n g s i n g u l a r v e c t o r s o f

    B = ( A

    k

    D )( 1 0 )

    a r e c o m p u t e d . T h i s i s a l m o s t t h e s a m e p r o c e s s a s r e c o m p u t i n g t h e S V D , o n l y A i s r e p l a c e d b y A

    k

    L e t T d e n o t e a c o l l e c t i o n o f q t e r m v e c t o r s f o r S V D - u p d a t i n g . T h e n T i s a q n s p a r s e m a t r i x ,

    s i n c e e a c h t e r m r a r e l y o c c u r s i n e v e r y d o c u m e n t . T i s t h e n a p p e n d e d t o t h e r o w s o f A

    k

    s o t h a t t h e

    k - l a r g e s t s i n g u l a r v a l u e s a n d c o r r e s p o n d i n g s i n g u l a r v e c t o r s o f

    C =

    A

    k

    T

    ( 1 1 )

    a r e c o m p u t e d .

    T h e c o r r e c t i o n s t e p f o r i n c o r p o r a t i n g c h a n g e s i n t e r m w e i g h t s ( s e e E q u a t i o n ( 5 ) ) i s p e r f o r m e d a f t e r

    a n y t e r m s o r d o c u m e n t s h a v e b e e n S V D - u p d a t e d a n d t h e t e r m w e i g h t i n g s o f t h e o r i g i n a l m a t r i x h a v e

    c h a n g e d . F o r a c h a n g e o f w e i g h t i n g s i n j t e r m s , l e t Y

    j

    b e a n m j m a t r i x c o m p r i s e d o f r o w s o f z e r o s

    o r r o w s o f t h e j - t h o r d e r i d e n t i t y m a t r i x , I

    j

    , a n d l e t Z

    j

    b e a n n j m a t r i x w h o s e c o l u m n s s p e c i f y

    t h e a c t u a l d i e r e n c e s b e t w e e n o l d a n d n e w w e i g h t s f o r e a c h o f t h e j t e r m s ( s e e 2 3 ] f o r e x a m p l e s ) .

    C o m p u t i n g t h e S V D o f t h e f o l l o w i n g r a n k - j u p d a t e t o A

    k

    d e n e s t h e c o r r e c t i o n s t e p .

    W = A

    k

    + Y

    j

    Z

    T

    j

    ( 1 2 )

    4 . 2 . S V D - U p d a t i n g P r o c e d u r e s . T h e m a t h e m a t i c a l c o m p u t a t i o n s r e q u i r e d i n e a c h p h a s e

    o f t h e S V D - u p d a t i n g p r o c e s s a r e d e t a i l e d i n t h i s s e c t i o n . S V D - u p d a t i n g i n c o r p o r a t e s n e w t e r m o r

    d o c u m e n t i n f o r m a t i o n i n t o a n e x i s t i n g s e m a n t i c m o d e l ( A

    k

    f r o m E q u a t i o n ( 2 ) ) u s i n g s p a r s e t e r m -

    d o c u m e n t m a t r i c e s ( D T , a n d Y

    j

    Z

    T

    j

    ) d i s c u s s e d i n S e c t i o n 4 . 1 . S V D - u p d a t i n g e x p l o i t s t h e p r e v i o u s

    s i n g u l a r v a l u e s a n d s i n g u l a r v e c t o r s o f t h e o r i g i n a l t e r m - d o c u m e n t s m a t r i x A a s a n a l t e r n a t i v e t o

    r e c o m p u t i n g t h e S V D o f

    ~

    A i n E q u a t i o n ( 9 ) . I n g e n e r a l , t h e c o s t o f c o m p u t i n g t h e S V D o f a s p a r s e

    m a t r i x 3 ] c a n b e g e n e r a l l y e x p r e s s e d a s

    I c o s t ( G

    T

    G x ) + t r p c o s t ( G x )

    w h e r e I i s t h e n u m b e r o f i t e r a t i o n s r e q u i r e d b y a L a n c z o s - t y p e p r o c e d u r e 2 ] t o a p p r o x i m a t e t h e

    e i g e n s y s t e m o f G

    T

    G a n d t r p i s t h e n u m b e r o f a c c e p t e d s i n g u l a r t r i p l e t s ( i . e . , s i n g u l a r v a l u e s a n d

    c o r r e s p o n d i n g l e f t a n d r i g h t s i n g u l a r v e c t o r s ) . T h e a d d i t i o n a l m u l t i p l i c a t i o n b y G i s r e q u i r e d t o

    e x t r a c t t h e l e f t s i n g u l a r v e c t o r g i v e n a p p r o x i m a t e s i n g u l a r v a l u e s a n d t h e i r c o r r e s p o n d i n g r i g h t s i n g u l a r

    v e c t o r a p p r o x i m a t i o n s f r o m a L a n c z o s p r o c e d u r e . A b r i e f s u m m a r y o f t h e r e q u i r e d c o m p u t a t i o n s f o r

    u p d a t i n g a n e x i s t i n g r a n k - k a p p r o x i m a t i o n A

    k

    u s i n g s t a n d a r d l i n e a r a l g e b r a i s g i v e n b e l o w . T a b l e 6

    c o n t a i n s a l i s t o f s y m b o l s , d i m e n s i o n s , a n d v a r i a b l e s u s e d t o d e n e t h e S V D - u p d a t i n g p h a s e s .

    T a b l e 6

    S y m b o l s u s e d i n S V D - u p d a t i n g p h a s e s .

    S y m b o l D i m e n s i o n s D e n i t i o n

    A m n O r i g i n a l t e r m - d o c u m e n t m a t r i x

    U

    k

    m k L e f t s i n g u l a r v e c t o r s o f A

    k

    k

    k k S i n g u l a r v a l u e s o f A

    k

    V

    k

    n k R i g h t s i n g u l a r v e c t o r s o f A

    k

    Z

    j

    n j A d j u s t e d t e r m w e i g h t s

    Y

    j

    m j P e r m u t a t i o n m a t r i x

    D m p N e w d o c u m e n t v e c t o r s

    T q n N e w t e r m v e c t o r s

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    16/24

    1 6 B e r r y , D u m a i s a n d O ' B r i e n

    U p d a t i n g D o c u m e n t s . L e t B = ( A

    k

    D ) f r o m E q u a t i o n ( 1 0 ) a n d d e n e S V D ( B ) = U

    B

    B

    V

    T

    B

    T h e n

    U

    T

    k

    B

    V

    k

    O

    O I

    p

    = (

    k

    U

    T

    k

    D )

    s i n c e A

    k

    = U

    k

    k

    V

    T

    k

    I f F = (

    k

    U

    T

    k

    D ) a n d S V D ( F ) = U

    F

    F

    V

    T

    F

    t h e n i t f o l l o w s t h a t

    U

    B

    = U

    k

    U

    F

    V

    B

    =

    V

    k

    O

    O I

    p

    V

    F

    a n d

    F

    =

    B

    ( 1 3 )

    H e n c e U

    B

    a n d V

    B

    a r e m k a n d ( n + p ) ( k + p ) d e n s e m a t r i c e s , r e s p e c t i v e l y .

    U p d a t i n g T e r m s . L e t C =

    A

    k

    T

    f r o m E q u a t i o n ( 1 1 ) a n d d e n e S V D ( C ) = U

    C

    C

    V

    T

    C

    T h e n

    U

    T

    k

    O

    O I

    q

    C V

    k

    =

    k

    T V

    k

    I f H =

    k

    T V

    k

    a n d S V D ( H ) = U

    H

    H

    V

    T

    H

    t h e n i t f o l l o w s t h a t

    U

    C

    =

    U

    k

    O

    O I

    q

    U

    H

    V

    C

    = V

    k

    V

    H

    a n d

    H

    =

    C

    H e n c e U

    C

    a n d V

    C

    a r e ( m + q ) ( k + q ) a n d n k d e n s e m a t r i c e s , r e s p e c t i v e l y .

    T e r m W e i g h t C o r r e c t i o n s . L e t W = A

    k

    + Y

    j

    Z

    T

    j

    , w h e r e Y

    j

    s m j a n d Z

    j

    s n j f r o m

    E q u a t i o n ( 1 2 ) , a n d d e n e S V D ( W ) = U

    W

    W

    V

    T

    W

    . T h e n

    U

    T

    k

    W V

    k

    = (

    k

    + U

    T

    k

    Y

    j

    Z

    T

    j

    V

    k

    )

    I f Q = (

    k

    + U

    T

    k

    Y

    j

    Z

    T

    j

    V

    k

    ) a n d S V D ( Q ) = U

    Q

    Q

    V

    T

    Q

    , t h e n i t f o l l o w s t h a t

    U

    W

    = U

    k

    U

    Q

    a n d V

    W

    = V

    k

    V

    Q

    S i n c e ( U

    Q

    U

    k

    )

    T

    W V

    k

    V

    Q

    =

    Q

    =

    W

    . H e n c e U

    W

    a n d V

    W

    a r e m k a n d n k d e n s e m a t r i c e s ,

    r e s p e c t i v e l y .

    T a b l e 7 c o n t a i n s t h e c o m p l e x i t i e s f o r f o l d i n g - i n t e r m s a n d d o c u m e n t s , r e c o m p u t i n g t h e S V D , a n d

    t h e t h r e e p h a s e s o f S V D - u p d a t i n g . U s i n g t h e c o m p l e x i t i e s i n T a b l e 7 t h e r e q u i r e d n u m b e r o f o a t i n g -

    p o i n t o p e r a t i o n s ( o r o p s ) f o r e a c h m e t h o d c a n b e c o m p a r e d f o r v a r y i n g n u m b e r s o f a d d e d d o c u m e n t s

    o r t e r m s . A s s h o w n i n 2 3 ] f o r a c o n d e n s e d e n c y c l o p e d i a t e s t c a s e , t h e c o m p u t a t i o n a l a d v a n t a g e s

    o f o n e s c h e m e o v e r a n o t h e r d e p e n d s t h e v a l u e s o f t h e v a r i a b l e s l i s t e d i n T a b l e 6 . F o r e x a m p l e , i f

    t h e s p a r s i t y o f t h e D m a t r i x f r o m E q u a t i o n ( 1 0 ) r e e c t s t h a t o f t h e o r i g i n a l m n t e r m - d o c u m e n t

    m a t r i x A w i t h m n , t h e n f o l d i n g - i n w i l l s t i l l r e q u i r e c o n s i d e r a b l y f e w e r o p s t h a n S V D - u p d a t i n g

    w h e n a d d i n g p n e w d o c u m e n t s p r o v i d e d p n . T h e e x p e n s e i n S V D - u p d a t i n g c a n b e a t t r i b u t e d t o

    t h e O ( 2 k

    2

    m + 2 k

    2

    n ) o p s a s s o c i a t e d w i t h t h e d e n s e m a t r i x m u l t i p l i c a t i o n s i n v o l v i n g U

    k

    a n d V

    k

    n

    E q u a t i o n ( 1 3 ) .

    4 . 3 . O r t h o g o n a l i t y . O n e i m p o r t a n t d i s t i n c t i o n b e t w e e n t h e f o l d i n g - i n ( s e e S e c t i o n 2 . 3 ) a n d

    t h e S V D - u p d a t i n g p r o c e s s e s l i e s i n t h e g u a r a n t e e o f o r t h o g o n a l i t y i n t h e v e c t o r s ( o r a x e s ) u s e d f o r

    t e r m a n d d o c u m e n t c o o r d i n a t e s . R e c a l l t h a t a n o r t h o g o n a l m a t r i x Q s a t i s e s Q

    T

    Q = I

    n

    , w h e r e I

    n

    s

    t h e n - t h o r d e r i d e n t i t y m a t r i x . L e t D

    p

    b e t h e c o l l e c t i o n o f a l l f o l d e d - i n d o c u m e n t s w h e r e e a c h c o l u m n

    o f t h e p k m a t r i x i s a d o c u m e n t v e c t o r o f t h e f o r m

    d f r o m E q u a t i o n ( 7 ) . S i m i l a r l y , l e t T

    q

    b e t h e

    c o l l e c t i o n o f a l l f o l d e d - i n t e r m s s u c h t h a t e a c h c o l u m n o f t h e q k m a t r i x i s a t e r m v e c t o r o f t h e f o r m

    t f r o m E q u a t i o n ( 8 ) . T h e n , a l l t e r m v e c t o r s a n d d o c u m e n t v e c t o r s a s s o c i a t e d w i t h f o l d i n g - i n c a n b e

    r e p r e s e n t e d a s

    U

    k

    =

    ;

    U

    T

    k

    T

    T

    q

    T

    a n d

    V

    k

    =

    ;

    V

    T

    k

    D

    T

    p

    T

    , r e s p e c t i v e l y . T h e f o l d i n g - i n p r o c e s s c o r r u p t s

    t h e o r t h o g o n a l i t y o f

    U

    k

    a n d

    V

    k

    b y a p p e n d i n g n o n - o r t h o g o n a l s u b m a t r i c e s T

    q

    a n d D

    p

    t o U

    k

    a n d V

    k

    r e s p e c t i v e l y . C o m p u t i n g

    U

    T

    k

    U

    k

    a n d

    V

    T

    k

    V

    k

    , t h e l o s s o f o r t h o g o n a l i t y i n

    U

    k

    a n d

    V

    k

    c a n b e m e a s u r e d b y

    k

    U

    T

    k

    U

    k

    ; I

    k

    k

    2

    a n d k

    V

    T

    k

    V

    k

    ; I

    k

    k

    2

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    17/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 7

    T a b l e 7

    C o m p u t a t i o n a l c o m p l e x i t y o f u p d a t i n g m e t h o d s .

    M e t h o d C o m p l e x i t y

    S V D - u p d a t i n g I 4 n n z ( D ) + 4 m k + k ; 2 m ; d +

    d o c u m e n t s t r p 2 n n z ( D ) + 2 m k ; m

    + ( 2 k

    2

    ; k ) ( m + n )

    S V D - u p d a t i n g I 4 n n z ( T ) + 4 k n + k ; 2 n ; q +

    t e r m s t r p 2 n n z ( T ) + 2 k n + k ; 2 n ; q

    + ( 2 k

    2

    ; k ) ( m + n )

    S V D - u p d a t i n g I 4 n n z ( Z

    j

    ) + 4 k m + 2 m j + 2 k n + 3 k ; 2 n ; 2 j ; m

    c o r r e c t i o n s t e p + t r p 2 n n z ( Z

    j

    ) + 2 k m + 2 k n + k ; j ; n

    + ( 2 k

    2

    ; k ) ( m + n )

    F o l d i n g - i n d o c u m e n t s 2 m k p

    F o l d i n g - i n t e r m s 2 n k q

    R e c o m p u t i n g I 4 n n z ( A ) ; ( m + q ) ; ( n + p ) +

    t h e S V D t r p 2 n n z ( A ) ; ( m + q )

    F o l d i n g - i n d o e s n o t m a i n t a i n t h e o r t h o g o n a l i t y o f

    U

    k

    o r

    V

    k

    s i n c e a r b i t r a r y v e c t o r s o f w e i g h t e d t e r m s

    o r d o c u m e n t s a r e a p p e n d e d t o U

    k

    o r V

    k

    , r e s p e c t i v e l y . H o w e v e r , t h e a m o u n t b y w h i c h t h e f o l d i n g - i n

    m e t h o d p e r t u r b s t h e o r t h o g o n a l i t y o f

    U

    k

    o r

    V

    k

    d o e s i n d i c a t e h o w m u c h d i s t o r t i o n h a s o c c u r r e d d u e

    t o t h e a d d i t i o n o f n e w t e r m s o r d o c u m e n t s .

    T h e t r a d e - o i n c o m p u t a t i o n a l c o m p l e x i t y a n d l o s s o f o r t h o g o n a l i t y i n t h e c o o r d i n a t e a x e s f o r

    u p d a t i n g d a t a b a s e s u s i n g L S I p o s e s i n t e r e s t i n g f u t u r e r e s e a r c h . T h o u g h t h e S V D - u p d a t i n g p r o c e s s

    i s c o n s i d e r a b l y m o r e e x p e n s i v e 2 3 ] t h a n f o l d i n g - i n , t h e t r u e l o w e r - r a n k a p p r o x i m a t i o n t o t h e t r u e

    t e r m - d o c u m e n t m a t r i x A d e n e d b y F i g u r e 1 i s m a i n t a i n e d . S i g n i c a n t i n s i g h t s i n t h e f u t u r e c o u l d

    b e g a i n e d b y m o n i t o r i n g t h e l o s s o f o r t h o g o n a l i t y a s s o c i a t e d w i t h f o l d i n g - i n a n d c o r r e l a t i n g i t t o t h e

    n u m b e r o f r e l e v a n t d o c u m e n t s r e t u r n e d w i t h i n p a r t i c u l a r c o s i n e t h r e s h o l d s ( s e e S e c t i o n 3 . 1 ) .

    4 . 4 . S V D - U p d a t i n g E x a m p l e . T o i l l u s t r a t e S V D - u p d a t i n g , s u p p o s e t h e c t i t i o u s t i t l e s i n

    T a b l e 5 a r e t o b e a d d e d t o t h e o r i g i n a l s e t o f t i t l e s i n T a b l e 2 . I n t h i s e x a m p l e , o n l y d o c u m e n t s

    a r e a d d e d a n d w e i g h t s a r e n o t a d j u s t e d , h e n c e o n l y t h e S V D o f t h e m a t r i x B i n E q u a t i o n ( 1 0 ) i s

    c o m p u t e d .

    I n i t i a l l y , a 1 6 3 t e r m - d o c u m e n t m a t r i x , D , c o r r e s p o n d i n g t o t h e c t i t i o u s t i t l e s i n T a b l e 5 i s

    g e n e r a t e d a n d t h e n a p p e n d e d t o A

    2

    t o f o r m a 1 6 2 0 m a t r i x B o f t h e f o r m g i v e n b y E q u a t i o n ( 1 0 ) .

    F o l l o w i n g F i g u r e 1 , t h e b e s t r a n k - 2 a p p r o x i m a t i o n ( B

    2

    ) t o B i s g i v e n b y

    B

    2

    =

    U

    2

    2

    V

    T

    2

    w h e r e t h e c o l u m n s o f

    U

    2

    a n d

    V

    2

    a r e t h e l e f t a n d r i g h t s i n g u l a r v e c t o r s , r e s p e c t i v e l y , c o r r e s p o n d i n g t o

    t h e t w o l a r g e s t s i n g u l a r v a l u e s o f B

    F i g u r e 9 i s a t w o - d i m e n s i o n a l p l o t o f t h e 1 2 t e r m s a n d 1 6 d o c u m e n t s ( b o o k t i t l e s ) u s i n g t h e

    e l e m e n t s o f

    U

    2

    a n d

    V

    2

    f o r t e r m a n d d o c u m e n t c o o r d i n a t e s , r e s p e c t i v e l y . N o t i c e t h e s i m i l a r c l u s t e r i n g

    o f t e r m s a n d b o o k t i t l e s i n F i g u r e s 9 a n d 8 ( r e c o m p u t i n g t h e S V D ) a n d t h e d i e r e n c e i n d o c u m e n t

    a n d t e r m c l u s t e r i n g w i t h F i g u r e 7 ( f o l d i n g - i n ) .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    18/24

    1 8 B e r r y , D u m a i s a n d O ' B r i e n

    0.0 0.2 0.4 0.6 0.8 1.0

    0.1

    0.2

    - 0.2

    -0.5

    algorithms

    application

    delay

    differential

    equations

    implementation

    integral

    introduction

    methods

    nonlinear

    ordinary

    oscillation

    partial

    problem

    systems

    theory

    B1

    B2

    B3

    B4

    B5

    B6

    B7

    B8

    B9

    B10

    B11

    B12

    B13

    B14

    B15

    B16

    B17

    B18

    B19

    B20

    F i g . 9 T w o - d i m e n s i o n a l p l o t o f t e r m s a n d d o c u m e n t s u s i n g t h e S V D - u p d a t i n g p r o c e s s .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    19/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 9

    5 . A p p l i c a t i o n s o f L a t e n t S e m a n t i c I n d e x i n g . I n t h i s s e c t i o n , s e v e r a l a p p l i c a t i o n s o f L S I

    a r e d i s c u s s e d r a n g i n g f r o m i n f o r m a t i o n r e t r i e v a l a n d l t e r i n g t o m o d e l s o f h u m a n m e m o r y . S o m e o p e n

    c o m p u t a t i o n a l a n d s t a t i s t i c a l - b a s e d i s s u e s r e l a t e d t o t h e p r a c t i c a l u s e o f L S I f o r s u c h a p p l i c a t i o n s a r e

    a l s o m e n t i o n e d .

    5 . 1 . I n f o r m a t i o n R e t r i e v a l . L a t e n t S e m a n t i c I n d e x i n g w a s i n i t i a l l y d e v e l o p e d f o r i n f o r m a -

    t i o n r e t r i e v a l a p p l i c a t i o n s . I n t h e s e a p p l i c a t i o n , a x e d d a t a b a s e i s i n d e x e d a n d u s e r s p o s e a s e r i e s

    o f r e t r i e v a l q u e r i e s . T h e e e c t i v e n e s s o f r e t r i e v a l s y s t e m s i s o f t e n e v a l u a t e d u s i n g t e s t c o l l e c t i o n s

    d e v e l o p e d b y t h e i n f o r m a t i o n r e t r i e v a l c o m m u n i t y . T h e s e c o l l e c t i o n s c o n s i s t o f a s e t o f d o c u m e n t s , a

    s e t o f u s e r q u e r i e s , a n d r e l e v a n c e j u d g e m e n t s ( i . e . , f o r e a c h q u e r y e v e r y d o c u m e n t i n t h e c o l l e c t i o n h a s

    b e e n j u d g e d a s r e l e v a n t o r n o t t o t h e q u e r y )

    1

    . T h i s a l l o w s o n e t o e v a l u a t e t h e e e c t i v e n e s s o f d i e r e n t

    s y s t e m s i n r e t r i e v i n g r e l e v a n t d o c u m e n t s a n d a t t h e s a m e t i m e n o t r e t u r n i n g i r r e l e v a n t d o c u m e n t s .

    T w o m e a s u r e s , p r e c i s i o n a n d r e c a l l , a r e u s e d t o s u m m a r i z e r e t r i e v a l p e r f o r m a n c e . R e c a l l i s t h e p r o -

    p o r t i o n o f a l l r e l e v a n t d o c u m e n t s i n t h e c o l l e c t i o n t h a t a r e r e t r i e v e d b y t h e s y s t e m a n d p r e c i s i o n s

    t h e p r o p o r t i o n o f r e l e v a n t d o c u m e n t s i n t h e s e t r e t u r n e d t o t h e u s e r . A v e r a g e p r e c i s i o n a c r o s s s e v e r a l

    l e v e l s o f r e c a l l c a n t h e n b e u s e d a s a s u m m a r y m e a s u r e o f p e r f o r m a n c e .

    R e s u l t s w e r e o b t a i n e d f o r L S I a n d c o m p a r e d a g a i n s t p u b l i s h e d o r c o m p u t e d r e s u l t s f o r o t h e r

    r e t r i e v a l t e c h n i q u e s , n o t a b l y t h e s t a n d a r d k e y w o r d v e c t o r m e t h o d i n S M A R T 2 4 ] . F o r s e v e r a l i n f o r -

    m a t i o n s c i e n c e t e s t c o l l e c t i o n s , t h e a v e r a g e p r e c i s i o n u s i n g L S I r a n g e d f r o m c o m p a r a b l e t o t o 3 0 %

    b e t t e r t h a n t h a t o b t a i n e d u s i n g s t a n d a r d k e y w o r d v e c t o r m e t h o d s . S e e 4 , 6 , 1 2 ] f o r d e t a i l s o f t h e s e

    e v a l u a t i o n s . T h e L S I m e t h o d p e r f o r m s b e s t r e l a t i v e t o s t a n d a r d v e c t o r m e t h o d s w h e n t h e q u e r i e s a n d

    r e l e v a n t d o c u m e n t s d o n o t s h a r e m a n y w o r d s , a n d a t h i g h l e v e l s o f r e c a l l .

    T e r m W e i g h t i n g . O n e o f t h e c o m m o n a n d u s u a l l y e e c t i v e m e t h o d s f o r i m p r o v i n g r e t r i e v a l

    p e r f o r m a n c e i n v e c t o r m e t h o d s i s t o t r a n s f o r m t h e r a w f r e q u e n c y o f o c c u r r e n c e o f a t e r m i n a d o c u m e n t

    ( i . e . , t h e v a l u e o f a c e l l i n t h e t e r m b y d o c u m e n t m a t r i x ) b y s o m e f u n c t i o n ( s e e E q u a t i o n 5 ) . S u c h

    t r a n s f o r m a t i o n s n o r m a l l y h a v e t w o c o m p o n e n t s . E a c h t e r m i s a s s i g n e d a g l o b a l w e i g h t , i n d i c a t i n g i t s

    o v e r a l l i m p o r t a n c e i n t h e c o l l e c t i o n a s a n i n d e x i n g t e r m . T h e s a m e g l o b a l w e i g h t i n g i s a p p l i e d t o a n

    e n t i r e r o w ( t e r m ) o f t h e t e r m - d o c u m e n t m a t r i x . I t i s a l s o p o s s i b l e t o t r a n s f o r m t h e t e r m ' s f r e q u e n c y

    i n t h e d o c u m e n t s u c h a t r a n s f o r m a t i o n i s c a l l e d a l o c a l w e i g h t i n g , a n d i s a p p l i e d t o e a c h c e l l i n t h e

    m a t r i x .

    T h e p e r f o r m a n c e f o r s e v e r a l w e i g h t i n g s c h e m e s h a v e b e e n c o m p a r e d i n 6 ] . A t r a n s f o r m e d m a t r i x

    i s a u t o m a t i c a l l y c o m p u t e d , t h e t r u n c a t e d S V D s h o w n i n F i g u r e 1 i s c o m p u t e d , a n d p e r f o r m a n c e i s

    e v a l u a t e d . A l o g t r a n s f o r m a t i o n o f t h e l o c a l c e l l e n t r i e s c o m b i n e d w i t h a g l o b a l e n t r o p y w e i g h t f o r

    t e r m s i s t h e m o s t e e c t i v e t e r m - w e i g h t i n g s c h e m e . A v e r a g e d o v e r v e t e s t c o l l e c t i o n s , l o g e n t r o p y

    w e i g h t i n g w a s 4 0 % m o r e e e c t i v e t h a n r a w t e r m w e i g h t i n g .

    R e l e v a n c e F e e d b a c k . T h e i d e a b e h i n d r e l e v a n c e f e e d b a c k i s q u i t e s i m p l e . U s e r s a r e v e r y

    u n l i k e l y t o b e a b l e t o s p e c i f y t h e i r i n f o r m a t i o n n e e d s a d e q u a t e l y , e s p e c i a l l y o n t h e r s t t r y . I n

    i n t e r a c t i v e r e t r i e v a l s i t u a t i o n s , i t i s p o s s i b l e t o t a k e a d v a n t a g e o f u s e r f e e d b a c k a b o u t r e l e v a n t a n d

    n o n - r e l e v a n t d o c u m e n t s 2 5 ] . S y s t e m s c a n u s e i n f o r m a t i o n a b o u t w h i c h d o c u m e n t s a r e r e l e v a n t i n

    m a n y w a y s . T y p i c a l l y t h e w e i g h t g i v e n t o t e r m s o c c u r r i n g i n r e l e v a n t d o c u m e n t s i s i n c r e a s e d a n d

    t h e w e i g h t o f t e r m s o c c u r r i n g i n n o n - r e l e v a n t d o c u m e n t s i s d e c r e a s e d . M o s t o f t h e t e s t s u s i n g L S I

    h a v e i n v o l v e d a m e t h o d i n w h i c h t h e i n i t i a l q u e r y i s r e p l a c e d w i t h t h e v e c t o r s u m o f t h e d o c u m e n t s

    t h e u s e r s h a s s e l e c t e d a s r e l e v a n t . T h e u s e o f n e g a t i v e i n f o r m a t i o n h a s n o t y e t b e e n e x p l o i t e d i n L S I

    f o r e x a m p l e , b y m o v i n g t h e q u e r y a w a y f r o m d o c u m e n t s w h i c h t h e u s e r h a s i n d i c a t e d a r e i r r e l e v a n t .

    R e p l a c i n g t h e u s e r s ' q u e r y w i t h t h e r s t r e l e v a n t d o c u m e n t i m p r o v e s p e r f o r m a n c e b y a n a v e r a g e o f

    3 3 % a n d r e p l a c i n g i t w i t h t h e a v e r a g e o f t h e r s t t h r e e r e l e v a n t d o c u m e n t s i m p r o v e s p e r f o r m a n c e b y

    a n a v e r a g e o f 6 7 % ( s e e 6 ] f o r d e t a i l s ) . R e l e v a n c e f e e d b a c k p r o v i d e s s i z a b l e a n d c o n s i s t e n t r e t r i e v a l

    a d v a n t a g e s . O n e w a y o f t h i n k i n g a b o u t t h e s u c c e s s o f t h e s e m e t h o d s i s t h a t m a n y w o r d s ( t h o s e

    f r o m r e l e v a n t d o c u m e n t s ) a u g m e n t t h e i n i t i a l q u e r y w h i c h i s u s u a l l y q u i t e i m p o v e r i s h e d . L S I d o e s

    s o m e o f t h i s k i n d o f q u e r y e x p a n s i o n o r e n h a n c e m e n t e v e n w i t h o u t r e l e v a n c e i n f o r m a t i o n , b u t c a n b e

    a u g m e n t e d w i t h r e l e v a n c e i n f o r m a t i o n .

    1

    E x h a u s t i v e r e l e v a n c e j u d g e m e n t s ( w h e n a l l d o c u m e n t s a r e j u d g e d f o r e v e r y q u e r y ) a r e i d e a l f o r s y s -

    t e m e v a l u a t i o n . I n l a r g e d o c u m e n t c o l l e c t i o n s , h o w e v e r , e x h a u s t i v e j u d g e m e n t s b e c o m e p r o h i b i t i v e l y

    c o s t l y . F o r l a r g e c o l l e c t i o n s a p o o l i n g m e t h o d i s u s e d . R e l e v a n c e j u d g e m e n t s a r e m a d e o n t h e p o o l e d

    s e t o f t h e t o p - r a n k e d d o c u m e n t s r e t u r n e d b y s e v e r a l d i e r e n t r e t r i e v a l s y s t e m s f o r t h e s a m e s e t o f

    q u e r i e s . M o s t o f t h e t o p - r a n k e d d o c u m e n t s f o r n e w s y s t e m s w i l l h o p e f u l l y b e c o n t a i n e d i n t h e p o o l

    s e t a n d t h u s h a v e r e l e v a n c e j u d g e m e n t s a s s o c i a t e d w i t h t h e m .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    20/24

    2 0 B e r r y , D u m a i s a n d O ' B r i e n

    5 . 2 . C h o o s i n g t h e N u m b e r o f F a c t o r s . C h o o s i n g t h e n u m b e r o f d i m e n s i o n s ( k ) f o r A

    k

    s h o w n

    i n F i g u r e 1 i s a n i n t e r e s t i n g p r o b l e m . W h i l e a r e d u c t i o n i n k c a n r e m o v e m u c h o f t h e n o i s e , k e e p i n g t o o

    f e w d i m e n s i o n s o r f a c t o r s m a y l o o s e i m p o r t a n t i n f o r m a t i o n . A s d i s c u s s e d i n 4 ] u s i n g a t e s t d a t a b a s e

    o f m e d i c a l a b s t r a c t s , L S I p e r f o r m a n c e

    2

    c a n i m p r o v e c o n s i d e r a b l y a f t e r 1 0 o r 2 0 d i m e n s i o n s , p e a k s

    b e t w e e n 7 0 a n d 1 0 0 d i m e n s i o n s , a n d t h e n b e g i n s t o d i m i n i s h s l o w l y . T h i s p a t t e r n o f p e r f o r m a n c e

    ( i n i t i a l l a r g e i n c r e a s e a n d s l o w d e c r e a s e t o w o r d - b a s e d p e r f o r m a n c e ) i s o b s e r v e d w i t h o t h e r d a t a s e t s

    a s w e l l . E v e n t u a l l y p e r f o r m a n c e m u s t a p p r o a c h t h e l e v e l o f p e r f o r m a n c e a t t a i n e d b y s t a n d a r d v e c t o r

    m e t h o d s , s i n c e w i t h k = n f a c t o r s A

    k

    w i l l e x a c t l y r e c o n s t r u c t t h e o r i g i n a l t e r m b y d o c u m e n t m a t r i x

    A i n E q u a t i o n ( 4 ) . T h a t L S I w o r k s w e l l w i t h a r e l a t i v e l y s m a l l ( c o m p a r e d t o t h e n u m b e r o f u n i q u e

    t e r m s ) n u m b e r o f d i m e n s i o n s o r f a c t o r s k s h o w s t h a t t h e s e d i m e n s i o n s a r e , i n f a c t , c a p t u r i n g a m a j o r

    p o r t i o n o f t h e m e a n i n g f u l s t r u c t u r e .

    5 . 3 . I n f o r m a t i o n F i l t e r i n g . I n f o r m a t i o n l t e r i n g i s a p r o b l e m t h a t i s c l o s e l y r e l a t e d t o i n -

    f o r m a t i o n r e t r i e v a l 1 ] . I n i n f o r m a t i o n l t e r i n g a p p l i c a t i o n s , a u s e r h a s a r e l a t i v e l y s t a b l e l o n g - t e r m

    i n t e r e s t o r p r o l e , a n d n e w d o c u m e n t s a r e c o n s t a n t l y r e c e i v e d a n d m a t c h e d a g a i n s t t h i s s t a n d i n g

    i n t e r e s t . S e l e c t i v e d i s s e m i n a t i o n o f i n f o r m a t i o n , i n f o r m a t i o n r o u t i n g , a n d p e r s o n a l i z e d i n f o r m a t i o n

    d e l i v e r y a r e a l s o u s e d t o r e f e r t o t h e m a t c h i n g o f a n o n g o i n g s t r e a m o f n e w i n f o r m a t i o n t o r e l a t i v e l y

    s t a b l e u s e r i n t e r e s t s .

    A p p l y i n g L S I t o i n f o r m a t i o n l t e r i n g a p p l i c a t i o n s i s s t r a i g h t f o r w a r d . A n i n i t i a l s a m p l e o f d o c u -

    m e n t s i s a n a l y z e d u s i n g s t a n d a r d L S I / S V D t o o l s . A u s e r s ' i n t e r e s t i s r e p r e s e n t e d a s o n e ( o r m o r e )

    v e c t o r s i n t h i s r e d u c e d - d i m e n s i o n L S I s p a c e . E a c h n e w d o c u m e n t i s m a t c h e d a g a i n s t t h e v e c t o r a n d

    i f i t i s s i m i l a r e n o u g h t o t h e i n t e r e s t v e c t o r i t i s r e c o m m e n d e d t o t h e u s e r . L e a r n i n g m e t h o d s l i k e

    r e l e v a n c e f e e d b a c k c a n b e u s e d t o i m p r o v e t h e r e p r e s e n t a t i o n o f i n t e r e s t v e c t o r s o v e r t i m e .

    F o l t z 1 0 ] c o m p a r e d L S I a n d k e y w o r d v e c t o r m e t h o d s f o r l t e r i n g N e t n e w s a r t i c l e s , a n d f o u n d 1 2 % {

    2 3 % a d v a n t a g e s f o r L S I . D u m a i s a n d F o l t z i n 1 1 ] c o m p a r e d s e v e r a l d i e r e n t m e t h o d s f o r r e p r e s e n t i n g

    u s e r s i n t e r e s t s f o r l t e r i n g t e c h n i c a l m e m o r a n d a . T h e m o s t e e c t i v e m e t h o d u s e d v e c t o r s d e r i v e d

    f r o m k n o w n r e l e v a n t d o c u m e n t s ( l i k e r e l e v a n c e f e e d b a c k ) c o m b i n e d w i t h L S I m a t c h i n g .

    T R E C . R e c e n t l y , L S I h a s b e e n u s e d f o r b o t h i n f o r m a t i o n l t e r i n g a n d i n f o r m a t i o n r e t r i e v a l i n

    T R E C ( T e x t R E t r i e v a l C o n f e r e n c e ) , a l a r g e - s c a l e r e t r i e v a l c o n f e r e n c e c o n f e r e n c e s p o n s o r e d b y N I S T

    7 , 8 ] . T h e T R E C c o l l e c t i o n c o n t a i n s m o r e t h a n 1 0 0 0 0 0 0 d o c u m e n t s ( r e p r e s e n t i n g m o r e t h a t 3

    g i g a b y t e s o f A S C I I t e x t ) , 2 0 0 q u e r i e s , a n d r e l e v a n c e j u d g e m e n t s p o o l e d f r o m t h e r e t u r n s e t s o f m o r e

    t h a n 3 0 s y s t e m s . T h e c o n t e n t o f t h e c o l l e c t i o n s v a r i e s w i d e l y r a n g i n g f r o m n e w s s o u r c e s ( A P N e w s

    W i r e , W a l l S t r e e t J o u r n a l , S a n J o s e M e r c u r y N e w s ) , t o j o u r n a l a b s t r a c t s ( Z i D a v i s , D O E a b s t r a c t s ) ,

    t o t h e f u l l t e x t o f t h e F e d e r a l R e g i s t e r a n d U . S . P a t e n t s . T h e q u e r i e s a r e v e r y l o n g a n d d e t a i l e d

    d e s c r i p t i o n s , a v e r a g i n g m o r e t h a n 5 0 w o r d s i n l e n g t h . W h i l e t h e s e q u e r i e s m a y b e r e p r e s e n t a t i v e o f

    i n f o r m a t i o n r e q u e s t s i n l t e r i n g a p p l i c a t i o n s , t h e y a r e q u i t e u n l i k e t h e s h o r t r e q u e s t s s e e n i n p r e v i o u s

    I R c o l l e c t i o n s o r i n i n t e r a c t i v e r e t r i e v a l a p p l i c a t i o n s ( w h e r e t h e a v e r a g e q u e r y i s o n l y o n e o r t w o

    w o r d s l o n g ) . T h e f a c t t h a t t h e T R E C q u e r i e s a r e q u i t e r i c h m e a n s t h a t s m a l l e r a d v a n t a g e s w o u l d b e

    e x p e c t e d f o r L S I o r a n y o t h e r m e t h o d s t h a t a t t e m p t t o e n h a n c e u s e r s q u e r i e s .

    T h e b i g c h a l l e n g e i n t h i s c o l l e c t i o n w a s t o e x t e n d t h e L S I t o o l s t o h a n d l e c o l l e c t i o n s o f t h i s s i z e .

    T h e r e s u l t s w e r e q u i t e e n c o u r a g i n g . A t t h e t i m e o f t h e T R E C c o n f e r e n c e s i t w a s n o t r e a s o n a b l e t o

    c o m p u t e A

    k

    f r o m F i g u r e 1 f o r t h e c o m p l e t e c o l l e c t i o n . I n s t e a d , a s a m p l e

    3

    o f a b o u t 7 0 0 0 0 d o c u m e n t s

    a n d 9 0 0 0 0 t e r m s w a s u s e d . S u c h t e r m b y d o c u m e n t m a t r i c e s ( A ) a r e q u i t e s p a r s e , c o n t a i n i n g o n l y

    0 0 1 { 0 0 2 % n o n - z e r o e n t r i e s . C o m p u t i n g A

    2 0 0

    , i . e . t h e 2 0 0 - l a r g e s t s i n g u l a r v a l u e s a n d c o r r e s p o n d i n g

    s i n g u l a r v e c t o r s , b y a s i n g l e - v e c t o r L a n c z o s a l g o r i t h m 3 ] r e q u i r e d a b o u t 1 8 h o u r s o f C P U t i m e o n

    a S U N S P A R C s t a t i o n 1 0 w o r k s t a t i o n . D o c u m e n t s n o t i n t h e o r i g i n a l L S I a n a l y s i s w e r e f o l d e d - i n a s

    p r e v i o u s l y d e s c r i b e d i n S e c t i o n 3 . 3 . T h a t i s , t h e v e c t o r f o r a d o c u m e n t i s l o c a t e d a t t h e w e i g h t e d

    v e c t o r s u m o f i t s c o n s t i t u e n t t e r m v e c t o r s .

    A l t h o u g h i t i s v e r y d i c u l t t o c o m p a r e a c r o s s s y s t e m s i n a n y d e t a i l b e c a u s e o f l a r g e p r e - p r o c e s s i n g ,

    r e p r e s e n t a t i o n a n d m a t c h i n g d i e r e n c e s , L S I p e r f o r m a n c e w a s q u i t e g o o d 8 ] . F o r l t e r i n g t a s k s , u s i n g

    i n f o r m a t i o n a b o u t k n o w n r e l e v a n t d o c u m e n t s t o c r e a t e a v e c t o r f o r e a c h q u e r y w a s b e n e c i a l . T h e

    r e t r i e v a l a d v a n t a g e o f 3 1 % w a s s o m e w h a t s m a l l e r t h a n t h a t o b s e r v e d f o r o t h e r l t e r i n g t e s t s a n d i s

    a t t r i b u t a b l e t o t h e g o o d i n i t i a l q u e r i e s i n T R E C . F o r r e t r i e v a l t a s k s , L S I s h o w e d 1 6 % i m p r o v e m e n t

    w h e n c o m p a r e d w i t h t h e k e y w o r d v e c t o r m e t h o d s . A g a i n t h e d e t a i l e d o r i g i n a l q u e r i e s a c c o u n t f o r t h e

    s o m e w h a t s m a l l e r a d v a n t a g e s t h a n p r e v i o u s l y o b s e r v e d .

    2

    P e r f o r m a n c e i s a v e r a g e p r e c i s i o n o v e r r e c a l l l e v e l s o f 0 2 5 , 0 5 0 a n d 0 7 5

    3

    D i e r e n t s a m p l e s f o r i n f o r m a t i o n r e t r i e v a l a n d l t e r i n g a n d f o r T R E C - 1 a n d T R E C - 2 { s e e 7 , 8 ]

    f o r d e t a i l s .

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    21/24

    U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 2 1

    T h e c o m p u t a t i o n o f A

    k

    f o r t h e l a r g e s p a r s e T R E C m a t r i c e s A w a s a c c o m p l i s h e d w i t h o u t d i c u l t y

    ( n u m e r i c a l o r c o n v e r g e n c e p r o b l e m s ) u s i n g s o p h i s t i c a t e d i m p l e m e n t a t i o n s o f t h e L a n c z o s a l g o r i t h m

    f r o m S V D P A C K C 3 ] . H o w e v e r , t h e c o m p u t a t i o n a l a n d m e m o r y r e q u i r e m e n t s p o s e d b y t h e T R E C

    c o l l e c t i o n g r e a t l y m o t i v a t e d t h e d e v e l o p m e n t o f t h e S V D - u p d a t i n g p r o c e d u r e s d i s c u s s e d i n S e c t i o n 4 .

    5 . 4 . N o v e l A p p l i c a t i o n s . B e c a u s e L S I i s a c o m p l e t e l y a u t o m a t i c m e t h o d , i t i s w i d e l y a p p l i -

    c a b l e t o n e w c o l l e c t i o n s o f t e x t s ( i n c l u d i n g t o d i e r e n t l a n g u a g e s , a s d e s c r i b e d b e l o w ) . T h e f a c t t h a t

    b o t h t e r m s a n d d o c u m e n t s a r e r e p r e s e n t e d i n t h e s a m e r e d u c e d - d i m e n s i o n s p a c e a d d s a n o t h e r d i m e n -

    s i o n o f e x i b i l i t y t o t h e L S I r e t r i e v a l m o d e l . Q u e r i e s c a n b e e i t h e r t e r m s ( a s i n m o s t i n f o r m a t i o n

    r e t r i e v a l a p p l i c a t i o n s ) , d o c u m e n t s o r c o m b i n a t i o n s o f t h e t w o ( a s i n r e l e v a n c e f e e d b a c k ) . Q u e r i e s c a n

    e v e n b e r e p r e s e n t e d a s m u l t i p l e p o i n t s o f i n t e r e s t 1 7 ] . S i m i l a r l y , t h e o b j e c t s r e t u r n e d t o t h e u s e r

    a r e t y p i c a l l y d o c u m e n t s , b u t t h e r e i s n o r e a s o n t h a t s i m i l a r t e r m s c o u l d n o t b e r e t u r n e d . R e t u r n i n g

    n e a r b y t e r m s i s u s e f u l f o r s o m e a p p l i c a t i o n s l i k e o n l i n e t h e s a u r i ( t h a t a r e a u t o m a t i c a l l y c o n s t r u c t e d

    b y L S I ) , o r f o r s u g g e s t i n g i n d e x t e r m s f o r d o c u m e n t s f o r p u b l i c a t i o n s w h i c h r e q u i r e t h e m .

    A l t h o u g h t e r m - d o c u m e n t m a t r i c e s h a v e b e e n u s e d f o r s i m p l i c i t y , t h e L S I m e t h o d c a n b e a p p l i e d t o

    a n y d e s c r i p t o r - o b j e c t m a t r i x . W e t y p i c a l l y u s e o n l y s i n g l e t e r m s t o d e s c r i b e d o c u m e n t s , b u t p h r a s e s

    o r n - g r a m s c o u l d a l s o b e i n c l u d e d a s r o w s i n t h e m a t r i x . S i m i l a r l y , a n e n t i r e d o c u m e n t i s u s u a l l y t h e

    t e x t o b j e c t o f i n t e r e s t , b u t s m a l l e r , m o r e t o p i c a l l y c o h e r e n t u n i t s o f t e x t ( e . g . , p a r a g r a p h s , s e c t i o n s )

    c o u l d b e r e p r e s e n t e d a s w e l l . F o r e x a m p l e , L S I h a s b e e n i n c o r p o r a t e d a s a f u z z y s e a r c h o p t i o n

    i n N E T L I B 5 ] f o r r e t r i e v i n g a l g o r i t h m s , c o d e d e s c r i p t i o n s , a n d s h o r t a r t i c l e s f r o m t h e N A - D i g e s t

    e l e c t r o n i c n e w s l e t t e r .

    R e g a r d l e s s o f h o w t h e o r i g i n a l d e s c r i p t o r - o b j e c t m a t r i x i s d e r i v e d , a r e d u c e d - d i m e n s i o n a p p r o x i -

    m a t i o n c a n b e c o m p u t e d . T h e i m p o r t a n t i d e a i n L S I i s t o g o b e y o n d t h e o r i g i n a l d e s c r i p t o r s t o m o r e

    r e l i a b l e s t a t i s t i c a l l y d e r i v e d i n d e x i n g d i m e n s i o n s . T h e w i d e a p p l i c a b i l i t y o f t h e L S I a n a l y s i s i s f u r t h e r

    i l l u s t r a t e d b y d e s c r i b i n g s e v e r a l a p p l i c a t i o n s i n m o r e d e t a i l .

    C r o s s - L a n g u a g e R e t r i e v a l . I t i s i m p o r t a n t t o n o t e t h a t t h e L S I a n a l y s i s m a k e s n o u s e o f

    E n g l i s h s y n t a x o r s e m a n t i c s . W o r d s a r e i d e n t i e d b y l o o k i n g f o r w h i t e s p a c e s a n d p u n c t u a t i o n i n

    A S C I I t e x t . F u r t h e r , n o s t e m m i n g i s u s e d t o c o l l a p s e w o r d s w i t h t h e s a m e m o r p h o l o g y . I f w o r d s w i t h

    t h e s a m e s t e m a r e u s e d i n s i m i l a r d o c u m e n t s t h e y w i l l h a v e s i m i l a r v e c t o r s i n t h e t r u n c a t e d S V D

    d e n e d i n F i g u r e 1 o t h e r w i s e , t h e y w i l l n o t . ( F o r e x a m p l e , i n a n a l y z i n g a n e n c y c l o p e d i a , d o c t o r s

    q u i t e n e a r d o c t o r s b u t n o t a s s i m i l a r t o d o c t o r a l . ) T h i s m e a n s t h a t L S I i s a p p l i c a b l e t o a n y l a n g u a g e .

    I n a d d i t i o n , i t c a n b e u s e d f o r c r o s s - l a n g u a g e r e t r i e v a l { d o c u m e n t s a r e i n s e v e r a l l a n g u a g e s a n d u s e r

    q u e r i e s ( a g a i n i n s e v e r a l l a n g u a g e s ) c a n m a t c h d o c u m e n t s i n a n y l a n g u a g e . W h a t i s r e q u i r e d f o r

    c r o s s - l a n g u a g e a p p l i c a t i o n s i s a c o m m o n s p a c e i n w h i c h w o r d s f r o m m a n y l a n g u a g e s a r e r e p r e s e n t e d .

    L a n d a u e r a n d L i t t m a n i n 2 0 ] d e s c r i b e d o n e m e t h o d f o r c r e a t i n g s u c h a n L S I s p a c e . T h e o r i g i n a l

    t e r m - d o c u m e n t m a t r i x i s f o r m e d u s i n g a c o l l e c t i o n o f a b s t r a c t s t h a t h a v e v e r s i o n s i n m o r e t h a n o n e

    l a n g u a g e ( F r e n c h a n d E n g l i s h , i n t h e i r e x p e r i m e n t s ) . E a c h a b s t r a c t i s t r e a t e d a s t h e c o m b i n a t i o n

    o f i t s F r e n c h E n g l i s h v e r s i o n s . T h e t r u n c a t e d S V D i s c o m p u t e d f o r t h i s t e r m b y c o m b i n e d - a b s t r a c t

    m a t r i x A . T h e r e s u l t i n g s p a c e c o n s i s t s o f c o m b i n e d - l a n g u a g e a b s t r a c t s , E n g l i s h w o r d s a n d F r e n c h

    w o r d s . E n g l i s h w o r d s a n d F r e n c h w o r d s w h i c h o c c u r i n s i m i l a r c o m b i n e d a b s t r a c t s w i l l b e n e a r e a c h

    o t h e r i n t h e r e d u c e d - d i m e n s i o n L S I s p a c e . A f t e r t h i s a n a l y s i s , m o n o l i n g u a l a b s t r a c t s c a n b e f o l d e d - i n

    ( s e e S e c t i o n 3 . 3 ) { a F r e n c h a b s t r a c t w i l l s i m p l y b e l o c a t e d a t t h e v e c t o r s u m o f i t s c o n s t i t u e n t w o r d s

    w h i c h a r e a l r e a d y i n t h e L S I s p a c e . Q u e r i e s i n e i t h e r F r e n c h o r E n g l i s h c a n b e m a t c h e d t o F r e n c h

    o r E n g l i s h a b s t r a c t s . T h e r e i s n o d i c u l t t r a n s l a t i o n i n v o l v e d i n r e t r i e v a l f r o m t h e m u l t i l i n g u a l L S I

    s p a c e . E x p e r i m e n t s s h o w e d t h a t t h e c o m p l e t e l y a u t o m a t i c m u l t i l i n g u a l s p a c e w a s m o r e e e c t i v e t h a n

    s i n g l e - l a n g u a g e s p a c e s . T h e r e t r i e v a l o f F r e n c h d o c u m e n t s i n r e s p o n s e t o E n g l i s h q u e r i e s ( a n d v i c e

    v e r s a ) w a s a s e e c t i v e a s r s t t r a n s l a t i n g t h e q u e r i e s i n t o F r e n c h a n d s e a r c h i n g a F r e n c h - o n l y d a t a b a s e .

    T h e m e t h o d h a s s h o w n a l m o s t a s g o o d r e s u l t s f o r r e t r i e v i n g E n g l i s h a b s t r a c t s a n d J a p a n e s e K a n j i

    i d e o g r a p h s , a n d f o r m u l t i l i n g u a l t r a n s l a t i o n s ( E n g l i s h a n d G r e e k ) o f t h e B i b l e 2 9 ] .

    M o d e l i n g H u m a n M e m o r y . L a n d a u e r a n d D u m a i s 1 9 ] h a v e r e c e n t l y u s e d L S I s p a c e s t o

    m o d e l s o m e o f t h e a s s o c i a t i v e r e l a t i o n s h i p s o b s e r v e d i n h u m a n m e m o r y . T h e y w e r e i n t e r e s t e d i n

    t e r m - t e r m s i m i l a r i t i e s . L S I i s o f t e n d e s c r i b e d i n t u i t i v e l y a s a m e t h o d f o r n d i n g s y n o n y m s { w o r d s

    w h i c h o c c u r i n s i m i l a r p a t t e r n s o f d o c u m e n t s w i l l b e n e a r e a c h o t h e r i n t h e L S I s p a c e e v e n i f t h e y

    n e v e r c o - o c c u r i n a s i n g l e d o c u m e n t ( e . g . , d o c t o r p h y s i c i a n b o t h o c c u r w i t h m a n y o f t h e s a m e w o r d s

    l i k e n u r s e h o s p i t a l p a t i e n t t r e a t m e n t , e t c . ) . L a n d a u e r a n d D u m a i s t e s t e d h o w w e l l a n L S I s p a c e

    w o u l d m i m i c t h e k n o w l e d g e n e e d e d t o p a s s a s y n o n y m t e s t . T h e y u s e d t h e s y n o n y m t e s t f r o m E T S ' s

    T e s t O f E n g l i s h a s a F o r e i g n L a n g u a g e ( T O E F L ) . T h e t e s t c o n s i s t s o f 8 0 m u l t i p l e c h o i c e t e s t i t e m s

    e a c h w i t h a s t e m w o r d ( e . g . , l e v i e d ) a n d f o u r a l t e r n a t i v e s ( e . g . , i m p o s e d b e l i e v e r r e q u e s t e d c o r r e l a t e d )

  • 8/14/2019 Using Linear Algebra for Information Retrieval

    22/24

    2 2 B e r r y , D u m a i s a n d O ' B r i e n

    o n e o f w h i c h i s t h e s y n o