using linear algebra for information retrieval
TRANSCRIPT
-
8/14/2019 Using Linear Algebra for Information Retrieval
1/24
-
8/14/2019 Using Linear Algebra for Information Retrieval
2/24
U S I N G L I N E A R A L G E B R A F O R I N T E L L I G E N T
I N F O R M A T I O N R E T R I E V A L
M I C H A E L W . B E R R Y
y
, S U S A N T . D U M A I S
z
A N D G A V I N W . O ' B R I E N
x
A b s t r a c t . C u r r e n t l y , m o s t a p p r o a c h e s t o r e t r i e v i n g t e x t u a l m a t e r i a l s f r o m s c i e n t i c d a t a b a s e s
d e p e n d o n a l e x i c a l m a t c h b e t w e e n w o r d s i n u s e r s ' r e q u e s t s a n d t h o s e i n o r a s s i g n e d t o d o c u m e n t s i n a
d a t a b a s e . B e c a u s e o f t h e t r e m e n d o u s d i v e r s i t y i n t h e w o r d s p e o p l e u s e t o d e s c r i b e t h e s a m e d o c u m e n t ,
l e x i c a l m e t h o d s a r e n e c e s s a r i l y i n c o m p l e t e a n d i m p r e c i s e . U s i n g t h e s i n g u l a r v a l u e d e c o m p o s i t i o n
( S V D ) , o n e c a n t a k e a d v a n t a g e o f t h e i m p l i c i t h i g h e r - o r d e r s t r u c t u r e i n t h e a s s o c i a t i o n o f t e r m s w i t h
d o c u m e n t s b y d e t e r m i n i n g t h e S V D o f l a r g e s p a r s e t e r m b y d o c u m e n t m a t r i c e s . T e r m s a n d d o c u m e n t s
r e p r e s e n t e d b y 2 0 0 - 3 0 0 o f t h e l a r g e s t s i n g u l a r v e c t o r s a r e t h e n m a t c h e d a g a i n s t u s e r q u e r i e s . W e c a l l
t h i s r e t r i e v a l m e t h o d L a t e n t S e m a n t i c I n d e x i n g ( L S I ) b e c a u s e t h e s u b s p a c e r e p r e s e n t s i m p o r t a n t
a s s o c i a t i v e r e l a t i o n s h i p s b e t w e e n t e r m s a n d d o c u m e n t s t h a t a r e n o t e v i d e n t i n i n d i v i d u a l d o c u m e n t s .
L S I i s a c o m p l e t e l y a u t o m a t i c y e t i n t e l l i g e n t i n d e x i n g m e t h o d , w i d e l y a p p l i c a b l e , a n d a p r o m i s i n g
w a y t o i m p r o v e u s e r s ' a c c e s s t o m a n y k i n d s o f t e x t u a l m a t e r i a l s , o r t o d o c u m e n t s a n d s e r v i c e s f o r
w h i c h t e x t u a l d e s c r i p t i o n s a r e a v a i l a b l e . A s u r v e y o f t h e c o m p u t a t i o n a l r e q u i r e m e n t s f o r m a n a g i n g
L S I - e n c o d e d d a t a b a s e s a s w e l l a s c u r r e n t a n d f u t u r e a p p l i c a t i o n s o f L S I i s p r e s e n t e d .
K e y w o r d s . i n d e x i n g , i n f o r m a t i o n , l a t e n t , m a t r i c e s , r e t r i e v a l , s e m a n t i c , s i n g u l a r v a l u e
d e c o m p o s i t i o n , s p a r s e , u p d a t i n g
A M S ( M O S ) s u b j e c t c l a s s i c a t i o n s . 1 5 A 1 8 , 1 5 A 4 8 , 6 5 F 1 5 , 6 5 F 5 0 , 6 8 P 2 0
1 . I n t r o d u c t i o n . T y p i c a l l y , i n f o r m a t i o n i s r e t r i e v e d b y l i t e r a l l y m a t c h i n g t e r m s i n d o c u m e n t s
w i t h t h o s e o f a q u e r y . H o w e v e r , l e x i c a l m a t c h i n g m e t h o d s c a n b e i n a c c u r a t e w h e n t h e y a r e u s e d t o
m a t c h a u s e r ' s q u e r y . S i n c e t h e r e a r e u s u a l l y m a n y w a y s t o e x p r e s s a g i v e n c o n c e p t ( s y n o n y m y ) , t h e
l i t e r a l t e r m s i n a u s e r ' s q u e r y m a y n o t m a t c h t h o s e o f a r e l e v a n t d o c u m e n t . I n a d d i t i o n , m o s t w o r d s
h a v e m u l t i p l e m e a n i n g s ( p o l y s e m y ) , s o t e r m s i n a u s e r ' s q u e r y w i l l l i t e r a l l y m a t c h t e r m s i n i r r e l e v a n t
d o c u m e n t s . A b e t t e r a p p r o a c h w o u l d a l l o w u s e r s t o r e t r i e v e i n f o r m a t i o n o n t h e b a s i s o f a c o n c e p t u a l
t o p i c o r m e a n i n g o f a d o c u m e n t .
L a t e n t S e m a n t i c I n d e x i n g ( L S I ) 4 ] t r i e s t o o v e r c o m e t h e p r o b l e m s o f l e x i c a l m a t c h i n g b y u s i n g
s t a t i s t i c a l l y d e r i v e d c o n c e p t u a l i n d i c e s i n s t e a d o f i n d i v i d u a l w o r d s f o r r e t r i e v a l . L S I a s s u m e s t h a t
t h e r e i s s o m e u n d e r l y i n g o r l a t e n t s t r u c t u r e i n w o r d u s a g e t h a t i s p a r t i a l l y o b s c u r e d b y v a r i a b i l i t y i n
w o r d c h o i c e . A t r u n c a t e d s i n g u l a r v a l u e d e c o m p o s i t i o n ( S V D ) 1 4 ] i s u s e d t o e s t i m a t e t h e s t r u c t u r e i n
w o r d u s a g e a c r o s s d o c u m e n t s . R e t r i e v a l i s t h e n p e r f o r m e d u s i n g t h e d a t a b a s e o f s i n g u l a r v a l u e s a n d
v e c t o r s o b t a i n e d f r o m t h e t r u n c a t e d S V D . P e r f o r m a n c e d a t a s h o w s t h a t t h e s e s t a t i s t i c a l l y d e r i v e d
v e c t o r s a r e m o r e r o b u s t i n d i c a t o r s o f m e a n i n g t h a n i n d i v i d u a l t e r m s . A n u m b e r o f s o f t w a r e t o o l s h a v e
b e e n d e v e l o p e d t o p e r f o r m o p e r a t i o n s s u c h a s p a r s i n g d o c u m e n t t e x t s , c r e a t i n g a t e r m b y d o c u m e n t
m a t r i x , c o m p u t i n g t h e t r u n c a t e d S V D o f t h i s m a t r i x , c r e a t i n g t h e L S I d a t a b a s e o f s i n g u l a r v a l u e s a n d
v e c t o r s f o r r e t r i e v a l , m a t c h i n g u s e r q u e r i e s t o d o c u m e n t s , a n d a d d i n g n e w t e r m s o r d o c u m e n t s t o a n
e x i s t i n g L S I d a t a b a s e s 4 , 2 3 ] . T h e b u l k o f L S I p r o c e s s i n g t i m e i s s p e n t i n c o m p u t i n g t h e t r u n c a t e d
S V D o f t h e l a r g e s p a r s e t e r m b y d o c u m e n t m a t r i c e s .
S e c t i o n 2 i s a r e v i e w o f b a s i c c o n c e p t s n e e d e d t o u n d e r s t a n d L S I . S e c t i o n 3 u s e s a c o n s t r u c t i v e
e x a m p l e t o i l l u s t r a t e h o w L S I r e p r e s e n t s t e r m s a n d d o c u m e n t s i n t h e s a m e s e m a n t i c s p a c e , h o w
a q u e r y i s r e p r e s e n t e d , h o w a d d i t i o n a l d o c u m e n t s a r e a d d e d ( o r f o l d e d - i n ) , a n d h o w S V D - u p d a t i n g
r e p r e s e n t s a d d i t i o n a l d o c u m e n t s . I n S e c t i o n 4 , a n a l g o r i t h m f o r S V D - u p d a t i n g i s d i s c u s s e d a l o n g w i t h
a c o m p a r i s o n t o t h e f o l d i n g - i n p r o c e s s w i t h r e g a r d t o r o b u s t n e s s o f q u e r y m a t c h i n g a n d c o m p u t a t i o n a l
c o m p l e x i t y . S e c t i o n 5 s u r v e y s p r o m i s i n g a p p l i c a t i o n s o f L S I a l o n g w i t h p a r a m e t e r e s t i m a t i o n p r o b l e m s
t h a t a r i s e w i t h i t s u s e .
T h i s r e s e a r c h w a s s u p p o r t e d b y t h e N a t i o n a l S c i e n c e F o u n d a t i o n u n d e r g r a n t N o s . N S F - C D A -
9 1 1 5 4 2 8 a n d N S F - A S C - 9 2 - 0 3 0 0 4 . S u b m i t t e d t o S I A M R e v i e w
y
D e p a r t m e n t o f C o m p u t e r S c i e n c e , 1 0 7 A y r e s H a l l , U n i v e r s i t y o f T e n n e s s e e , K n o x v i l l e , T N 3 7 9 9 6 -
1 3 0 1 , b e r r y @ c s . u t k . e d u
z
I n f o r m a t i o n S c i e n c e R e s e a r c h G r o u p , B e l l c o r e , 4 4 5 S o u t h S t r e e t , R o o m 2 L - 3 7 1 , M o r r i s t o w n , N J
0 7 9 6 2 - 1 9 1 0 , s t d @ b e l l c o r e . c o m
x
D e p a r t m e n t o f C o m p u t e r S c i e n c e , 1 0 7 A y r e s H a l l , U n i v e r s i t y o f T e n n e s s e e , K n o x v i l l e , T N 3 7 9 9 6 -
1 3 0 1 , o b r i e n @ c s . u t k . e d u
2
-
8/14/2019 Using Linear Algebra for Information Retrieval
3/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 3
2 . B a c k g r o u n d . T h e s i n g u l a r v a l u e d e c o m p o s i t i o n i s c o m m o n l y u s e d i n t h e s o l u t i o n o f u n c o n -
s t r a i n e d l i n e a r l e a s t s q u a r e s p r o b l e m s , m a t r i x r a n k e s t i m a t i o n , a n d c a n o n i c a l c o r r e l a t i o n a n a l y s i s 2 ] .
G i v e n a n m n m a t r i x A , w h e r e w i t h o u t l o s s o f g e n e r a l i t y m n a n d r a n k ( A ) = r , t h e s i n g u l a r
v a l u e d e c o m p o s i t i o n o f A , d e n o t e d b y S V D ( A ) , i s d e n e d a s
A = U V
T
( 1 )
w h e r e U
T
U = V
T
V = I
n
a n d = d i a g (
1
n
) > 0 f o r 1 i r
j
= 0 f o r j r + 1 . T h e
r s t r c o l u m n s o f t h e o r t h o g o n a l m a t r i c e s U a n d V d e n e t h e o r t h o n o r m a l e i g e n v e c t o r s a s s o c i a t e d
w i t h t h e r n o n z e r o e i g e n v a l u e s o f A A
T
a n d A
T
A , r e s p e c t i v e l y . T h e c o l u m n s o f U a n d V a r e r e f e r r e d
t o a s t h e l e f t a n d r i g h t s i n g u l a r v e c t o r s , r e s p e c t i v e l y , a n d t h e s i n g u l a r v a l u e s o f A a r e d e n e d a s t h e
d i a g o n a l e l e m e n t s o f w h i c h a r e t h e n o n n e g a t i v e s q u a r e r o o t s o f t h e n e i g e n v a l u e s o f A A
T
1 4 ] .
T h e f o l l o w i n g t w o t h e o r e m s i l l u s t r a t e h o w t h e S V D c a n r e v e a l i m p o r t a n t i n f o r m a t i o n a b o u t t h e
s t r u c t u r e o f a m a t r i x .
T h e o r e m 2 . 1 . L e t t h e S V D o f A b e g i v e n b y E q u a t i o n ( 1 ) a n d
1
2
r
>
r + 1
= =
n
= 0
a n d l e t R ( A ) a n d N ( A ) d e n o t e t h e r a n g e a n d n u l l s p a c e o f A , r e s p e c t i v e l y .
T h e n ,
1 . r a n k p r o p e r t y : r a n k ( A ) = r N ( A ) s p a n f v
r + 1
v
n
g , a n d
R ( A ) s p a n f u
1
u
r
g , w h e r e U = u
1
u
2
u
m
a n d V = v
1
v
2
v
n
2 . d y a d i c d e c o m p o s i t i o n : A =
r
X
= 1
u v
T
3 . n o r m s : k A k
2
F
=
2
1
+ +
2
r
, a n d k A k
2
2
=
1
P r o o f . S e e 1 4 ] .
T h e o r e m 2 . 2 . E c k a r t a n d Y o u n g ] L e t t h e S V D o f A b e g i v e n b y E q u a t i o n ( 1 ) w i t h r = r a n k ( A )
p = m i n ( m n ) a n d d e n e
A
k
=
k
X
= 1
u v
T
( 2 )
t h e n
m n
r a n k ( B = k
k A ; B k
2
F
= k A ; A
k
k
2
F
=
2
k + 1
+ +
2
p
P r o o f . S e e 1 5 ] .
I n o t h e r w o r d s , A
k
, w h i c h i s c o n s t r u c t e d f r o m t h e k - l a r g e s t s i n g u l a r t r i p l e t s o f A , i s t h e c l o s e s t
r a n k - k m a t r i x t o A 1 4 ] . I n f a c t , A
k
i s t h e b e s t a p p r o x i m a t i o n t o A f o r a n y u n i t a r i l y i n v a r i a n t n o r m
2 1 ] . H e n c e ,
m n
r a n k ( B = k
k A ; B k
2
= k A ; A
k
k
2
=
k + 1
( 3 )
2 . 1 . L a t e n t S e m a n t i c I n d e x i n g . I n o r d e r t o i m p l e m e n t L a t e n t S e m a n t i c I n d e x i n g 4 , 1 1 ] a
m a t r i x o f t e r m s b y d o c u m e n t s m u s t b e c o n s t r u c t e d . T h e e l e m e n t s o f t h e t e r m - d o c u m e n t m a t r i x a r e
t h e o c c u r r e n c e s o f e a c h w o r d i n a p a r t i c u l a r d o c u m e n t , i . e . ,
A = a
j
( 4 )
w h e r e a
j
d e n o t e s t h e f r e q u e n c y i n w h i c h t e r m i o c c u r s i n d o c u m e n t j . S i n c e e v e r y w o r d d o e s n o t
n o r m a l l y a p p e a r i n e a c h d o c u m e n t , t h e m a t r i x A i s u s u a l l y s p a r s e . I n p r a c t i c e , l o c a l a n d g l o b a l
w e i g h t i n g s a r e a p p l i e d 6 ] t o i n c r e a s e / d e c r e a s e t h e i m p o r t a n c e o f t e r m s w i t h i n o r a m o n g d o c u m e n t s .
S p e c i c a l l y , w e c a n w r i t e
a
j
= L ( i j ) G ( i )( 5 )
-
8/14/2019 Using Linear Algebra for Information Retrieval
4/24
4 B e r r y , D u m a i s a n d O ' B r i e n
w h e r e L ( i j ) i s t h e l o c a l w e i g h t i n g f o r t e r m i i n d o c u m e n t j , a n d G ( i ) i s t h e g l o b a l w e i g h t i n g f o r t e r m
i . T h e m a t r i x A i s f a c t o r e d i n t o t h e p r o d u c t o f 3 m a t r i c e s ( E q u a t i o n ( 1 ) ) u s i n g t h e s i n g u l a r v a l u e
d e c o m p o s i t i o n ( S V D ) . T h e S V D d e r i v e s t h e l a t e n t s e m a n t i c s t r u c t u r e m o d e l f r o m t h e o r t h o g o n a l
m a t r i c e s U a n d V c o n t a i n i n g l e f t a n d r i g h t s i n g u l a r v e c t o r s o f A , r e s p e c t i v e l y , a n d t h e d i a g o n a l
m a t r i x , , o f s i n g u l a r v a l u e s o f A . T h e s e m a t r i c e s r e e c t a b r e a k d o w n o f t h e o r i g i n a l r e l a t i o n s h i p s
i n t o l i n e a r l y - i n d e p e n d e n t v e c t o r s o r f a c t o r v a l u e s . T h e u s e o f k f a c t o r s o r k - l a r g e s t s i n g u l a r t r i p l e t s i s
e q u i v a l e n t t o a p p r o x i m a t i n g t h e o r i g i n a l ( a n d s o m e w h a t u n r e l i a b l e ) t e r m - d o c u m e n t m a t r i x b y A
k
n
E q u a t i o n ( 2 ) . I n s o m e s e n s e , t h e S V D c a n b e v i e w e d a s a t e c h n i q u e f o r d e r i v i n g a s e t o f u n c o r r e l a t e d
i n d e x i n g v a r i a b l e s o r f a c t o r s , w h e r e b y e a c h t e r m a n d d o c u m e n t i s r e p r e s e n t e d b y a v e c t o r i n k - s p a c e
u s i n g e l e m e n t s o f t h e l e f t o r r i g h t s i n g u l a r v e c t o r s ( s e e T a b l e 1 ) .
T a b l e 1
I n t e r p r e t a t i o n o f S V D c o m p o n e n t s w i t h i n L S I .
A
k
= B e s t r a n k - k a p p r o x i m a t i o n t o A
m = N u m b e r o f t e r m s
U = T e r m v e c t o r s n = N u m b e r o f d o c u m e n t s
= S i n g u l a r v a l u e s k = N u m b e r o f f a c t o r s
V = D o c u m e n t v e c t o r s r = R a n k o f A
F i g u r e 1 i s a m a t h e m a t i c a l r e p r e s e n t a t i o n o f t h e s i n g u l a r v a l u e d e c o m p o s i t i o n . U a n d V a r e
c o n s i d e r e d t h e t e r m a n d d o c u m e n t v e c t o r s r e s p e c t i v e l y , a n d r e p r e s e n t s t h e s i n g u l a r v a l u e s . T h e
s h a d e d r e g i o n s i n U a n d V a n d t h e d i a g o n a l l i n e i n r e p r e s e n t A
k
f r o m E q u a t i o n ( 2 ) .
I t i s i m p o r t a n t f o r t h e L S I m e t h o d t h a t t h e d e r i v e d A
k
m a t r i x n o t r e c o n s t r u c t t h e o r i g i n a l t e r m
d o c u m e n t m a t r i x A e x a c t l y . T h e t r u n c a t e d S V D , i n o n e s e n s e , c a p t u r e s m o s t o f t h e i m p o r t a n t
u n d e r l y i n g s t r u c t u r e i n t h e a s s o c i a t i o n o f t e r m s a n d d o c u m e n t s , y e t a t t h e s a m e t i m e r e m o v e s t h e
n o i s e o r v a r i a b i l i t y i n w o r d u s a g e t h a t p l a g u e s w o r d - b a s e d r e t r i e v a l m e t h o d s . I n t u i t i v e l y , s i n c e t h e
n u m b e r o f d i m e n s i o n s , k , i s m u c h s m a l l e r t h a n t h e n u m b e r o f u n i q u e t e r m s , m , m i n o r d i e r e n c e s i n
t e r m i n o l o g y w i l l b e i g n o r e d . T e r m s w h i c h o c c u r i n s i m i l a r d o c u m e n t s , f o r e x a m p l e , w i l l b e n e a r e a c h
o t h e r i n t h e k - d i m e n s i o n a l f a c t o r s p a c e e v e n i f t h e y n e v e r c o - o c c u r i n t h e s a m e d o c u m e n t . T h i s m e a n s
t h a t s o m e d o c u m e n t s w h i c h d o n o t s h a r e a n y w o r d s w i t h a u s e r s q u e r y m a y n o n e t h e l e s s b e n e a r i t
n k - s p a c e . T h i s d e r i v e d r e p r e s e n t a t i o n w h i c h c a p t u r e s t e r m - t e r m a s s o c i a t i o n s i s u s e d f o r r e t r i e v a l .
C o n s i d e r t h e w o r d s c a r a u t o m o b i l e d r i v e r , a n d e l e p h a n t . T h e t e r m s c a r a n d a u t o m o b i l e a r e
s y n o n y m s , d r i v e r i s a r e l a t e d c o n c e p t a n d e l e p h a n t i s u n r e l a t e d . I n m o s t r e t r i e v a l s y s t e m s , t h e q u e r y
a u t o m o b i l e s i s n o m o r e l i k e l y t o r e t r i e v e d o c u m e n t s a b o u t c a r s t h a n d o c u m e n t s a b o u t e l e p h a n t s ,
i f n e i t h e r u s e d p r e c i s e l y t h e t e r m a u t o m o b i l e i n t h e d o c u m e n t s . I t w o u l d b e p r e f e r a b l e i f a q u e r y
a b o u t a u t o m o b i l e s a l s o r e t r i e v e d a r t i c l e s a b o u t c a r s a n d e v e n a r t i c l e s a b o u t d r i v e r s t o a l e s s e r e x t e n t .
T h e d e r i v e d k - d i m e n s i o n a l f e a t u r e s p a c e c a n r e p r e s e n t t h e s e u s e f u l t e r m i n t e r - r e l a t i o n s h i p s . R o u g h l y
s p e a k i n g , t h e w o r d s c a r a n d a u t o m o b i l e w i l l o c c u r w i t h m a n y o f t h e s a m e w o r d s ( e . g . m o t o r , m o d e l ,
v e h i c l e , c h a s s i s , c a r m a k e r s , s e d a n , e n g i n e , e t c . ) , a n d t h e y w i l l h a v e s i m i l a r r e p r e s e n t a t i o n s i n k - s p a c e .
T h e c o n t e x t s f o r d r i v e r w i l l o v e r l a p t o a l e s s e r e x t e n t , a n d t h o s e f o r e l e p h a n t w i l l b e q u i t e d i s s i m i l a r .
T h e m a i n i d e a i n L S I i s t o e x p l i c i t l y m o d e l t h e i n t e r r e l a t i o n s h i p s a m o n g t e r m s ( u s i n g t h e t r u n c a t e d
S V D ) a n d t o e x p l o i t t h i s t o i m p r o v e r e t r i e v a l .
2 . 2 . Q u e r i e s . F o r p u r p o s e s o f i n f o r m a t i o n r e t r i e v a l , a u s e r ' s q u e r y m u s t b e r e p r e s e n t e d a s a
v e c t o r i n k - d i m e n s i o n a l s p a c e a n d c o m p a r e d t o d o c u m e n t s . A q u e r y ( l i k e a d o c u m e n t ) i s a s e t o f
w o r d s . F o r e x a m p l e , t h e u s e r q u e r y c a n b e r e p r e s e n t e d b y
q = q
T
U
k
1
k
( 6 )
w h e r e q i s s i m p l y t h e v e c t o r o f w o r d s i n t h e u s e r s q u e r y , m u l t i p l i e d b y t h e a p p r o p r i a t e t e r m w e i g h t s
( s e e E q u a t i o n ( 5 ) ) . T h e s u m o f t h e s e k - d i m e n s i o n a l t e r m s v e c t o r s i s r e e c t e d b y t h e q
T
U
k
t e r m
i n E q u a t i o n ( 6 ) , a n d t h e r i g h t m u l t i p l i c a t i o n b y
1
k
d i e r e n t i a l l y w e i g h t s t h e s e p a r a t e d i m e n s i o n s .
T h u s , t h e q u e r y v e c t o r i s l o c a t e d a t t h e w e i g h t e d s u m o f i t s c o n s t i t u e n t t e r m v e c t o r s . T h e q u e r y
v e c t o r c a n t h e n b e c o m p a r e d t o a l l e x i s t i n g d o c u m e n t v e c t o r s , a n d t h e d o c u m e n t s r a n k e d b y t h e i r
s i m i l a r i t y ( n e a r n e s s ) t o t h e q u e r y . O n e c o m m o n m e a s u r e o f s i m i l a r i t y i s t h e c o s i n e b e t w e e n t h e q u e r y
v e c t o r a n d d o c u m e n t v e c t o r . T y p i c a l l y , t h e z c l o s e s t d o c u m e n t s o r a l l d o c u m e n t s e x c e e d i n g s o m e
c o s i n e t h r e s h o l d a r e r e t u r n e d t o t h e u s e r 4 ] .
-
8/14/2019 Using Linear Algebra for Information Retrieval
5/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 5
A
k
m n
=
U
T e r m
V e c t o r s
m r
k
r r
k
k
V
T
D o c u m e n t
V e c t o r s
r n
k
F i g . 1 M a t h e m a t i c a l r e p r e s e n t a t i o n o f t h e m a t r i x A
k
2 . 3 . U p d a t i n g . S u p p o s e a n L S I - g e n e r a t e d d a t a b a s e a l r e a d y e x i s t s . T h a t i s , a c o l l e c t i o n o f
t e x t o b j e c t s h a s b e e n p a r s e d , a t e r m - d o c u m e n t m a t r i x h a s b e e n g e n e r a t e d , a n d t h e S V D o f t h e t e r m -
d o c u m e n t m a t r i x h a s b e e n c o m p u t e d . I f m o r e t e r m s a n d d o c u m e n t s m u s t b e a d d e d , t w o a l t e r n a t i v e s
f o r i n c o r p o r a t i n g t h e m c u r r e n t l y e x i s t : r e c o m p u t i n g t h e S V D o f a n e w t e r m - d o c u m e n t m a t r i x o r
f o l d i n g - i n t h e n e w t e r m s a n d d o c u m e n t s .
F o u r t e r m s a r e d e n e d b e l o w t o a v o i d c o n f u s i o n w h e n d i s c u s s i n g u p d a t i n g . U p d a t i n g r e f e r s t o
t h e g e n e r a l p r o c e s s o f a d d i n g n e w t e r m s a n d / o r d o c u m e n t s t o a n e x i s t i n g L S I - g e n e r a t e d d a t a b a s e .
U p d a t i n g c a n m e a n e i t h e r f o l d i n g - i n o r S V D - u p d a t i n g . S V D - u p d a t i n g i s t h e n e w m e t h o d o f u p d a t i n g
d e v e l o p e d i n 2 3 ] . F o l d i n g - i n t e r m s o r d o c u m e n t s i s a m u c h s i m p l e r a l t e r n a t i v e t h a t u s e s a n e x i s t i n g
S V D t o r e p r e s e n t n e w i n f o r m a t i o n . R e c o m p u t i n g t h e S V D i s n o t a n u p d a t i n g m e t h o d , b u t a w a y
o f c r e a t i n g a n L S I - g e n e r a t e d d a t a b a s e w i t h n e w t e r m s a n d / o r d o c u m e n t s f r o m s c r a t c h w h i c h c a n b e
c o m p a r e d t o e i t h e r u p d a t i n g m e t h o d .
R e c o m p u t i n g t h e S V D o f a l a r g e r t e r m - d o c u m e n t m a t r i x r e q u i r e s m o r e c o m p u t a t i o n t i m e a n d ,
f o r l a r g e p r o b l e m s , m a y b e i m p o s s i b l e d u e t o m e m o r y c o n s t r a i n t s . R e c o m p u t i n g t h e S V D a l l o w s
t h e n e w p t e r m s a n d q d o c u m e n t s t o d i r e c t l y a e c t t h e l a t e n t s e m a n t i c s t r u c t u r e b y c r e a t i n g a n e w
t e r m - d o c u m e n t m a t r i x A
( m + p ( n + q
, c o m p u t i n g t h e S V D o f t h e n e w t e r m - d o c u m e n t m a t r i x , a n d
g e n e r a t i n g a d i e r e n t A
k
m a t r i x . I n c o n t r a s t , f o l d i n g - i n i s b a s e d o n t h e e x i s t i n g l a t e n t s e m a n t i c
s t r u c t u r e , t h e c u r r e n t A
k
, a n d h e n c e n e w t e r m s a n d d o c u m e n t s h a v e n o e e c t o n t h e r e p r e s e n t a t i o n
o f t h e p r e - e x i s t i n g t e r m s a n d d o c u m e n t s . F o l d i n g - i n r e q u i r e s l e s s t i m e a n d m e m o r y b u t c a n h a v e
d e t e r i o r a t i n g e e c t s o n t h e r e p r e s e n t a t i o n o f t h e n e w t e r m s a n d d o c u m e n t s .
F o l d i n g - i n d o c u m e n t s i s e s s e n t i a l l y t h e p r o c e s s d e s c r i b e d i n S e c t i o n 2 . 2 f o r q u e r y r e p r e s e n t a t i o n .
E a c h n e w d o c u m e n t i s r e p r e s e n t e d a s a w e i g h t e d s u m o f i t s c o m p o n e n t t e r m v e c t o r s . O n c e a n e w
d o c u m e n t v e c t o r h a s b e e n c o m p u t e d i t i s a p p e n d e d t o t h e s e t o f e x i s t i n g d o c u m e n t v e c t o r s o r c o l u m n s
o f V
k
( s e e F i g u r e 2 ) . S i m i l a r l y , n e w t e r m s c a n b e r e p r e s e n t e d a s a w e i g h t e d s u m o f t h e v e c t o r s f o r
d o c u m e n t s i n w h i c h t h e y a p p e a r . O n c e t h e t e r m v e c t o r h a s b e e n c o m p u t e d i t i s a p p e n d e d t o t h e s e t
o f e x i s t i n g t e r m v e c t o r s o r c o l u m n s o f U
k
( s e e F i g u r e 3 ) .
T o f o l d - i n a n e w m 1 d o c u m e n t v e c t o r , d , i n t o a n e x i s t i n g L S I m o d e l , a p r o j e c t i o n ,
d o f d o n t o
t h e s p a n o f t h e c u r r e n t t e r m v e c t o r s ( c o l u m n s o f U
k
) i s c o m p u t e d b y
d = d
T
U
k
1
k
( 7 )
S i m i l a r l y , t o f o l d - i n a n e w 1 n t e r m v e c t o r , t , i n t o a n e x i s t i n g L S I m o d e l , a p r o j e c t i o n ,
t o f t o n t o
t h e s p a n o f t h e c u r r e n t d o c u m e n t v e c t o r s ( c o l u m n s o f V
k
) i s d e t e r m i n e d b y
t = t V
k
1
k
( 8 )
3 . A D e m o n s t r a t i o n o f L a t e n t S e m a n t i c I n d e x i n g . I n t h i s s e c t i o n , L a t e n t S e m a n t i c I n -
d e x i n g ( L S I ) a n d t h e f o l d i n g - i n p r o c e s s d i s c u s s e d i n S e c t i o n 2 . 3 a r e a p p l i e d t o a s m a l l d a t a b a s e o f b o o k
t i t l e s . I n T a b l e 2 , 1 7 b o o k t i t l e s f r o m b o o k r e v i e w s p u b l i s h e d i n t h e D e c e m b e r 1 9 9 3 i s s u e ( v o l u m e 5 4 ,
n u m b e r 4 ) o f S I A M R e v i e w a r e l i s t e d . A l l t h e u n d e r l i n e d w o r d s i n T a b l e 2 d e n o t e k e y w o r d s w h i c h
a r e u s e d a s r e f e r e n t s t o t h e b o o k t i t l e s . T h e p a r s i n g r u l e u s e d f o r t h i s s a m p l e d a t a b a s e r e q u i r e d t h a t
-
8/14/2019 Using Linear Algebra for Information Retrieval
6/24
6 B e r r y , D u m a i s a n d O ' B r i e n
p
A
k
m n
m ( n + p )
=
U
k
m k
m k
k
k k
k k
p
V
T
k
k ( n + p )
k n
F i g . 2 M a t h e m a t i c a l r e p r e s e n t a t i o n o f f o l d i n g - i n p d o c u m e n t s .
A
k
q
( m + q ) n
m n
=
U
k
( m + q ) k
m k
q
k
k k
k k
V
T
k
k n
k n
F i g . 3 M a t h e m a t i c a l r e p r e s e n t a t i o n o f f o l d i n g - i n q t e r m s .
-
8/14/2019 Using Linear Algebra for Information Retrieval
7/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 7
k e y w o r d s a p p e a r i n m o r e t h a n o n e b o o k t i t l e . O f c o u r s e , a l t e r n a t i v e p a r s i n g s t r a t e g i e s c a n i n c r e a s e
o r d e c r e a s e t h e n u m b e r o f i n d e x i n g k e y w o r d s ( o r t e r m s ) .
T a b l e 2
D a t a b a s e o f t i t l e s f r o m b o o k s r e v i e w e d i n S I A M R e v i e w . U n d e r l i n e d k e y w o r d s a p p e a r i n m o r e
t h a n o n e b o o k t i t l e .
L a b e l T i t l e s
B 1 A C o u r s e o n I n t e g r a l E q u a t i o n s
B 2 A t t r a c t o r s f o r S e m i g r o u p s a n d E v o l u t i o n E q u a t i o n s
B 3 A u t o m a t i c D i e r e n t i a t i o n o f A l g o r i t h m s : T h e o r y , I m p l e m e n t a t i o n ,
a n d A p p l i c a t i o n
B 4 G e o m e t r i c a l A s p e c t s o f P a r t i a l D i e r e n t i a l E q u a t i o n s
B 5 I d e a l s , V a r i e t i e s , a n d A l g o r i t h m s { A n I n t r o d u c t i o n t o
C o m p u t a t i o n a l A l g e b r a i c G e o m e t r y a n d C o m m u t a t i v e A l g e b r a
B 6 I n t r o d u c t i o n t o H a m i l t o n i a n D y n a m i c a l S y s t e m s a n d t h e
N - B o d y P r o b l e m
B 7 K n a p s a c k P r o b l e m s : A l g o r i t h m s a n d C o m p u t e r I m p l e m e n t a t i o n s
B 8 M e t h o d s o f S o l v i n g S i n g u l a r S y s t e m s o f O r d i n a r y
D i e r e n t i a l E q u a t i o n s
B 9 N o n l i n e a r S y s t e m s
B 1 0 O r d i n a r y D i e r e n t i a l E q u a t i o n s
B 1 1 O s c i l l a t i o n T h e o r y f o r N e u t r a l D i e r e n t i a l
E q u a t i o n s w i t h D e l a y
B 1 2 O s c i l l a t i o n T h e o r y o f D e l a y D i e r e n t i a l E q u a t i o n s
B 1 3 P s e u d o d i e r e n t i a l O p e r a t o r s a n d N o n l i n e a r P a r t i a l D i e r e n t i a l
E q u a t i o n s
B 1 4 S i n c M e t h o d s f o r Q u a d r a t u r e a n d D i e r e n t i a l E q u a t i o n s
B 1 5 S t a b i l i t y o f S t o c h a s t i c D i e r e n t i a l E q u a t i o n s w i t h R e s p e c t
t o S e m i - M a r t i n g a l e s
B 1 6 T h e B o u n d a r y I n t e g r a l A p p r o a c h t o S t a t i c a n d D y n a m i c
C o n t a c t P r o b l e m s
B 1 7 T h e D o u b l e M e l l i n - B a r n e s T y p e I n t e g r a l s a n d T h e i r A p p l i c a t i o n s
t o C o n v o l u t i o n T h e o r y
C o r r e s p o n d i n g t o t h e t e x t i n T a b l e 2 i s t h e 1 6 1 7 t e r m - d o c u m e n t m a t r i x s h o w n i n T a b l e 3 . T h e
e l e m e n t s o f t h i s m a t r i x a r e t h e f r e q u e n c i e s i n w h i c h a t e r m o c c u r s i n a d o c u m e n t o r b o o k t i t l e ( s e e
S e c t i o n 4 ) . F o r e x a m p l e , i n b o o k t i t l e B 3 , t h e t h i r d c o l u m n o f t h e t e r m - d o c u m e n t m a t r i x , a l g o r i t h m s
t h e o r y i m p l e m e n t a t i o n , a n d a p p l i c a t i o n a l l o c c u r o n c e . F o r s i m p l i c i t y , t e r m w e i g h t i n g i s n o t u s e d i n
t h i s e x a m p l e m a t r i x . N o w c o m p u t e t h e t r u n c a t e d S V D ( w i t h k = 2 ) o f t h e 1 6 1 7 m a t r i x i n T a b l e 2
t o o b t a i n t h e r a n k - 2 a p p r o x i m a t i o n A
2
a s d e n e d i n F i g u r e 1 .
U s i n g t h e r s t c o l u m n o f U
2
m u l t i p l i e d b y t h e r s t s i n g u l a r v a l u e ,
1
, f o r t h e x - c o o r d i n a t e s a n d
t h e s e c o n d c o l u m n o f U
2
m u l t i p l i e d b y t h e s e c o n d s i n g u l a r v a l u e ,
2
, f o r t h e y - c o o r d i n a t e s , t h e t e r m s
c a n b e r e p r e s e n t e d o n t h e C a r t e s i a n p l a n e . S i m i l a r l y , t h e r s t c o l u m n o f V
2
s c a l e d b y
1
a r e t h e
x - c o o r d i n a t e s a n d t h e s e c o n d c o l u m n o f V
2
s c a l e d b y
2
a r e t h e y - c o o r d i n a t e s f o r t h e d o c u m e n t s
( b o o k t i t l e s ) . F i g u r e 4 i s a t w o - d i m e n s i o n a l p l o t o f t h e t e r m s a n d d o c u m e n t s f o r t h e 1 6 1 7 s a m p l e
t e r m - d o c u m e n t m a t r i x .
N o t i c e t h e d o c u m e n t s a n d t e r m s p e r t a i n i n g t o d i e r e n t i a l e q u a t i o n s a r e c l u s t e r e d a r o u n d t h e x -
a x i s a n d t h e m o r e g e n e r a l t e r m s a n d d o c u m e n t s r e l a t e d t o a l g o r i t h m s a n d a p p l i c a t i o n s a r e c l u s t e r e d
a r o u n d t h e y - a x i s . S u c h g r o u p i n g s s u g g e s t t h a t t h e s u b s e t o f b o o k t i t l e s f B 2 , B 4 , B 8 , B 9 , B 1 0
B 1 3 , B 1 4 , B 1 5 g c o n t a i n s t i t l e s s i m i l a r i n m e a n i n g , f o r e x a m p l e .
-
8/14/2019 Using Linear Algebra for Information Retrieval
8/24
8 B e r r y , D u m a i s a n d O ' B r i e n
T a b l e 3
T h e 1 6 1 7 t e r m - d o c u m e n t m a t r i x c o r r e s p o n d i n g t o t h e b o o k t i t l e s i n T a b l e 2 .
T e r m s D o c u m e n t s
B 1 B 2 B 3 B 4 B 5 B 6 B 7 B 8 B 9 B 1 0 B 1 1 B 1 2 B 1 3 B 1 4 B 1 5 B 1 6 B 1 7
a l g o r i t h m s 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0
a p p l i c a t i o n 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1
d e l a y 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0
d i e r e n t i a l 0 0 0 1 0 0 0 1 0 1 1 1 1 1 1 0 0
e q u a t i o n s 1 1 0 1 0 0 0 1 0 1 1 1 1 1 1 0 0
i m p l e m e n t a t i o n 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0
i n t e g r a l 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
i n t r o d u c t i o n 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0
m e t h o d s 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0
n o n l i n e a r 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0
o r d i n a r y 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0
o s c i l l a t i o n 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0
p a r t i a l 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0
p r o b l e m 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0
s y s t e m s 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0
t h e o r y 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 1
-
8/14/2019 Using Linear Algebra for Information Retrieval
9/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 9
0.0 0.2 0.4 0.6 0.8 1.0
0.1
0.2
- 0.2
-0.5
algorithms
application
delay
differentialequations
implementation
integral
introduction
methods
nonlinear
ordinary
oscillation
partial
problem
systems
theory
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
B11
B12
B13
B14B15
B16
B17
F i g . 4 T w o - d i m e n s i o n a l p l o t o f t e r m s a n d d o c u m e n t s f o r t h e 1 6 1 7 e x a m p l e .
-
8/14/2019 Using Linear Algebra for Information Retrieval
10/24
-
8/14/2019 Using Linear Algebra for Information Retrieval
11/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 1
3 . 4 . R e c o m p u t i n g t h e S V D . I d e a l l y , t h e m o s t r o b u s t w a y t o p r o d u c e t h e b e s t r a n k - k a p p r o x -
i m a t i o n ( A
k
) t o a t e r m - d o c u m e n t m a t r i x w h i c h h a s b e e n u p d a t e d w i t h n e w t e r m s a n d d o c u m e n t s i s t o
s i m p l y c o m p u t e t h e S V D o f a r e c o n s t r u c t e d t e r m - d o c u m e n t m a t r i x , s a y
~
A . U p d a t i n g m e t h o d s w h i c h
c a n a p p r o x i m a t e t h e S V D o f t h e l a r g e r t e r m - d o c u m e n t m a t r i x
~
A b e c o m e a t t r a c t i v e i n t h e p r e s e n c e
o f m e m o r y o r t i m e c o n s t r a i n t s . A s d i s c u s s e d i n 2 3 ] , t h e t h e a c c u r a c y o f S V D - u p d a t i n g a p p r o a c h e s
c a n b e e a s i l y c o m p a r e d t o t h a t o b t a i n e d w h e n t h e S V D o f
~
A i s e x p l i c i t l y c o m p u t e d .
S u p p o s e t h e t i t l e s f r o m T a b l e 5 a r e c o m b i n e d w i t h t h o s e o f T a b l e 2 i n o r d e r t o c r e a t e a n e w 1 6 2 0
t e r m - d o c u m e n t m a t r i x
~
A . F o l l o w i n g F i g u r e 1 , w e t h e n c o n s t r u c t t h e b e s t r a n k - 2 a p p r o x i m a t i o n t o
~
A
~
A
2
=
~
U
2
~
2
~
V
T
2
( 9 )
F i g u r e 8 i s a t w o - d i m e n s i o n a l p l o t o f t h e 1 6 t e r m s a n d 2 0 d o c u m e n t s ( b o o k t i t l e s ) u s i n g t h e e l e m e n t s
o f
~
U
2
a n d
~
V
2
f o r t e r m a n d d o c u m e n t c o o r d i n a t e s , r e s p e c t i v e l y . N o t i c e t h e d i e r e n c e i n t e r m a n d
d o c u m e n t p o s i t i o n s b e t w e e n F i g u r e s 7 a n d 8 . C l e a r l y , t h e t h e n e w b o o k t i t l e s f r o m T a b l e 5 h a v e
h e l p e d r e d e n e t h e u n d e r l y i n g l a t e n t s t r u c t u r e w h e n t h e S V D o f
~
A i s c o m p u t e d . T h a t i s , o n e c a n
d i s c u s s o r d i n a r y a l g o r i t h m s a n d o r d i n a r y d i e r e n t i a l e q u a t i o n s i n d i e r e n t c o n t e x t s . F o l d i n g - i n t h e
3 n e w b o o k t i t l e s b a s e d o n t h e e x i s t i n g r a n k - 2 a p p r o x i m a t i o n t o A ( d e n e d b y T a b l e 3 ) m a y n o t
a c c u r a t e l y r e p r o d u c e t h e t r u e L S I r e p r e s e n t a t i o n o f t h e n e w ( o r u p d a t e d ) d a t a b a s e .
I n p r a c t i c e , t h e d i e r e n c e b e t w e e n f o l d i n g - i n a n d S V D - u p d a t i n g i s l i k e l y t o d e p e n d o n t h e n u m b e r
o f n e w d o c u m e n t s a n d t e r m s r e l a t i v e t o t h e n u m b e r i n t h e o r i g i n a l S V D o f A . T h u s , w e e x p e c t
S V D - u p d a t i n g t o b e e s p e c i a l l y v a l u a b l e f o r r a p i d l y c h a n g i n g d a t a b a s e s .
T a b l e 4
R e t u r n e d d o c u m e n t s b a s e d o n d i e r e n t n u m b e r s o f L S I f a c t o r s .
N u m b e r o f F a c t o r s
k = 2 k = 4 k = 8
B 1 7 . 9 9 B 1 7 . 8 7 B 1 7 . 8 8
B 3 . 9 9 B 3 . 8 2 B 3 . 7 8
B 6 . 9 9 B 1 2 . 5 7 B 1 2 . 3 7
B 1 6 . 9 9 B 1 1 . 5 7 B 1 1 . 3 7
B 5 . 9 8 B 1 6 . 3 8
B 7 . 9 8 B 7 . 3 8
B 1 2 . 5 5 B 1 . 3 5
B 1 1 . 5 5 B 5 . 2 2
B 1 . 3 8
T a b l e 5
A d d i t i o n a l t i t l e s f o r u p d a t i n g .
L a b e l T i t l e s
B 1 8 S y s t e m s o f N o n l i n e a r E q u a t i o n s
B 1 9 O r d i n a r y A l g o r i t h m s f o r I n t e g r a l a n d D i e r e n t i a l E q u a t i o n s
B 2 0 O r d i n a r y A p p l i c a t i o n s o f O s c i l l a t i o n T h e o r y
-
8/14/2019 Using Linear Algebra for Information Retrieval
12/24
1 2 B e r r y , D u m a i s a n d O ' B r i e n
0.0 0.2 0.4 0.6 0.8 1.0
0.1
0.2
- 0.2
-0.5
algorithms
application
delay
differentialequations
implementation
integral
introduction
methods
nonlinear
ordinary
oscillation
partial
problem
systems
theory
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
B11
B12
B13
B14B15
B16
B17
QUERY
F i g . 6 A T w o - d i m e n s i o n a l p l o t o f t e r m s a n d d o c u m e n t s a l o n g w i t h t h e q u e r y a p p l i c a t i o n
t h e o r y
-
8/14/2019 Using Linear Algebra for Information Retrieval
13/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 3
0.0 0.2 0.4 0.6 0.8 1.0
0.1
0.2
- 0.2
-0.5
algorithms
application
delay
differentialequations
implementation
integral
introduction
methods
nonlinear
ordinary
oscillation
partial
problem
systems
theory
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
B11
B12
B13
B14B15
B16
B17
B18
B19 B20
F i g . 7 T w o - d i m e n s i o n a l p l o t o f f o l d e d - i n b o o k t i t l e s .
-
8/14/2019 Using Linear Algebra for Information Retrieval
14/24
1 4 B e r r y , D u m a i s a n d O ' B r i e n
0.0 0.2 0.4 0.6 0.8 1.0
0.1
0.2
- 0.2
-0.5
algorithms
application
delay
differential
equations
implementation
integral
introduction
methods
nonlinear
ordinary
oscillation
partial
problem
systems
theory
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
B11
B12
B13
B14
B15
B16
B17
B18
B19
B20
F i g . 8 T w o - d i m e n s i o n a l p l o t o f t e r m s a n d d o c u m e n t s u s i n g t h e S V D o f a r e c o n s t r u c t e d
t e r m - d o c u m e n t m a t r i x .
-
8/14/2019 Using Linear Algebra for Information Retrieval
15/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 5
4 . S V D - U p d a t i n g . T h e p r o c e s s o f S V D - u p d a t i n g d i s c u s s e d i n S e c t i o n 2 . 3 c a n a l s o b e i l l u s -
t r a t e d u s i n g t i t l e s f r o m T a b l e s 2 a n d 5 . T h e t h r e e s t e p s r e q u i r e d t o p e r f o r m a c o m p l e t e S V D - u p d a t e
i n v o l v e a d d i n g n e w d o c u m e n t s , a d d i n g n e w t e r m s , a n d c o r r e c t i o n f o r c h a n g e s i n t e r m w e i g h t i n g s . T h e
o r d e r o f t h e s e s t e p s , h o w e v e r , n e e d n o t f o l l o w t h e o r d e r i n g p r e s e n t e d i n t h i s s e c t i o n ( s e e 2 3 ] ) .
4 . 1 . O v e r v i e w . L e t D d e n o t e t h e p n e w d o c u m e n t v e c t o r s t o p r o c e s s , t h e n D i s a n m p s p a r s e
m a t r i x s i n c e m o s t t e r m s ( a s w a s t h e c a s e w i t h t h e o r i g i n a l t e r m - d o c u m e n t m a t r i x A ) d o n o t o c c u r i n
e a c h d o c u m e n t . D i s a p p e n d e d t o t h e c o l u m n s o f t h e r a n k - k a p p r o x i m a t i o n o f t h e m n m a t r i x A
i . e . , f r o m E q u a t i o n ( 2 ) , A
k
s o t h a t t h e k - l a r g e s t s i n g u l a r v a l u e s a n d c o r r e s p o n d i n g s i n g u l a r v e c t o r s o f
B = ( A
k
D )( 1 0 )
a r e c o m p u t e d . T h i s i s a l m o s t t h e s a m e p r o c e s s a s r e c o m p u t i n g t h e S V D , o n l y A i s r e p l a c e d b y A
k
L e t T d e n o t e a c o l l e c t i o n o f q t e r m v e c t o r s f o r S V D - u p d a t i n g . T h e n T i s a q n s p a r s e m a t r i x ,
s i n c e e a c h t e r m r a r e l y o c c u r s i n e v e r y d o c u m e n t . T i s t h e n a p p e n d e d t o t h e r o w s o f A
k
s o t h a t t h e
k - l a r g e s t s i n g u l a r v a l u e s a n d c o r r e s p o n d i n g s i n g u l a r v e c t o r s o f
C =
A
k
T
( 1 1 )
a r e c o m p u t e d .
T h e c o r r e c t i o n s t e p f o r i n c o r p o r a t i n g c h a n g e s i n t e r m w e i g h t s ( s e e E q u a t i o n ( 5 ) ) i s p e r f o r m e d a f t e r
a n y t e r m s o r d o c u m e n t s h a v e b e e n S V D - u p d a t e d a n d t h e t e r m w e i g h t i n g s o f t h e o r i g i n a l m a t r i x h a v e
c h a n g e d . F o r a c h a n g e o f w e i g h t i n g s i n j t e r m s , l e t Y
j
b e a n m j m a t r i x c o m p r i s e d o f r o w s o f z e r o s
o r r o w s o f t h e j - t h o r d e r i d e n t i t y m a t r i x , I
j
, a n d l e t Z
j
b e a n n j m a t r i x w h o s e c o l u m n s s p e c i f y
t h e a c t u a l d i e r e n c e s b e t w e e n o l d a n d n e w w e i g h t s f o r e a c h o f t h e j t e r m s ( s e e 2 3 ] f o r e x a m p l e s ) .
C o m p u t i n g t h e S V D o f t h e f o l l o w i n g r a n k - j u p d a t e t o A
k
d e n e s t h e c o r r e c t i o n s t e p .
W = A
k
+ Y
j
Z
T
j
( 1 2 )
4 . 2 . S V D - U p d a t i n g P r o c e d u r e s . T h e m a t h e m a t i c a l c o m p u t a t i o n s r e q u i r e d i n e a c h p h a s e
o f t h e S V D - u p d a t i n g p r o c e s s a r e d e t a i l e d i n t h i s s e c t i o n . S V D - u p d a t i n g i n c o r p o r a t e s n e w t e r m o r
d o c u m e n t i n f o r m a t i o n i n t o a n e x i s t i n g s e m a n t i c m o d e l ( A
k
f r o m E q u a t i o n ( 2 ) ) u s i n g s p a r s e t e r m -
d o c u m e n t m a t r i c e s ( D T , a n d Y
j
Z
T
j
) d i s c u s s e d i n S e c t i o n 4 . 1 . S V D - u p d a t i n g e x p l o i t s t h e p r e v i o u s
s i n g u l a r v a l u e s a n d s i n g u l a r v e c t o r s o f t h e o r i g i n a l t e r m - d o c u m e n t s m a t r i x A a s a n a l t e r n a t i v e t o
r e c o m p u t i n g t h e S V D o f
~
A i n E q u a t i o n ( 9 ) . I n g e n e r a l , t h e c o s t o f c o m p u t i n g t h e S V D o f a s p a r s e
m a t r i x 3 ] c a n b e g e n e r a l l y e x p r e s s e d a s
I c o s t ( G
T
G x ) + t r p c o s t ( G x )
w h e r e I i s t h e n u m b e r o f i t e r a t i o n s r e q u i r e d b y a L a n c z o s - t y p e p r o c e d u r e 2 ] t o a p p r o x i m a t e t h e
e i g e n s y s t e m o f G
T
G a n d t r p i s t h e n u m b e r o f a c c e p t e d s i n g u l a r t r i p l e t s ( i . e . , s i n g u l a r v a l u e s a n d
c o r r e s p o n d i n g l e f t a n d r i g h t s i n g u l a r v e c t o r s ) . T h e a d d i t i o n a l m u l t i p l i c a t i o n b y G i s r e q u i r e d t o
e x t r a c t t h e l e f t s i n g u l a r v e c t o r g i v e n a p p r o x i m a t e s i n g u l a r v a l u e s a n d t h e i r c o r r e s p o n d i n g r i g h t s i n g u l a r
v e c t o r a p p r o x i m a t i o n s f r o m a L a n c z o s p r o c e d u r e . A b r i e f s u m m a r y o f t h e r e q u i r e d c o m p u t a t i o n s f o r
u p d a t i n g a n e x i s t i n g r a n k - k a p p r o x i m a t i o n A
k
u s i n g s t a n d a r d l i n e a r a l g e b r a i s g i v e n b e l o w . T a b l e 6
c o n t a i n s a l i s t o f s y m b o l s , d i m e n s i o n s , a n d v a r i a b l e s u s e d t o d e n e t h e S V D - u p d a t i n g p h a s e s .
T a b l e 6
S y m b o l s u s e d i n S V D - u p d a t i n g p h a s e s .
S y m b o l D i m e n s i o n s D e n i t i o n
A m n O r i g i n a l t e r m - d o c u m e n t m a t r i x
U
k
m k L e f t s i n g u l a r v e c t o r s o f A
k
k
k k S i n g u l a r v a l u e s o f A
k
V
k
n k R i g h t s i n g u l a r v e c t o r s o f A
k
Z
j
n j A d j u s t e d t e r m w e i g h t s
Y
j
m j P e r m u t a t i o n m a t r i x
D m p N e w d o c u m e n t v e c t o r s
T q n N e w t e r m v e c t o r s
-
8/14/2019 Using Linear Algebra for Information Retrieval
16/24
1 6 B e r r y , D u m a i s a n d O ' B r i e n
U p d a t i n g D o c u m e n t s . L e t B = ( A
k
D ) f r o m E q u a t i o n ( 1 0 ) a n d d e n e S V D ( B ) = U
B
B
V
T
B
T h e n
U
T
k
B
V
k
O
O I
p
= (
k
U
T
k
D )
s i n c e A
k
= U
k
k
V
T
k
I f F = (
k
U
T
k
D ) a n d S V D ( F ) = U
F
F
V
T
F
t h e n i t f o l l o w s t h a t
U
B
= U
k
U
F
V
B
=
V
k
O
O I
p
V
F
a n d
F
=
B
( 1 3 )
H e n c e U
B
a n d V
B
a r e m k a n d ( n + p ) ( k + p ) d e n s e m a t r i c e s , r e s p e c t i v e l y .
U p d a t i n g T e r m s . L e t C =
A
k
T
f r o m E q u a t i o n ( 1 1 ) a n d d e n e S V D ( C ) = U
C
C
V
T
C
T h e n
U
T
k
O
O I
q
C V
k
=
k
T V
k
I f H =
k
T V
k
a n d S V D ( H ) = U
H
H
V
T
H
t h e n i t f o l l o w s t h a t
U
C
=
U
k
O
O I
q
U
H
V
C
= V
k
V
H
a n d
H
=
C
H e n c e U
C
a n d V
C
a r e ( m + q ) ( k + q ) a n d n k d e n s e m a t r i c e s , r e s p e c t i v e l y .
T e r m W e i g h t C o r r e c t i o n s . L e t W = A
k
+ Y
j
Z
T
j
, w h e r e Y
j
s m j a n d Z
j
s n j f r o m
E q u a t i o n ( 1 2 ) , a n d d e n e S V D ( W ) = U
W
W
V
T
W
. T h e n
U
T
k
W V
k
= (
k
+ U
T
k
Y
j
Z
T
j
V
k
)
I f Q = (
k
+ U
T
k
Y
j
Z
T
j
V
k
) a n d S V D ( Q ) = U
Q
Q
V
T
Q
, t h e n i t f o l l o w s t h a t
U
W
= U
k
U
Q
a n d V
W
= V
k
V
Q
S i n c e ( U
Q
U
k
)
T
W V
k
V
Q
=
Q
=
W
. H e n c e U
W
a n d V
W
a r e m k a n d n k d e n s e m a t r i c e s ,
r e s p e c t i v e l y .
T a b l e 7 c o n t a i n s t h e c o m p l e x i t i e s f o r f o l d i n g - i n t e r m s a n d d o c u m e n t s , r e c o m p u t i n g t h e S V D , a n d
t h e t h r e e p h a s e s o f S V D - u p d a t i n g . U s i n g t h e c o m p l e x i t i e s i n T a b l e 7 t h e r e q u i r e d n u m b e r o f o a t i n g -
p o i n t o p e r a t i o n s ( o r o p s ) f o r e a c h m e t h o d c a n b e c o m p a r e d f o r v a r y i n g n u m b e r s o f a d d e d d o c u m e n t s
o r t e r m s . A s s h o w n i n 2 3 ] f o r a c o n d e n s e d e n c y c l o p e d i a t e s t c a s e , t h e c o m p u t a t i o n a l a d v a n t a g e s
o f o n e s c h e m e o v e r a n o t h e r d e p e n d s t h e v a l u e s o f t h e v a r i a b l e s l i s t e d i n T a b l e 6 . F o r e x a m p l e , i f
t h e s p a r s i t y o f t h e D m a t r i x f r o m E q u a t i o n ( 1 0 ) r e e c t s t h a t o f t h e o r i g i n a l m n t e r m - d o c u m e n t
m a t r i x A w i t h m n , t h e n f o l d i n g - i n w i l l s t i l l r e q u i r e c o n s i d e r a b l y f e w e r o p s t h a n S V D - u p d a t i n g
w h e n a d d i n g p n e w d o c u m e n t s p r o v i d e d p n . T h e e x p e n s e i n S V D - u p d a t i n g c a n b e a t t r i b u t e d t o
t h e O ( 2 k
2
m + 2 k
2
n ) o p s a s s o c i a t e d w i t h t h e d e n s e m a t r i x m u l t i p l i c a t i o n s i n v o l v i n g U
k
a n d V
k
n
E q u a t i o n ( 1 3 ) .
4 . 3 . O r t h o g o n a l i t y . O n e i m p o r t a n t d i s t i n c t i o n b e t w e e n t h e f o l d i n g - i n ( s e e S e c t i o n 2 . 3 ) a n d
t h e S V D - u p d a t i n g p r o c e s s e s l i e s i n t h e g u a r a n t e e o f o r t h o g o n a l i t y i n t h e v e c t o r s ( o r a x e s ) u s e d f o r
t e r m a n d d o c u m e n t c o o r d i n a t e s . R e c a l l t h a t a n o r t h o g o n a l m a t r i x Q s a t i s e s Q
T
Q = I
n
, w h e r e I
n
s
t h e n - t h o r d e r i d e n t i t y m a t r i x . L e t D
p
b e t h e c o l l e c t i o n o f a l l f o l d e d - i n d o c u m e n t s w h e r e e a c h c o l u m n
o f t h e p k m a t r i x i s a d o c u m e n t v e c t o r o f t h e f o r m
d f r o m E q u a t i o n ( 7 ) . S i m i l a r l y , l e t T
q
b e t h e
c o l l e c t i o n o f a l l f o l d e d - i n t e r m s s u c h t h a t e a c h c o l u m n o f t h e q k m a t r i x i s a t e r m v e c t o r o f t h e f o r m
t f r o m E q u a t i o n ( 8 ) . T h e n , a l l t e r m v e c t o r s a n d d o c u m e n t v e c t o r s a s s o c i a t e d w i t h f o l d i n g - i n c a n b e
r e p r e s e n t e d a s
U
k
=
;
U
T
k
T
T
q
T
a n d
V
k
=
;
V
T
k
D
T
p
T
, r e s p e c t i v e l y . T h e f o l d i n g - i n p r o c e s s c o r r u p t s
t h e o r t h o g o n a l i t y o f
U
k
a n d
V
k
b y a p p e n d i n g n o n - o r t h o g o n a l s u b m a t r i c e s T
q
a n d D
p
t o U
k
a n d V
k
r e s p e c t i v e l y . C o m p u t i n g
U
T
k
U
k
a n d
V
T
k
V
k
, t h e l o s s o f o r t h o g o n a l i t y i n
U
k
a n d
V
k
c a n b e m e a s u r e d b y
k
U
T
k
U
k
; I
k
k
2
a n d k
V
T
k
V
k
; I
k
k
2
-
8/14/2019 Using Linear Algebra for Information Retrieval
17/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 7
T a b l e 7
C o m p u t a t i o n a l c o m p l e x i t y o f u p d a t i n g m e t h o d s .
M e t h o d C o m p l e x i t y
S V D - u p d a t i n g I 4 n n z ( D ) + 4 m k + k ; 2 m ; d +
d o c u m e n t s t r p 2 n n z ( D ) + 2 m k ; m
+ ( 2 k
2
; k ) ( m + n )
S V D - u p d a t i n g I 4 n n z ( T ) + 4 k n + k ; 2 n ; q +
t e r m s t r p 2 n n z ( T ) + 2 k n + k ; 2 n ; q
+ ( 2 k
2
; k ) ( m + n )
S V D - u p d a t i n g I 4 n n z ( Z
j
) + 4 k m + 2 m j + 2 k n + 3 k ; 2 n ; 2 j ; m
c o r r e c t i o n s t e p + t r p 2 n n z ( Z
j
) + 2 k m + 2 k n + k ; j ; n
+ ( 2 k
2
; k ) ( m + n )
F o l d i n g - i n d o c u m e n t s 2 m k p
F o l d i n g - i n t e r m s 2 n k q
R e c o m p u t i n g I 4 n n z ( A ) ; ( m + q ) ; ( n + p ) +
t h e S V D t r p 2 n n z ( A ) ; ( m + q )
F o l d i n g - i n d o e s n o t m a i n t a i n t h e o r t h o g o n a l i t y o f
U
k
o r
V
k
s i n c e a r b i t r a r y v e c t o r s o f w e i g h t e d t e r m s
o r d o c u m e n t s a r e a p p e n d e d t o U
k
o r V
k
, r e s p e c t i v e l y . H o w e v e r , t h e a m o u n t b y w h i c h t h e f o l d i n g - i n
m e t h o d p e r t u r b s t h e o r t h o g o n a l i t y o f
U
k
o r
V
k
d o e s i n d i c a t e h o w m u c h d i s t o r t i o n h a s o c c u r r e d d u e
t o t h e a d d i t i o n o f n e w t e r m s o r d o c u m e n t s .
T h e t r a d e - o i n c o m p u t a t i o n a l c o m p l e x i t y a n d l o s s o f o r t h o g o n a l i t y i n t h e c o o r d i n a t e a x e s f o r
u p d a t i n g d a t a b a s e s u s i n g L S I p o s e s i n t e r e s t i n g f u t u r e r e s e a r c h . T h o u g h t h e S V D - u p d a t i n g p r o c e s s
i s c o n s i d e r a b l y m o r e e x p e n s i v e 2 3 ] t h a n f o l d i n g - i n , t h e t r u e l o w e r - r a n k a p p r o x i m a t i o n t o t h e t r u e
t e r m - d o c u m e n t m a t r i x A d e n e d b y F i g u r e 1 i s m a i n t a i n e d . S i g n i c a n t i n s i g h t s i n t h e f u t u r e c o u l d
b e g a i n e d b y m o n i t o r i n g t h e l o s s o f o r t h o g o n a l i t y a s s o c i a t e d w i t h f o l d i n g - i n a n d c o r r e l a t i n g i t t o t h e
n u m b e r o f r e l e v a n t d o c u m e n t s r e t u r n e d w i t h i n p a r t i c u l a r c o s i n e t h r e s h o l d s ( s e e S e c t i o n 3 . 1 ) .
4 . 4 . S V D - U p d a t i n g E x a m p l e . T o i l l u s t r a t e S V D - u p d a t i n g , s u p p o s e t h e c t i t i o u s t i t l e s i n
T a b l e 5 a r e t o b e a d d e d t o t h e o r i g i n a l s e t o f t i t l e s i n T a b l e 2 . I n t h i s e x a m p l e , o n l y d o c u m e n t s
a r e a d d e d a n d w e i g h t s a r e n o t a d j u s t e d , h e n c e o n l y t h e S V D o f t h e m a t r i x B i n E q u a t i o n ( 1 0 ) i s
c o m p u t e d .
I n i t i a l l y , a 1 6 3 t e r m - d o c u m e n t m a t r i x , D , c o r r e s p o n d i n g t o t h e c t i t i o u s t i t l e s i n T a b l e 5 i s
g e n e r a t e d a n d t h e n a p p e n d e d t o A
2
t o f o r m a 1 6 2 0 m a t r i x B o f t h e f o r m g i v e n b y E q u a t i o n ( 1 0 ) .
F o l l o w i n g F i g u r e 1 , t h e b e s t r a n k - 2 a p p r o x i m a t i o n ( B
2
) t o B i s g i v e n b y
B
2
=
U
2
2
V
T
2
w h e r e t h e c o l u m n s o f
U
2
a n d
V
2
a r e t h e l e f t a n d r i g h t s i n g u l a r v e c t o r s , r e s p e c t i v e l y , c o r r e s p o n d i n g t o
t h e t w o l a r g e s t s i n g u l a r v a l u e s o f B
F i g u r e 9 i s a t w o - d i m e n s i o n a l p l o t o f t h e 1 2 t e r m s a n d 1 6 d o c u m e n t s ( b o o k t i t l e s ) u s i n g t h e
e l e m e n t s o f
U
2
a n d
V
2
f o r t e r m a n d d o c u m e n t c o o r d i n a t e s , r e s p e c t i v e l y . N o t i c e t h e s i m i l a r c l u s t e r i n g
o f t e r m s a n d b o o k t i t l e s i n F i g u r e s 9 a n d 8 ( r e c o m p u t i n g t h e S V D ) a n d t h e d i e r e n c e i n d o c u m e n t
a n d t e r m c l u s t e r i n g w i t h F i g u r e 7 ( f o l d i n g - i n ) .
-
8/14/2019 Using Linear Algebra for Information Retrieval
18/24
1 8 B e r r y , D u m a i s a n d O ' B r i e n
0.0 0.2 0.4 0.6 0.8 1.0
0.1
0.2
- 0.2
-0.5
algorithms
application
delay
differential
equations
implementation
integral
introduction
methods
nonlinear
ordinary
oscillation
partial
problem
systems
theory
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
B11
B12
B13
B14
B15
B16
B17
B18
B19
B20
F i g . 9 T w o - d i m e n s i o n a l p l o t o f t e r m s a n d d o c u m e n t s u s i n g t h e S V D - u p d a t i n g p r o c e s s .
-
8/14/2019 Using Linear Algebra for Information Retrieval
19/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 1 9
5 . A p p l i c a t i o n s o f L a t e n t S e m a n t i c I n d e x i n g . I n t h i s s e c t i o n , s e v e r a l a p p l i c a t i o n s o f L S I
a r e d i s c u s s e d r a n g i n g f r o m i n f o r m a t i o n r e t r i e v a l a n d l t e r i n g t o m o d e l s o f h u m a n m e m o r y . S o m e o p e n
c o m p u t a t i o n a l a n d s t a t i s t i c a l - b a s e d i s s u e s r e l a t e d t o t h e p r a c t i c a l u s e o f L S I f o r s u c h a p p l i c a t i o n s a r e
a l s o m e n t i o n e d .
5 . 1 . I n f o r m a t i o n R e t r i e v a l . L a t e n t S e m a n t i c I n d e x i n g w a s i n i t i a l l y d e v e l o p e d f o r i n f o r m a -
t i o n r e t r i e v a l a p p l i c a t i o n s . I n t h e s e a p p l i c a t i o n , a x e d d a t a b a s e i s i n d e x e d a n d u s e r s p o s e a s e r i e s
o f r e t r i e v a l q u e r i e s . T h e e e c t i v e n e s s o f r e t r i e v a l s y s t e m s i s o f t e n e v a l u a t e d u s i n g t e s t c o l l e c t i o n s
d e v e l o p e d b y t h e i n f o r m a t i o n r e t r i e v a l c o m m u n i t y . T h e s e c o l l e c t i o n s c o n s i s t o f a s e t o f d o c u m e n t s , a
s e t o f u s e r q u e r i e s , a n d r e l e v a n c e j u d g e m e n t s ( i . e . , f o r e a c h q u e r y e v e r y d o c u m e n t i n t h e c o l l e c t i o n h a s
b e e n j u d g e d a s r e l e v a n t o r n o t t o t h e q u e r y )
1
. T h i s a l l o w s o n e t o e v a l u a t e t h e e e c t i v e n e s s o f d i e r e n t
s y s t e m s i n r e t r i e v i n g r e l e v a n t d o c u m e n t s a n d a t t h e s a m e t i m e n o t r e t u r n i n g i r r e l e v a n t d o c u m e n t s .
T w o m e a s u r e s , p r e c i s i o n a n d r e c a l l , a r e u s e d t o s u m m a r i z e r e t r i e v a l p e r f o r m a n c e . R e c a l l i s t h e p r o -
p o r t i o n o f a l l r e l e v a n t d o c u m e n t s i n t h e c o l l e c t i o n t h a t a r e r e t r i e v e d b y t h e s y s t e m a n d p r e c i s i o n s
t h e p r o p o r t i o n o f r e l e v a n t d o c u m e n t s i n t h e s e t r e t u r n e d t o t h e u s e r . A v e r a g e p r e c i s i o n a c r o s s s e v e r a l
l e v e l s o f r e c a l l c a n t h e n b e u s e d a s a s u m m a r y m e a s u r e o f p e r f o r m a n c e .
R e s u l t s w e r e o b t a i n e d f o r L S I a n d c o m p a r e d a g a i n s t p u b l i s h e d o r c o m p u t e d r e s u l t s f o r o t h e r
r e t r i e v a l t e c h n i q u e s , n o t a b l y t h e s t a n d a r d k e y w o r d v e c t o r m e t h o d i n S M A R T 2 4 ] . F o r s e v e r a l i n f o r -
m a t i o n s c i e n c e t e s t c o l l e c t i o n s , t h e a v e r a g e p r e c i s i o n u s i n g L S I r a n g e d f r o m c o m p a r a b l e t o t o 3 0 %
b e t t e r t h a n t h a t o b t a i n e d u s i n g s t a n d a r d k e y w o r d v e c t o r m e t h o d s . S e e 4 , 6 , 1 2 ] f o r d e t a i l s o f t h e s e
e v a l u a t i o n s . T h e L S I m e t h o d p e r f o r m s b e s t r e l a t i v e t o s t a n d a r d v e c t o r m e t h o d s w h e n t h e q u e r i e s a n d
r e l e v a n t d o c u m e n t s d o n o t s h a r e m a n y w o r d s , a n d a t h i g h l e v e l s o f r e c a l l .
T e r m W e i g h t i n g . O n e o f t h e c o m m o n a n d u s u a l l y e e c t i v e m e t h o d s f o r i m p r o v i n g r e t r i e v a l
p e r f o r m a n c e i n v e c t o r m e t h o d s i s t o t r a n s f o r m t h e r a w f r e q u e n c y o f o c c u r r e n c e o f a t e r m i n a d o c u m e n t
( i . e . , t h e v a l u e o f a c e l l i n t h e t e r m b y d o c u m e n t m a t r i x ) b y s o m e f u n c t i o n ( s e e E q u a t i o n 5 ) . S u c h
t r a n s f o r m a t i o n s n o r m a l l y h a v e t w o c o m p o n e n t s . E a c h t e r m i s a s s i g n e d a g l o b a l w e i g h t , i n d i c a t i n g i t s
o v e r a l l i m p o r t a n c e i n t h e c o l l e c t i o n a s a n i n d e x i n g t e r m . T h e s a m e g l o b a l w e i g h t i n g i s a p p l i e d t o a n
e n t i r e r o w ( t e r m ) o f t h e t e r m - d o c u m e n t m a t r i x . I t i s a l s o p o s s i b l e t o t r a n s f o r m t h e t e r m ' s f r e q u e n c y
i n t h e d o c u m e n t s u c h a t r a n s f o r m a t i o n i s c a l l e d a l o c a l w e i g h t i n g , a n d i s a p p l i e d t o e a c h c e l l i n t h e
m a t r i x .
T h e p e r f o r m a n c e f o r s e v e r a l w e i g h t i n g s c h e m e s h a v e b e e n c o m p a r e d i n 6 ] . A t r a n s f o r m e d m a t r i x
i s a u t o m a t i c a l l y c o m p u t e d , t h e t r u n c a t e d S V D s h o w n i n F i g u r e 1 i s c o m p u t e d , a n d p e r f o r m a n c e i s
e v a l u a t e d . A l o g t r a n s f o r m a t i o n o f t h e l o c a l c e l l e n t r i e s c o m b i n e d w i t h a g l o b a l e n t r o p y w e i g h t f o r
t e r m s i s t h e m o s t e e c t i v e t e r m - w e i g h t i n g s c h e m e . A v e r a g e d o v e r v e t e s t c o l l e c t i o n s , l o g e n t r o p y
w e i g h t i n g w a s 4 0 % m o r e e e c t i v e t h a n r a w t e r m w e i g h t i n g .
R e l e v a n c e F e e d b a c k . T h e i d e a b e h i n d r e l e v a n c e f e e d b a c k i s q u i t e s i m p l e . U s e r s a r e v e r y
u n l i k e l y t o b e a b l e t o s p e c i f y t h e i r i n f o r m a t i o n n e e d s a d e q u a t e l y , e s p e c i a l l y o n t h e r s t t r y . I n
i n t e r a c t i v e r e t r i e v a l s i t u a t i o n s , i t i s p o s s i b l e t o t a k e a d v a n t a g e o f u s e r f e e d b a c k a b o u t r e l e v a n t a n d
n o n - r e l e v a n t d o c u m e n t s 2 5 ] . S y s t e m s c a n u s e i n f o r m a t i o n a b o u t w h i c h d o c u m e n t s a r e r e l e v a n t i n
m a n y w a y s . T y p i c a l l y t h e w e i g h t g i v e n t o t e r m s o c c u r r i n g i n r e l e v a n t d o c u m e n t s i s i n c r e a s e d a n d
t h e w e i g h t o f t e r m s o c c u r r i n g i n n o n - r e l e v a n t d o c u m e n t s i s d e c r e a s e d . M o s t o f t h e t e s t s u s i n g L S I
h a v e i n v o l v e d a m e t h o d i n w h i c h t h e i n i t i a l q u e r y i s r e p l a c e d w i t h t h e v e c t o r s u m o f t h e d o c u m e n t s
t h e u s e r s h a s s e l e c t e d a s r e l e v a n t . T h e u s e o f n e g a t i v e i n f o r m a t i o n h a s n o t y e t b e e n e x p l o i t e d i n L S I
f o r e x a m p l e , b y m o v i n g t h e q u e r y a w a y f r o m d o c u m e n t s w h i c h t h e u s e r h a s i n d i c a t e d a r e i r r e l e v a n t .
R e p l a c i n g t h e u s e r s ' q u e r y w i t h t h e r s t r e l e v a n t d o c u m e n t i m p r o v e s p e r f o r m a n c e b y a n a v e r a g e o f
3 3 % a n d r e p l a c i n g i t w i t h t h e a v e r a g e o f t h e r s t t h r e e r e l e v a n t d o c u m e n t s i m p r o v e s p e r f o r m a n c e b y
a n a v e r a g e o f 6 7 % ( s e e 6 ] f o r d e t a i l s ) . R e l e v a n c e f e e d b a c k p r o v i d e s s i z a b l e a n d c o n s i s t e n t r e t r i e v a l
a d v a n t a g e s . O n e w a y o f t h i n k i n g a b o u t t h e s u c c e s s o f t h e s e m e t h o d s i s t h a t m a n y w o r d s ( t h o s e
f r o m r e l e v a n t d o c u m e n t s ) a u g m e n t t h e i n i t i a l q u e r y w h i c h i s u s u a l l y q u i t e i m p o v e r i s h e d . L S I d o e s
s o m e o f t h i s k i n d o f q u e r y e x p a n s i o n o r e n h a n c e m e n t e v e n w i t h o u t r e l e v a n c e i n f o r m a t i o n , b u t c a n b e
a u g m e n t e d w i t h r e l e v a n c e i n f o r m a t i o n .
1
E x h a u s t i v e r e l e v a n c e j u d g e m e n t s ( w h e n a l l d o c u m e n t s a r e j u d g e d f o r e v e r y q u e r y ) a r e i d e a l f o r s y s -
t e m e v a l u a t i o n . I n l a r g e d o c u m e n t c o l l e c t i o n s , h o w e v e r , e x h a u s t i v e j u d g e m e n t s b e c o m e p r o h i b i t i v e l y
c o s t l y . F o r l a r g e c o l l e c t i o n s a p o o l i n g m e t h o d i s u s e d . R e l e v a n c e j u d g e m e n t s a r e m a d e o n t h e p o o l e d
s e t o f t h e t o p - r a n k e d d o c u m e n t s r e t u r n e d b y s e v e r a l d i e r e n t r e t r i e v a l s y s t e m s f o r t h e s a m e s e t o f
q u e r i e s . M o s t o f t h e t o p - r a n k e d d o c u m e n t s f o r n e w s y s t e m s w i l l h o p e f u l l y b e c o n t a i n e d i n t h e p o o l
s e t a n d t h u s h a v e r e l e v a n c e j u d g e m e n t s a s s o c i a t e d w i t h t h e m .
-
8/14/2019 Using Linear Algebra for Information Retrieval
20/24
2 0 B e r r y , D u m a i s a n d O ' B r i e n
5 . 2 . C h o o s i n g t h e N u m b e r o f F a c t o r s . C h o o s i n g t h e n u m b e r o f d i m e n s i o n s ( k ) f o r A
k
s h o w n
i n F i g u r e 1 i s a n i n t e r e s t i n g p r o b l e m . W h i l e a r e d u c t i o n i n k c a n r e m o v e m u c h o f t h e n o i s e , k e e p i n g t o o
f e w d i m e n s i o n s o r f a c t o r s m a y l o o s e i m p o r t a n t i n f o r m a t i o n . A s d i s c u s s e d i n 4 ] u s i n g a t e s t d a t a b a s e
o f m e d i c a l a b s t r a c t s , L S I p e r f o r m a n c e
2
c a n i m p r o v e c o n s i d e r a b l y a f t e r 1 0 o r 2 0 d i m e n s i o n s , p e a k s
b e t w e e n 7 0 a n d 1 0 0 d i m e n s i o n s , a n d t h e n b e g i n s t o d i m i n i s h s l o w l y . T h i s p a t t e r n o f p e r f o r m a n c e
( i n i t i a l l a r g e i n c r e a s e a n d s l o w d e c r e a s e t o w o r d - b a s e d p e r f o r m a n c e ) i s o b s e r v e d w i t h o t h e r d a t a s e t s
a s w e l l . E v e n t u a l l y p e r f o r m a n c e m u s t a p p r o a c h t h e l e v e l o f p e r f o r m a n c e a t t a i n e d b y s t a n d a r d v e c t o r
m e t h o d s , s i n c e w i t h k = n f a c t o r s A
k
w i l l e x a c t l y r e c o n s t r u c t t h e o r i g i n a l t e r m b y d o c u m e n t m a t r i x
A i n E q u a t i o n ( 4 ) . T h a t L S I w o r k s w e l l w i t h a r e l a t i v e l y s m a l l ( c o m p a r e d t o t h e n u m b e r o f u n i q u e
t e r m s ) n u m b e r o f d i m e n s i o n s o r f a c t o r s k s h o w s t h a t t h e s e d i m e n s i o n s a r e , i n f a c t , c a p t u r i n g a m a j o r
p o r t i o n o f t h e m e a n i n g f u l s t r u c t u r e .
5 . 3 . I n f o r m a t i o n F i l t e r i n g . I n f o r m a t i o n l t e r i n g i s a p r o b l e m t h a t i s c l o s e l y r e l a t e d t o i n -
f o r m a t i o n r e t r i e v a l 1 ] . I n i n f o r m a t i o n l t e r i n g a p p l i c a t i o n s , a u s e r h a s a r e l a t i v e l y s t a b l e l o n g - t e r m
i n t e r e s t o r p r o l e , a n d n e w d o c u m e n t s a r e c o n s t a n t l y r e c e i v e d a n d m a t c h e d a g a i n s t t h i s s t a n d i n g
i n t e r e s t . S e l e c t i v e d i s s e m i n a t i o n o f i n f o r m a t i o n , i n f o r m a t i o n r o u t i n g , a n d p e r s o n a l i z e d i n f o r m a t i o n
d e l i v e r y a r e a l s o u s e d t o r e f e r t o t h e m a t c h i n g o f a n o n g o i n g s t r e a m o f n e w i n f o r m a t i o n t o r e l a t i v e l y
s t a b l e u s e r i n t e r e s t s .
A p p l y i n g L S I t o i n f o r m a t i o n l t e r i n g a p p l i c a t i o n s i s s t r a i g h t f o r w a r d . A n i n i t i a l s a m p l e o f d o c u -
m e n t s i s a n a l y z e d u s i n g s t a n d a r d L S I / S V D t o o l s . A u s e r s ' i n t e r e s t i s r e p r e s e n t e d a s o n e ( o r m o r e )
v e c t o r s i n t h i s r e d u c e d - d i m e n s i o n L S I s p a c e . E a c h n e w d o c u m e n t i s m a t c h e d a g a i n s t t h e v e c t o r a n d
i f i t i s s i m i l a r e n o u g h t o t h e i n t e r e s t v e c t o r i t i s r e c o m m e n d e d t o t h e u s e r . L e a r n i n g m e t h o d s l i k e
r e l e v a n c e f e e d b a c k c a n b e u s e d t o i m p r o v e t h e r e p r e s e n t a t i o n o f i n t e r e s t v e c t o r s o v e r t i m e .
F o l t z 1 0 ] c o m p a r e d L S I a n d k e y w o r d v e c t o r m e t h o d s f o r l t e r i n g N e t n e w s a r t i c l e s , a n d f o u n d 1 2 % {
2 3 % a d v a n t a g e s f o r L S I . D u m a i s a n d F o l t z i n 1 1 ] c o m p a r e d s e v e r a l d i e r e n t m e t h o d s f o r r e p r e s e n t i n g
u s e r s i n t e r e s t s f o r l t e r i n g t e c h n i c a l m e m o r a n d a . T h e m o s t e e c t i v e m e t h o d u s e d v e c t o r s d e r i v e d
f r o m k n o w n r e l e v a n t d o c u m e n t s ( l i k e r e l e v a n c e f e e d b a c k ) c o m b i n e d w i t h L S I m a t c h i n g .
T R E C . R e c e n t l y , L S I h a s b e e n u s e d f o r b o t h i n f o r m a t i o n l t e r i n g a n d i n f o r m a t i o n r e t r i e v a l i n
T R E C ( T e x t R E t r i e v a l C o n f e r e n c e ) , a l a r g e - s c a l e r e t r i e v a l c o n f e r e n c e c o n f e r e n c e s p o n s o r e d b y N I S T
7 , 8 ] . T h e T R E C c o l l e c t i o n c o n t a i n s m o r e t h a n 1 0 0 0 0 0 0 d o c u m e n t s ( r e p r e s e n t i n g m o r e t h a t 3
g i g a b y t e s o f A S C I I t e x t ) , 2 0 0 q u e r i e s , a n d r e l e v a n c e j u d g e m e n t s p o o l e d f r o m t h e r e t u r n s e t s o f m o r e
t h a n 3 0 s y s t e m s . T h e c o n t e n t o f t h e c o l l e c t i o n s v a r i e s w i d e l y r a n g i n g f r o m n e w s s o u r c e s ( A P N e w s
W i r e , W a l l S t r e e t J o u r n a l , S a n J o s e M e r c u r y N e w s ) , t o j o u r n a l a b s t r a c t s ( Z i D a v i s , D O E a b s t r a c t s ) ,
t o t h e f u l l t e x t o f t h e F e d e r a l R e g i s t e r a n d U . S . P a t e n t s . T h e q u e r i e s a r e v e r y l o n g a n d d e t a i l e d
d e s c r i p t i o n s , a v e r a g i n g m o r e t h a n 5 0 w o r d s i n l e n g t h . W h i l e t h e s e q u e r i e s m a y b e r e p r e s e n t a t i v e o f
i n f o r m a t i o n r e q u e s t s i n l t e r i n g a p p l i c a t i o n s , t h e y a r e q u i t e u n l i k e t h e s h o r t r e q u e s t s s e e n i n p r e v i o u s
I R c o l l e c t i o n s o r i n i n t e r a c t i v e r e t r i e v a l a p p l i c a t i o n s ( w h e r e t h e a v e r a g e q u e r y i s o n l y o n e o r t w o
w o r d s l o n g ) . T h e f a c t t h a t t h e T R E C q u e r i e s a r e q u i t e r i c h m e a n s t h a t s m a l l e r a d v a n t a g e s w o u l d b e
e x p e c t e d f o r L S I o r a n y o t h e r m e t h o d s t h a t a t t e m p t t o e n h a n c e u s e r s q u e r i e s .
T h e b i g c h a l l e n g e i n t h i s c o l l e c t i o n w a s t o e x t e n d t h e L S I t o o l s t o h a n d l e c o l l e c t i o n s o f t h i s s i z e .
T h e r e s u l t s w e r e q u i t e e n c o u r a g i n g . A t t h e t i m e o f t h e T R E C c o n f e r e n c e s i t w a s n o t r e a s o n a b l e t o
c o m p u t e A
k
f r o m F i g u r e 1 f o r t h e c o m p l e t e c o l l e c t i o n . I n s t e a d , a s a m p l e
3
o f a b o u t 7 0 0 0 0 d o c u m e n t s
a n d 9 0 0 0 0 t e r m s w a s u s e d . S u c h t e r m b y d o c u m e n t m a t r i c e s ( A ) a r e q u i t e s p a r s e , c o n t a i n i n g o n l y
0 0 1 { 0 0 2 % n o n - z e r o e n t r i e s . C o m p u t i n g A
2 0 0
, i . e . t h e 2 0 0 - l a r g e s t s i n g u l a r v a l u e s a n d c o r r e s p o n d i n g
s i n g u l a r v e c t o r s , b y a s i n g l e - v e c t o r L a n c z o s a l g o r i t h m 3 ] r e q u i r e d a b o u t 1 8 h o u r s o f C P U t i m e o n
a S U N S P A R C s t a t i o n 1 0 w o r k s t a t i o n . D o c u m e n t s n o t i n t h e o r i g i n a l L S I a n a l y s i s w e r e f o l d e d - i n a s
p r e v i o u s l y d e s c r i b e d i n S e c t i o n 3 . 3 . T h a t i s , t h e v e c t o r f o r a d o c u m e n t i s l o c a t e d a t t h e w e i g h t e d
v e c t o r s u m o f i t s c o n s t i t u e n t t e r m v e c t o r s .
A l t h o u g h i t i s v e r y d i c u l t t o c o m p a r e a c r o s s s y s t e m s i n a n y d e t a i l b e c a u s e o f l a r g e p r e - p r o c e s s i n g ,
r e p r e s e n t a t i o n a n d m a t c h i n g d i e r e n c e s , L S I p e r f o r m a n c e w a s q u i t e g o o d 8 ] . F o r l t e r i n g t a s k s , u s i n g
i n f o r m a t i o n a b o u t k n o w n r e l e v a n t d o c u m e n t s t o c r e a t e a v e c t o r f o r e a c h q u e r y w a s b e n e c i a l . T h e
r e t r i e v a l a d v a n t a g e o f 3 1 % w a s s o m e w h a t s m a l l e r t h a n t h a t o b s e r v e d f o r o t h e r l t e r i n g t e s t s a n d i s
a t t r i b u t a b l e t o t h e g o o d i n i t i a l q u e r i e s i n T R E C . F o r r e t r i e v a l t a s k s , L S I s h o w e d 1 6 % i m p r o v e m e n t
w h e n c o m p a r e d w i t h t h e k e y w o r d v e c t o r m e t h o d s . A g a i n t h e d e t a i l e d o r i g i n a l q u e r i e s a c c o u n t f o r t h e
s o m e w h a t s m a l l e r a d v a n t a g e s t h a n p r e v i o u s l y o b s e r v e d .
2
P e r f o r m a n c e i s a v e r a g e p r e c i s i o n o v e r r e c a l l l e v e l s o f 0 2 5 , 0 5 0 a n d 0 7 5
3
D i e r e n t s a m p l e s f o r i n f o r m a t i o n r e t r i e v a l a n d l t e r i n g a n d f o r T R E C - 1 a n d T R E C - 2 { s e e 7 , 8 ]
f o r d e t a i l s .
-
8/14/2019 Using Linear Algebra for Information Retrieval
21/24
U s i n g L i n e a r A l g e b r a f o r I n t e l l i g e n t I n f o r m a t i o n R e t r i e v a l 2 1
T h e c o m p u t a t i o n o f A
k
f o r t h e l a r g e s p a r s e T R E C m a t r i c e s A w a s a c c o m p l i s h e d w i t h o u t d i c u l t y
( n u m e r i c a l o r c o n v e r g e n c e p r o b l e m s ) u s i n g s o p h i s t i c a t e d i m p l e m e n t a t i o n s o f t h e L a n c z o s a l g o r i t h m
f r o m S V D P A C K C 3 ] . H o w e v e r , t h e c o m p u t a t i o n a l a n d m e m o r y r e q u i r e m e n t s p o s e d b y t h e T R E C
c o l l e c t i o n g r e a t l y m o t i v a t e d t h e d e v e l o p m e n t o f t h e S V D - u p d a t i n g p r o c e d u r e s d i s c u s s e d i n S e c t i o n 4 .
5 . 4 . N o v e l A p p l i c a t i o n s . B e c a u s e L S I i s a c o m p l e t e l y a u t o m a t i c m e t h o d , i t i s w i d e l y a p p l i -
c a b l e t o n e w c o l l e c t i o n s o f t e x t s ( i n c l u d i n g t o d i e r e n t l a n g u a g e s , a s d e s c r i b e d b e l o w ) . T h e f a c t t h a t
b o t h t e r m s a n d d o c u m e n t s a r e r e p r e s e n t e d i n t h e s a m e r e d u c e d - d i m e n s i o n s p a c e a d d s a n o t h e r d i m e n -
s i o n o f e x i b i l i t y t o t h e L S I r e t r i e v a l m o d e l . Q u e r i e s c a n b e e i t h e r t e r m s ( a s i n m o s t i n f o r m a t i o n
r e t r i e v a l a p p l i c a t i o n s ) , d o c u m e n t s o r c o m b i n a t i o n s o f t h e t w o ( a s i n r e l e v a n c e f e e d b a c k ) . Q u e r i e s c a n
e v e n b e r e p r e s e n t e d a s m u l t i p l e p o i n t s o f i n t e r e s t 1 7 ] . S i m i l a r l y , t h e o b j e c t s r e t u r n e d t o t h e u s e r
a r e t y p i c a l l y d o c u m e n t s , b u t t h e r e i s n o r e a s o n t h a t s i m i l a r t e r m s c o u l d n o t b e r e t u r n e d . R e t u r n i n g
n e a r b y t e r m s i s u s e f u l f o r s o m e a p p l i c a t i o n s l i k e o n l i n e t h e s a u r i ( t h a t a r e a u t o m a t i c a l l y c o n s t r u c t e d
b y L S I ) , o r f o r s u g g e s t i n g i n d e x t e r m s f o r d o c u m e n t s f o r p u b l i c a t i o n s w h i c h r e q u i r e t h e m .
A l t h o u g h t e r m - d o c u m e n t m a t r i c e s h a v e b e e n u s e d f o r s i m p l i c i t y , t h e L S I m e t h o d c a n b e a p p l i e d t o
a n y d e s c r i p t o r - o b j e c t m a t r i x . W e t y p i c a l l y u s e o n l y s i n g l e t e r m s t o d e s c r i b e d o c u m e n t s , b u t p h r a s e s
o r n - g r a m s c o u l d a l s o b e i n c l u d e d a s r o w s i n t h e m a t r i x . S i m i l a r l y , a n e n t i r e d o c u m e n t i s u s u a l l y t h e
t e x t o b j e c t o f i n t e r e s t , b u t s m a l l e r , m o r e t o p i c a l l y c o h e r e n t u n i t s o f t e x t ( e . g . , p a r a g r a p h s , s e c t i o n s )
c o u l d b e r e p r e s e n t e d a s w e l l . F o r e x a m p l e , L S I h a s b e e n i n c o r p o r a t e d a s a f u z z y s e a r c h o p t i o n
i n N E T L I B 5 ] f o r r e t r i e v i n g a l g o r i t h m s , c o d e d e s c r i p t i o n s , a n d s h o r t a r t i c l e s f r o m t h e N A - D i g e s t
e l e c t r o n i c n e w s l e t t e r .
R e g a r d l e s s o f h o w t h e o r i g i n a l d e s c r i p t o r - o b j e c t m a t r i x i s d e r i v e d , a r e d u c e d - d i m e n s i o n a p p r o x i -
m a t i o n c a n b e c o m p u t e d . T h e i m p o r t a n t i d e a i n L S I i s t o g o b e y o n d t h e o r i g i n a l d e s c r i p t o r s t o m o r e
r e l i a b l e s t a t i s t i c a l l y d e r i v e d i n d e x i n g d i m e n s i o n s . T h e w i d e a p p l i c a b i l i t y o f t h e L S I a n a l y s i s i s f u r t h e r
i l l u s t r a t e d b y d e s c r i b i n g s e v e r a l a p p l i c a t i o n s i n m o r e d e t a i l .
C r o s s - L a n g u a g e R e t r i e v a l . I t i s i m p o r t a n t t o n o t e t h a t t h e L S I a n a l y s i s m a k e s n o u s e o f
E n g l i s h s y n t a x o r s e m a n t i c s . W o r d s a r e i d e n t i e d b y l o o k i n g f o r w h i t e s p a c e s a n d p u n c t u a t i o n i n
A S C I I t e x t . F u r t h e r , n o s t e m m i n g i s u s e d t o c o l l a p s e w o r d s w i t h t h e s a m e m o r p h o l o g y . I f w o r d s w i t h
t h e s a m e s t e m a r e u s e d i n s i m i l a r d o c u m e n t s t h e y w i l l h a v e s i m i l a r v e c t o r s i n t h e t r u n c a t e d S V D
d e n e d i n F i g u r e 1 o t h e r w i s e , t h e y w i l l n o t . ( F o r e x a m p l e , i n a n a l y z i n g a n e n c y c l o p e d i a , d o c t o r s
q u i t e n e a r d o c t o r s b u t n o t a s s i m i l a r t o d o c t o r a l . ) T h i s m e a n s t h a t L S I i s a p p l i c a b l e t o a n y l a n g u a g e .
I n a d d i t i o n , i t c a n b e u s e d f o r c r o s s - l a n g u a g e r e t r i e v a l { d o c u m e n t s a r e i n s e v e r a l l a n g u a g e s a n d u s e r
q u e r i e s ( a g a i n i n s e v e r a l l a n g u a g e s ) c a n m a t c h d o c u m e n t s i n a n y l a n g u a g e . W h a t i s r e q u i r e d f o r
c r o s s - l a n g u a g e a p p l i c a t i o n s i s a c o m m o n s p a c e i n w h i c h w o r d s f r o m m a n y l a n g u a g e s a r e r e p r e s e n t e d .
L a n d a u e r a n d L i t t m a n i n 2 0 ] d e s c r i b e d o n e m e t h o d f o r c r e a t i n g s u c h a n L S I s p a c e . T h e o r i g i n a l
t e r m - d o c u m e n t m a t r i x i s f o r m e d u s i n g a c o l l e c t i o n o f a b s t r a c t s t h a t h a v e v e r s i o n s i n m o r e t h a n o n e
l a n g u a g e ( F r e n c h a n d E n g l i s h , i n t h e i r e x p e r i m e n t s ) . E a c h a b s t r a c t i s t r e a t e d a s t h e c o m b i n a t i o n
o f i t s F r e n c h E n g l i s h v e r s i o n s . T h e t r u n c a t e d S V D i s c o m p u t e d f o r t h i s t e r m b y c o m b i n e d - a b s t r a c t
m a t r i x A . T h e r e s u l t i n g s p a c e c o n s i s t s o f c o m b i n e d - l a n g u a g e a b s t r a c t s , E n g l i s h w o r d s a n d F r e n c h
w o r d s . E n g l i s h w o r d s a n d F r e n c h w o r d s w h i c h o c c u r i n s i m i l a r c o m b i n e d a b s t r a c t s w i l l b e n e a r e a c h
o t h e r i n t h e r e d u c e d - d i m e n s i o n L S I s p a c e . A f t e r t h i s a n a l y s i s , m o n o l i n g u a l a b s t r a c t s c a n b e f o l d e d - i n
( s e e S e c t i o n 3 . 3 ) { a F r e n c h a b s t r a c t w i l l s i m p l y b e l o c a t e d a t t h e v e c t o r s u m o f i t s c o n s t i t u e n t w o r d s
w h i c h a r e a l r e a d y i n t h e L S I s p a c e . Q u e r i e s i n e i t h e r F r e n c h o r E n g l i s h c a n b e m a t c h e d t o F r e n c h
o r E n g l i s h a b s t r a c t s . T h e r e i s n o d i c u l t t r a n s l a t i o n i n v o l v e d i n r e t r i e v a l f r o m t h e m u l t i l i n g u a l L S I
s p a c e . E x p e r i m e n t s s h o w e d t h a t t h e c o m p l e t e l y a u t o m a t i c m u l t i l i n g u a l s p a c e w a s m o r e e e c t i v e t h a n
s i n g l e - l a n g u a g e s p a c e s . T h e r e t r i e v a l o f F r e n c h d o c u m e n t s i n r e s p o n s e t o E n g l i s h q u e r i e s ( a n d v i c e
v e r s a ) w a s a s e e c t i v e a s r s t t r a n s l a t i n g t h e q u e r i e s i n t o F r e n c h a n d s e a r c h i n g a F r e n c h - o n l y d a t a b a s e .
T h e m e t h o d h a s s h o w n a l m o s t a s g o o d r e s u l t s f o r r e t r i e v i n g E n g l i s h a b s t r a c t s a n d J a p a n e s e K a n j i
i d e o g r a p h s , a n d f o r m u l t i l i n g u a l t r a n s l a t i o n s ( E n g l i s h a n d G r e e k ) o f t h e B i b l e 2 9 ] .
M o d e l i n g H u m a n M e m o r y . L a n d a u e r a n d D u m a i s 1 9 ] h a v e r e c e n t l y u s e d L S I s p a c e s t o
m o d e l s o m e o f t h e a s s o c i a t i v e r e l a t i o n s h i p s o b s e r v e d i n h u m a n m e m o r y . T h e y w e r e i n t e r e s t e d i n
t e r m - t e r m s i m i l a r i t i e s . L S I i s o f t e n d e s c r i b e d i n t u i t i v e l y a s a m e t h o d f o r n d i n g s y n o n y m s { w o r d s
w h i c h o c c u r i n s i m i l a r p a t t e r n s o f d o c u m e n t s w i l l b e n e a r e a c h o t h e r i n t h e L S I s p a c e e v e n i f t h e y
n e v e r c o - o c c u r i n a s i n g l e d o c u m e n t ( e . g . , d o c t o r p h y s i c i a n b o t h o c c u r w i t h m a n y o f t h e s a m e w o r d s
l i k e n u r s e h o s p i t a l p a t i e n t t r e a t m e n t , e t c . ) . L a n d a u e r a n d D u m a i s t e s t e d h o w w e l l a n L S I s p a c e
w o u l d m i m i c t h e k n o w l e d g e n e e d e d t o p a s s a s y n o n y m t e s t . T h e y u s e d t h e s y n o n y m t e s t f r o m E T S ' s
T e s t O f E n g l i s h a s a F o r e i g n L a n g u a g e ( T O E F L ) . T h e t e s t c o n s i s t s o f 8 0 m u l t i p l e c h o i c e t e s t i t e m s
e a c h w i t h a s t e m w o r d ( e . g . , l e v i e d ) a n d f o u r a l t e r n a t i v e s ( e . g . , i m p o s e d b e l i e v e r r e q u e s t e d c o r r e l a t e d )
-
8/14/2019 Using Linear Algebra for Information Retrieval
22/24
2 2 B e r r y , D u m a i s a n d O ' B r i e n
o n e o f w h i c h i s t h e s y n o