alignment of parallel corpora

Upload: ramlohani

Post on 04-Feb-2018

227 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/21/2019 Alignment of Parallel Corpora

    1/3

    A U T O M A T I C A L I G N M E N T I N P A R A L L E L C O R P O R A

    H a r r i s P a p a g e o r g i o u L a m b r o s C r a n ia s S t e l i o s P i p e r i d i s I

    I n s t it u t e f o r L a n g u a g e a n d S p e e c h P r o c e s s i n g

    2 2 , M a r g a r i S t r e e t , 1 1 5 2 5 A t h e n s , G r e e c e

    S t e l i o s . P i p e r i d i s @ e u r o k o m . i e

    A B S T R A C T

    Th i s p a p e r a d d re s s e s t h e a l i g n m e n t i s s u e i n

    t h e f r a m e w o rk o f e x p l o i t a t i o n o f l a rg e b i -

    mul t i l ingua l co rpora fo r t rans la t ion pu rposes . A

    g e n e r i c a l i g n m e n t s c h e m e i s p ro p o s e d t h a t c a n

    m e e t v a r y i n g r e q u i r e m e n t s o f d i f f e r e n t

    a p p l i c a t i o n s . D e p e n d i n g o n t h e l e v e l a t w h i c h

    a l ignm en t i s sough t , appropr ia te su r face

    l i n g u i s t i c i n fo rm a t i o n i s i n v o k e d c o u p l e d w i t h

    in fo rmat ion abou t poss ib le un i t de l imi te rs . Each

    tex t un i t ( sen tence , c lause o r ph rase) i s

    r e p re s e n t e d b y t h e s u m o f i ts c o n t e n t t a gs . Th e

    re s u lt s a r e t h e n f e d i n to a d y n a m i c p ro g ra m m i n g

    f r a m e w o r k t ha t c o m p u t e s t h e o p t i m u m a l i g nm e n t

    o f u n it s . Th e p ro p o s e d s c h e m e h a s b e e n t e s t e d a t

    s e n t e n c e l e v e l o n p a r a l le l c o rp o ra o f t h e C E LE X

    d a t a b a s e . Th e s u c c e s s r a te e x c e e d e d 9 9 % . T h e

    n e x t s t e p s o f t h e w o rk c o n c e rn t h e t e s t i ng o f t h e

    s c h e m e ' s e f f i c i e n c y a t l o w e r l e v e l s e n d o w e d w i t h

    n e c e s s a ry b i l i n g u a l i n fo rm a t i o n a b o u t p o t e n t i a l

    de l imi te rs .

    I N T R O D U C T I O N

    Para l le l l ingu is t i ca l ly mean ingfu l t ex t un i t s

    a r e i n d i sp e n s a b le i n a n u m b e r o f N L P a n d

    lex icograph ic app l ica t ions and recen t ly in the so

    c a l l e d Ex a m p l e -B a s e d M a c h i n e T ra n s l a t i o n

    ( E B M T ) .

    A s r e g a r d s E B M T , a l a r g e a m o u n t o f b i-

    m u l t i l in g u a l t r a n s la t i on e x a m p l e s i s s t o r e d i n a

    d a t a b a s e a n d i n p u t e x p re s s i o n s a r e r e n d e re d i n

    t h e t a rg e t l a n g u a g e b y r e t r i e v i n g f ro m t h e

    d a t a b a s e t h a t e x a m p l e w h i c h i s m o s t s i m i l a r t o

    the inpu t . A task o f c ruc ia l impor tance in th i s

    f r a m e w o rk , i s t h e e s t a b l is h m e n t o f

    c o r r e s p o n d e n c e s b e t w e e n u n i t s o f m u l t i l i n g u a l

    t e x ts a t s e n t e n c e , p h ra s e o r e v e n w o rd l e v e l.

    Th e a d o p t e d c r i t e ri a f o r a s c e r t a in i n g t h e

    a d e q u a c y o f a l i g n m e n t m e t h o d s a re st a t e d a s

    fo l lows :

    1This resea rch was supported by the LRE I

    TRANSLE ARN project of the European Union

    a n a l i g nm e n t s c h e m e m u s t c o p e w i t h t h e

    e m b e d d e d e x t r a - l i n g u i s t i c d a t a ( t a b l e s , a n c h o r

    p o i n t s , S G M L m a rk e r s , e t c ) a n d t h e i r p o s s i b l e

    incons i s tenc ies .

    i t shou ld be ab le to p rocess a l a rge am oun t

    o f t e x t s in l i n e a r t im e a n d i n a c o m p u t a t i o n a l l y

    e f f e c t i v e w a y .

    i n t e rm s o f p e r fo rm a n c e a c o n s i d e ra b l e

    s u c c e s s r a t e ( a b o v e 9 9 % a t s e n t e n c e l e v e l ) m u s t

    b e e n c o u n t e r e d i n o rd e r t o c o n s t ru c t a d a t a b a s e

    wi th t ru th fu l ly co rre spond en t un i t s . I t is des i rab le

    t h a t th e a l i g n m e n t m e t h o d i s l a n g u a g e -

    independen t .

    s t h e p ro p o s e d m e t h o d m u s t b e e x te n s i b l e t o

    a c c o m m o d a t e fu t u r e i m p ro v e m e n t s . I n a d d i t i o n ,

    a n y t r a i n i n g o r e r ro r c o r r e c t i o n m e c h a n i s m

    shou ld be re l i ab le , fas t and shou ld no t requ i re

    v a s t a m o u n t s o f d a t a w h e n s w i t c h i n g f ro m a p a i r

    o f l a n g u a g e s t o a n o t h e r o r d e a l i n g w i t h d i f f e r e n t

    t e x t t y p e c o rp o ra .

    S e v e ra l a p p ro a c h e s h a v e b e e n p ro p o s e d

    tack l ing the p rob le m a t var ious l eve l s . [Cat izone

    8 9 ] p ro p o s e d l i nk i n g r e g i o n s o f t e x t a c c o rd i n g t o

    t h e r e g u l a r i t y o f w o rd c o -o c c u r r e n c e s a c ro s s

    texts .

    [B ro w n 9 1 ] d e s c r i b e d a m e t h o d b a s e d o n t h e

    n u m b e r o f w o rd s t h a t s e n t e n c e s c o n ta i n .

    M o re o v e r , c e r t a i n a n c h o r p o i n t s a n d p a ra g ra p h

    m a rk e r s a r e a l s o c o n s i d e re d . Th e m e t h o d h a s

    b e e n a p p l i e d to t h e H a n s a rd C o rp u s a c h i e v i n g a n

    a c c u r a c y b e t w e e n 9 6 % - 9 7% .

    [G a l e 9 1 ] [C h u rc h 9 3 ] p ro p o s e d a m e t h o d

    tha t re l i es on a s imple s ta t i s t i ca l model o f

    c h a ra c t e r l e ng t h s . Th e m o d e l i s b a s e d o n t h e

    o b s e rv a t io n t h a t l o n g e r s e n t e n c e s i n o n e l a n g u a g e

    tend to be t rans la ted in to longer sequences in the

    o t h e r l a n g u a g e w h i l e s h o r t e r o n e s t e n d t o b e

    t rans la ted in to shor te r ones . A p robab i l i s t i c sco re

    i s a s s ig n e d t o e a c h p a i r o f p ro p o s e d s e n t e n c e

    p a i rs , b a s e d o n t h e r a t io o f l e n g t h s o f t h e t w o

    s e n t e n c e s a n d t h e v a r i a n c e o f t h i s r a t i o .

    4

  • 7/21/2019 Alignment of Parallel Corpora

    2/3

    A l t h o u g h t h e a p p a r e n t e f f i c a c y o f th e G a l e -

    C h u r c h a l g o ri t h m i s u n d e n i a b l e a n d v a l i d a t e d o n

    d i f f e r e n t p a i rs o f l a n g ua g e s , i t fa c e s p r o b l e m s

    w h e n h a n d l i n g c o m p l e x a l i g n m e n t s . T h e 2 - 1

    a l i gnmen t s had f i ve t i mes t he e r ro r r a t e o f 1 -1 .

    T h e 2 - 2 c a t e g o r y d i s c l o s e d a 3 3 % e r r o r r a t e ,

    wh i l e t he 1 -0 o r 0 -1 a l i gnmen t s were t o t a l l y

    mi ssed .

    T o o v e r c o m e t h e in h e r it e d w e a k n e s s e s o f t h e

    G a l e - C h u r c h m e t h o d , [ S i m a r d 9 2 ] p r o p o s e d

    u s i n g c o g n a t e s , w h i c h a r e p a i rs o f to k e n s o f

    d i f f e re n t l a n g u a g e s w h i c h s h a r e o b v i o u s

    p h o n o l o g i c a l o r o r t h o g r a p h i c a n d s e m a n t i c

    p roper t i es , s i nce t hese a r e l i ke l y t o be u sed as

    mu t ua l t r ans la t i ons .

    In t h i s paper , an a l i gnmen t scheme i s

    p r o p o s e d i n o r d e r to d e a l w i t h t h e c o m p l e x i t y o f

    v a r y i n g r e q u i r e m e n t s e n v i s a g e d b y d i f f e r e n t

    app l i ca t i ons i n a sys t emat i c way . Fo r exampl e , i n

    E B M T , t h e r e q u i r e m e n t s a r e s t r i c t i n t e r m s o f

    i n fo rmat i on i n t eg r i t y bu t r e l axed i n t e rms o f

    d e l a y a n d r e s p o n s e t i m e . O u r a p p r o a c h i s b a s e d

    o n s e v e r a l o b s e r v a t i o n s . F i r s t o f a l l , w e a s s u m e

    t h a t e s t a b l is h m e n t o f c o r r e s p o n d e n c e s b e t w e e n

    un i t s can be app l i ed a t sen t ence , c l ause , and

    p h r a s e l e v e l. A l i g n m e n t a t a n y o f t h e s e l e v e l s h a s

    t o i nvoke a d i f f e r en t se t o f t ex t ua l and l i ngu is t ic

    i n fo rmat i on ( ac t i ng as un i t de l i mi t e r s ) . I n t h i s

    paper , a l i gnmen t i s t ack l ed a t sen t ence l eve l .

    T H E A L I G N M E N T A L G O R I T H M _

    Cont en t words , un l i ke func t i ona l ones , mi gh t

    b e i n t e r p r e t e d a s t h e b e a r e r s t h a t c o n v e y

    i n fo rmat i on b y deno t i ng t he en t i t ies and t he i r

    r e l a t i onsh i ps i n t he wor l d . The no t i on o f

    sp read i ng t he seman t i c l oad suppor t s t he i dea

    t h a t e v e r y c o n t e n t w o r d s h o u l d b e r e p r e s e n t e d a s

    t h e u n i o n o f a l l th e p a r t s o f s p e e c h w e c a n a s s i gn

    t o i t [Bas i l i 92 ] . The pos t u l a t ed assumpt i on i s

    t h a t a c o n n e c t i o n b e t w e e n t w o u n i t s o f t e x t i s

    es t ab l i shed i f , and on l y i f , t he seman t i c l oad i n

    o n e u n i t a p p r o x i m a t e s t h e s e m a n t i c l o a d o f th e

    other .

    Based on t he f ac t t ha t t he p r i nc i pa l

    r equ i r emen t i n any t r ans l a t i on exerc i se i s

    m e a n i n g p r e s e r v a t i o n a c r o s s th e l a n g u a g e s o f th e

    t r ans l a ti on pa i r , we de f i ne t he seman t i c l oad o f a

    sen t enc e as t he pa t t e rns o f t ags o f i ts con t en t

    w o r d s . C o n t e n t w o r d s a r e t a k e n t o b e v e r b s ,

    n o u n s , a d j e c t iv e s a n d a d v e r b s . T h e c o m p l e x i t y o f

    t r ans fer i n t r ans l a t i on i mposes t he cons i dera t i on

    o f t h e n u m b e r o f c o n t e n t ta g s w h i c h a p p e a r i n a

    t a g p a t t e r n . B y c o n s i d e r i n g t h e t o t a l n u m b e r o f

    con t en t t ags t he morpho l og i ca l der i va t i on

    p r o c e d u r e s o b s e r v e d a c r o s s l a n g u a g e s , e . g . t h e

    t r a n s fe r o f a v e r b i n t o a v e r b + d e v e r b a l n o u n

    pat t e rn , a r e t aken in t o accoun t . M orpho l og i ca l

    a m b i g u i t y p r o b l e m s p e r t a in i n g t o c o n t e n t w o r d s

    a r e t r e a t e d b y c o n s t r u c t i n g a m b i g u i t y c l a s s e s

    (acs ) l ead i ng t o a gene ra l i sed s e t o f con t en t t ags .

    I t i s es sen t i a l here t o c l a r i fy t ha t i n t h i s

    a p p r o a c h n o d i s a m b i g u a t i o n m o d u l e i s

    p r e r e q u i s i t e . T h e t i m e b r e a k d o w n f o r

    m o r p h o l o g i c a l t a g g i n g , w i t h o u t a d i s a m b i g u a t o r

    dev i ce , i s acco rd i ng t o [Cu t t i ng 92 ] i n t he o rder

    o f 1 0 0 0 ~ t s e c o n d s p e r t o k e n . T h u s , t e n s o f

    m e g a b y t e s o f t e x t m a y t h en b e t a g g e d p e r h o u r

    a n d h i g h c o v e r a g e c a n b e o b t a i n e d w i t h o u t

    p roh i b i t i ve e f fo r t .

    H a v i n g i d e n ti f ie d t h e s e m a n t i c l o a d o f a

    s e n t e n c e , M u l t i p l e L i n e a r R e g r e s s i o n i s u s e d

    to

    bu i l d a quan t i t a t i ve model r e l a t i ng t he con t en t

    t a g s o f t h e s o u r c e l a n g u a g e ( S L ) s e n t e n c e t o th e

    r e s p o n s e , w h i c h i s a s s u m e d t o b e t h e s u m o f t h e

    c o u n t s o f t h e c o r r e s p o n d i n g c o n t e n t t a g s i n t h e

    t a r g e t l a n g u a g e ( T L ) s e n t e n c e . T h e r e g r e s s i o n

    m o d e l i s f i t t o a s e t o f s a m p l e d a t a w h i c h h a s

    b e e n m a n u a l l y a l i g n e d a t s e n t e n c e l e v e l . S i n c e

    w e i n t u i t i v e l y b e l i e v e t h a t a s i m p l e s u m m a t i o n

    o v e r t h e S L c o n t e n t t a g c o u n t s w o u l d b e a r a t h e r

    g o o d e s t i m a t o r o f t h e r e s p o n s e , w e d e c i d e t h a t

    t h e u s e o f a l in e a r m o d e l w o u l d b e a c o s t -

    e f f ec t i ve so l u t i on .

    T h e l i n e a r d e p e n d e n c y o f y ( th e s u m o f th e

    c o u n t s o f t h e c o n t e n t t a g s i n th e T L s e n t e n c e )

    u p o n x i ( th e c o u n t s o f e a c h c o n t e n t t a g c a t e g o r y

    a n d o f e a c h a m b i g u it y c la s s o v e r t h e S L

    s e n t e n c e ) c a n b e s t a t e d a s

    Y = b o + b

    1

    x

    1

    b 2 x 2 + b 3 x 3 + - - . + b n x n ~ I )

    w h e r e t h e u n k n o w n p a r a m e t e r s { b i } a r e t h e

    r e g r e s s i o n c o e f f i c i e n t s , a n d s i s t he e r ro r o f

    e s t i m a t i o n a s s u m e d t o b e n o r m a l l y d i s t r i b u t e d

    w i t h z e r o m e a n a n d v a r i a n c e 0 2 .

    I n o r d e r t o d e a l w i t h d i f f e r e n t t a g g e r s a n d

    a l t e rna t ive t agse t s , o t her co n f i gu ra t i ons o f (1 ) ,

    m e r g i n g acs appropr i a t e l y , a r e a l so

    r e c o m m e n d e d . F o r e x a m p l e , i f a n a c s a c c o u n t s

    f o r u n k n o w n w o r d s , w e c a n u s e t h e f a c t t h a t

    m o s t u n k n o w n w o r d s a r e n o u n s o r p r o p e r n o u n s

    a n d m e r g e t h is c a t e g o r y w i t h n o u n s. W e c a n a l s o

    m e r g e a c s t h a t a r e r e p r e s e n t e d w i t h o n l y a f e w

    d i s t i n c t w o r d s i n t h e t r a i n i n g c o r p u s . M o r e o v e r ,

    t h e u s e o f r e l a ti v e l y f e w a c s ( a s s o c i a t e d w i t h

    c o n t e nt w o r d s ) r e d u c e s t h e n u m b e r o f p a r a m e t e r s

    5

  • 7/21/2019 Alignment of Parallel Corpora

    3/3

    t o b e e s t i m a t e d , a f f e c t i n g t h e s i ze o f t h e s a m p l e

    a n d t h e t i m e r e q u i r e d fo r t r a in i n g.

    Th e m e t h o d o f l e a s t sq u a re s is u s e d to

    es t imate the reg ress ion coeff ic ien t s in (1 ) .

    H a v i n g e s t i m a t e d t h e b i a n d 0 2 , t h e

    p robab i l i s t i c sco re as s igned to the compar i son o f

    t w o s e n t e n c e s a c ro s s l a n g u a g e s i s j u s t t h e a r e a

    u n d e r t h e N (0 ,o 2 ) p . d .f . , s p e c i f i e d b y t h e

    es t imat ion e r ro r . Th is p robab i l i s t i c sco re i s

    u t i l i s e d i n a D y n a m i c P ro g ra m m i n g (D P )

    f r a m e w o rk s i m i l a r t o t h e o n e d e s c r i b e d i n [G a l e

    91] . The DP a lgo r i thm i s app l ied to a l igned

    p a ra g ra p h s a n d p ro d u c e s t h e o p t i m u m a l i g n m e n t

    o f s e n t e n c e s w i t h i n t h e p a r a g ra p h s .

    E V A L U A T I O N

    Th e a p p l i c a t i o n o n w h i c h w e a r e d e v e l o p i n g

    a n d t e s t in g t h e m e t h o d i s i m p l e m e n t e d o n t h e

    G re e k -En g l i s h l a n g u a g e p a i r o f s e n t e n c e s o f t h e

    C E L E X c o r p us ( t h e c o m p u t e r i s e d d o c u m e n ta t i on

    s y s t em o n E u r o p e a n C o m m u n i t y L a w ) .

    T ra i n i n g w a s p e r fo rm e d o n 4 0 A r t ic l e s o f

    t h e C EL EX c o rp u s a c c o u n t i n g fo r 3 0 00 0 w o rd s .

    W e h a v e t e s t e d t h i s a l g o r i t h m o n a r a n d o m l y

    s e l e c t e d c o rp u s o f t h e s a m e t e x t t y p e o f a b o u t

    3 2 0 0 s e n t e n c e s . D u e t o t h e s p a r s e n e s s o f a c s

    ( a s s o c i a t e d o n l y w i t h c o n t e n t w o rd s ) i n o u r

    t r a i n i n g d a t a , w e r e c o n s t ru c t ( 1 ) b y u s i n g fo u r

    var iab les . Fo r in f lec t ive l anguages l ike Greek ,

    m o rp h o l o g i c a l i n fo rm a t i o n a s s o c i a t e d t o w o rd

    fo rms p lays a c ruc ia l ro le in as s ign ing a s ing le

    c a t e g o ry . M o re o v e r , b y c o u n t i n g i n s ta n c e s o f a c s

    i n t h e tr a i n in g c o rp u s , w e o b s e rv e d th a t w o rd s

    t h a t , f o r e x a m p l e , c a n b e a n o u n o r a v e rb , a r e

    (d u e t o t h e l a c k o f t h e s e c o n d s i n g u la r p e r s o n i n

    t h e c o rp u s ) e x c l u s i v e l y n o u n s . H e n c e :

    Y=bo+b 1x 1+ b 2 x 2 + b 3 x 3 + b 4 x 4 + s (2 )

    w her e x 1 rep resen t s ve rbs , x 2 s tands fo r no uns ,

    u n k n o w n w o rd s , v e rn o u (ve rb o r n o u n ) a n d

    nouad j (n oun o r ad jec t ive) , x 3 ad jec t ives and

    verad j (ve rb o r ad jec t ive) , x 4 adverbs and

    advad j (adverb o r ad jec t ive )

    02 was es t imated a t 3 .25 on our t ra in ing

    s a m p l e , w h i l e t h e r e g re s s i o n c o e f f i c i e n t s w e re :

    b 0 = 0.2848 ,b 1 = 1.1075, b 2 = 0.947 4,

    b 3 = 0 .8584,b 4 = 0 .7579

    A n a c c u ra c y t h a t a p p ro x i m a t e d a 1 0 0 %

    s u c c e s s r a t e w a s r e c o rd e d . R e s u l t s a r e s h o w n i n

    Ta b l e 1 . I t i s r e m a rk a b l e t h a t t h e r e i s n o n e e d fo r

    any lex ica l cons t ra in t s o r cer ta in anchor po in t s to

    i m p ro v e t h e p e r fo rm a n c e . A d d i t i o n a ll y , t h e s a m e

    m o d e l a n d p a ra m e t e r s c a n b e u s e d i n o rd e r t o

    c o p e w i t h t h e i n f r a - s e n t e n c e a l ig n m e n t .

    In o rd e r t o a l i g n a ll t h e C EL EX t e x ts , w e

    in tend to p repare the mater ia l ( t ex t hand l ing , pos

    t a g g i n g i n d i f f e r e n t l a n g u a g e s p a i r s a n d d i f f e r e n t

    tag se t s, e tc . ) so tha t w e wi l l be ab le to eva lua te

    t h e m e t h o d o n a m o re r e l i a b l e b a s i s . W e a l s o

    h o p e t o t e s t t h e m e t h o d ' s e f f i c i e n c y a t p h ra s e

    l e v e l e n d o w e d w i t h n e c e s s a ry b i l i n g u a l

    i n fo rm a t i o n a b o u t p h ra s e d e l i m i te r s . I t w i l l b e

    s h o w n t h e r e , t h a t r e u s a b i l i t y o f p r e v i o u s

    i n fo rm a t i o n f a c i l i t a t e s t u n i n g a n d r e s o l v i n g o f

    i n c o n s i st e n c i e s b e t w e e n v a r i o u s d e l i m i te r s .

    c a t e g o r y

    1-0 or 0-1

    N

    correct m a t c h e s

    4

    1-1 3178 3178

    2-1 or 1-2 36 35

    2-2 0 0

    Ta b l e 1 : M a t c h e s i n s e n t e n c e p a ir s o f t h e

    C E L E X c o r p u s

    R E F E R E N C E S .

    [B a s i l i 9 2 ] B a s i l i R . P a z i e n z a M . V e l a rd i

    P .

    C o m p u t a t i o n a l l e xi c o n s : Th e n e a t e x a m p l e s a n d

    t h e o d d e x e m p l a r s . P r e c . o f t h e Th i rd

    C o n fe r e n c e o n A p p l i e d N LP 1 99 2

    [ B r o w n 9 1 ] B r o w n P . L a i J . a n d M e r c e r R .

    A l i g n i n g s e n t e n c e s i n p a r a l le l c o rp o ra . P r e c . o f

    A C L 1 9 9 1

    [ C a t i z o n e 8 9 ] C a t i z o n e R . R u s s e l l G . W a r w i c k

    S. Der iv ing t rans la t ion da ta f rom b i lingual

    tex t s . P re c . o f the F i rs t Lex ica l Ac qu is i t ion

    Workshop , Det ro i t 1989

    [ C h u r c h 9 3 ] C h u r c h K . C h a r _a l ig n : A p r o g ra m

    for a l ign ing para l l e l t ex t s a t charac te r l eve l

    P r e c . o f A C L 9 3

    [C u t t i n g 9 2 ] C u t t in g D . K u p i e c J . P e d e r s e n J .

    S i b u n P . A p ra c ti c a l p a r t -o f - s p e e c h t a g g e r

    P r o c . o f A C L 1 99 2

    [ G a l e 9 1 ] G a l e W . C h u r c h K . A p ro g r a m f o r

    a l ign ing sen tences in b i l ingual co rpora , Prec . o f

    A C L 1 9 9 1

    [S i m a rd 9 2 ] S i m a rd M . F o s t e r G . I sa b e l l e

    P .

    Using cognates to a l ign sen tences in b i l ingual

    c o rp o ra P re c . o f TM I 1 9 92

    3 3 6