thejournal$ fjölnirforeveryone: $ …©ft'n of s'óhjii ^jottalt'n, dr. medic. et...

23
Jón Friðrik Daðason, Kris0n Bjarnadó4r & Kristján Rúnarsson The Árni Magnússon Ins0tute for Icelandic Studies, University of Iceland The Journal Fjölnir for Everyone: The PostProcessing of Historical OCR Texts Language Resources and Technologies for Processing and Linking Historical Documents and Archives – Deploying Linked Open Data in Cultural Heritage LRT4HDA May 26 2014 LREC 2014 Reykjavík

Upload: dodien

Post on 16-Jul-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Jón  Friðrik  Daðason,  Kris0n  Bjarnadó4r  &  Kristján  Rúnarsson  The  Árni  Magnússon  Ins0tute  for  Icelandic  Studies,    

University  of  Iceland    

The  Journal  Fjölnir  for  Everyone:  The  Post-­‐Processing  of  Historical  OCR  Texts  

Language  Resources  and  Technologies  for  Processing  and  Linking  Historical  Documents  and  Archives  –  Deploying  Linked  Open  Data  in  Cultural  Heritage  

LRT4HDA  

May  26  2014  

LREC  2014  Reykjavík  

Fjölnir:  a  19th  century  journal                    

       The  aim  is  making  the  text  of  Fjölnir  accessible  on  the  Web,  both  in  the  original  spelling,  and  in  modern  spelling,  in  a  version  suitable  both  for  scholars  and  the  general  public.    

KrisYn:       The  journal           The  cohesion  of  Icelandic  spelling               The  need  for  normaliza0on    

Jón  Friðrik:     The  OCR  post-­‐correc0on  process           The  normaliza0on  process            Kristján:       Manual  post-­‐processing           The  website           The  layers  of  Fjölnir  

������

��� �

���

������

�� �� � � �

�� ��� �

Published  in  Copenhagen  1835-­‐1847    

“...  to  publish  a  yearly  journal,  not    confined  to  anything  but    

the  sensible  and  the  amusing  ...  ”  

Short  stories,  poetry,  history,      poli0cs,  natural  sciences,  book    reviews,  language,  spelling  

reforms  ...  

A  cornerstone  of    Roman0c  literature  in  Iceland  

Fjölnir  

'-#� ����0� ���)� ���&# ��#�# '*$% ��# ���+0 * $%��$�% �*��� *$�� (�& �#� � �� �# �+ � � ($$��� �'�)37�& � �"%�� �'�)47� , ("��"" �&&�� '����� �7� �',������ #�8�% &�! 8�7 �% &'�'' ��� /7%( ���- &�!� �'�)47�&� � ���% �""�""#%7&� � �'�)37�& � �"��� ��%�% �%�!�"" �� �-�� ��% ��4%� �,'�� ��'� �''� �� � �/%� �(� � �0&� �#% ��. �� �%���"� �%��'&� �'�� � �.'� �"��(%� �"�.&�(%� ��� � #���� #�'� %���� �� � ���� ����� . ���� �� ����%��#'' � ��� 3'(% ��"&#� � �� �""�- �'�)37� � ("��"" ��%���

�7� �������� �� &'�"�� 8�7 �$'�"� �'�)47�� #� � �$'�% �""�7�)(%' ���� "��''� �7� �'�)47� &�!� #%7&� &�! ��%��% � ��"�)(%�(! /7%(! &'��� �"" � �� �"�!�� �7� �8� &'0"�"( ������ �'���� � ���% "�'' #%7� &�! �37� ���(% ���%+ (� #� ("��% �-�& ��"�)(%" �""�"" &'�� � ($$����"(� �"" ! �7� �8 %�� 7� . &/!( ��7�& � 4'(%

* ��"&#� )� � !/%�(! #%7(!� �47� � �"�� �'�)37�& �""�� 8��!� 8. �7 � !� �7��� �7� � �#!� "4&' , �$'�%� #� - �"�� 8��%%� &�� �%�� 80�7 ! �7� �8 �5� 8 �#!� "4&' , �$'�%� ��""�� � ��"(! �0 (!� 8���% !�"" �%( �7� )�%7� &��%!4 '�% , 8�(� ���7� � �"�� �'�)47�& �"%�� 8��!� 8. �7 � !� 7 �7� � �#!� 9"4&' � �$'�%� #� � �"�� 8�-%%� &�� �%�� 8. �7 ! �7� �8 �� 8 �#!� "4&' � �$'�% �-�� �� �/�%����

���� �� �#�''% * 1����� -%� �/)%�� �/������ �#�� �/)��� �� ��� �#�� ��)� ����� �#�� ���)�� ���%4'' �#�� �)�%4' � . �� �'�7 �#�� �) �'�7� �� �' �#�� �) �'� !� �� �#� �� ���% � � �"%� � �'�)47� � ("��"" � �� �""� �7� �7�� ��""�� � &(!(! #%7(!� 8���% �)(%"���& ��� �% �7 8��"� �)�7�7� �37� � � ' �)37�&��"��� � ((��"" /7%( �'�)37� &�!� #%7&� &�! ��%��% � � �� �")!�� �7� �7� ����� #�� #%7&��"��� � ("���"" �"�!��7� �8#!��+� �7�� &�� 8�7 ���%+ ( �(&'� (%�7�7

� � ���+ $ $�� 1) !"%�$% -# $�%% * $%�0 ���&� � ���0 � $%� �� ���#&�� ��% ) $�� �� �'&#% ! 1�% %� ��

#� ��� �# �)%�0 ������ *�##� �%�'-0� &� �0&# ��� & $�* � . �*� !�# ��$� '����

•  From  the  Digital  library  of  Icelandic  newspapers,  cf.  Hrafnkelsson  &  Sævarsson  (LRT4HDA)  

•  OCR:  86.2%  word  accuracy  •  Extreme  font  changes,  cf.  

example  to  the  right,  from  a  trea0se  on  spelling  

•  Extremely  varied  spelling,  due  to  par0ally  implemented  experimental  spelling  reforms.  Spelling  was  not  standardized  at  the  0me.  

The  text  

Sta0s0cs  

       Year   Pages   Words   Characters  

1835   180   41,951   243,713  

1836   108   31,968   185,994  

1837   114   34,272   202,851  

1838   92   26,186   155,445  

1839   186   59,484   343,139  

1843   88   15,974   95,381  

1844   140   42,646   248,671  

1845   84   20,824   121,975  

1847   96   22,867   131,365  

Total   1,088   296,172   1,728,534  

The cohesion of Icelandic spelling: Reykjaholtsmáldagi [The Reykjaholt Charter] AD 1150

22%  

76%  

•  19th  century  word  forms  and  frequency:                  517,000    The  Wrilen  Language  Archive  (Ritmálssafn),  The  Árni  Magnússon  Ins0tute  for  Icelandic  Studies  (AMI)  

•  Modern  word  forms:                                                                              5.8  million      The  Database  of  Modern  Icelandic  Inflec0on  (Beygingarlýsing  íslensks  núYmamáls),  AMI  

•  Modern  word  frequency:  Íslenskur  orðasjóður  (Wortschatz),  Universität  Leipzig  

            Approx.  500  million  running  words  

Resources  

•  The  general  public  balks  at  reading  unfamiliar  spelling  

•  Scholars  make  use  of  the  anchoring  of  spelling  variants  to  modern  word  forms  and  lemmas  

•  Modern  NLP  tools  generally  assume  modern  spelling  •  Normaliza0on  greatly  enhances  the  scope  of  search  engines  

The  benefits  of  normaliza0on  

•  Rule-­‐based  normaliza0on  – Rules  manually  created  or  derived  from  parallel  corpora  – A  few  rules  can  normalize  a  large  por0on  of  the  text  – Ambiguous  and  uncommon  variants  can  result  in  large  and  complex  rule  sets  

– Generally  specific  to  certain  0me  periods  and  domains  •  Spellchecking  

– Candidates  generated  and  ranked  by  probability  – Probability  es0mated  from  character  transforma0ons  and  the  frequency  of  the  candidate  

– A  good  general  solu0on  if  the  spellchecker  can  be  adapted  to  each  document  

Approaches  to  spelling  normaliza0on  

       

•  Es0mate  the  probability  that  a  given  candidate  is  correct  based  on  a  language  model  and  an  error  model  

•  The  language  model  es0mates  the  probability  of  a  given  word  (or  a  sequence  of  words)  based  on  its  frequency  in  a  large  corpus  – We  use  a  unigram  model  

•  The  error  model  es0mates  the  probability  of  a  given  character  transforma0on  

Noisy  channel  model          

•  The  error  model  is  trained  on  pairs  of  correct  and  “noisy”  words  

•  The  probability  that  the  leler  m  could  be  misrecognized  as  rn  is  – P(rn|m)  =  count(m→rn)  /  count(m),  where  – count(m→rn)  is  the  number  of  0mes  m  was  replaced  with  rn,  and  

– count(m)  is  the  number  of  0mes  m  appears  in  the  correct  words  

Error  model          

•  Several  training  itera0ons  •  First  itera0on  – Assume  all  words  not  in  our  lexicon  are  errors  

– For  each  error,  generate  candidates  from  the  lexicon  – Rank  the  candidates  using  the  language  model  only  

•  Following  itera0ons  – Train  the  error  model  using  the  results  of  the  previous  itera0on  

– Re-­‐rank  the  candidates  using  the  updated  error  model  

Training  the  error  model          

Interac0ve  OCR  correc0on          

•  Results  when  evaluated  on  the  8th  volume  of  Fjölnir  

– 18,714  alphabe0cal  tokens;  2,591  word  errors  

•  Sugges0on  accuracy  (top  5  sugges0ons)  – Language  model  only:  49.4%  – With  error  model:  58.0%  

•  Fraktur  font  results  in  many  uncorrected  errors  

– E.g.,  vardveiti  (varðvei0)  ‘preserve’  →  oartw^t  – Easier  to  correct  during  the  OCR  process  itself  

Iter.  1   Iter.  2   Iter.  3   Iter.  4  

N=1   38.1%   51.6%   52.9%   52.9%  

N=5   49.4%   58.1%   57.8%   58.0%  

Results  for  OCR  correc0on  (1)          

•  Excluding  words  in  Fraktur  yields  significantly  improved  results  

•  Sugges0on  accuracy  (top  5  sugges0ons)  – Language  model  only:  62.0%  – With  error  model:  71.7%  

Iter.  1   Iter.  2   Iter.  3   Iter.  4  

N=1   47.9%   65.0%   66.4%   66.6%  

N=5   62.0%   72.0%   72.1%   71.7%  

Results  for  OCR  correc0on  (2)          

•  Sugges0on  accuracy  (top  5  sugges0ons)  – Language  model  only:  48.6%  – With  error  model:  84.6%  

•  Remaining  errors  are  largely  real-­‐word  errors  – E.g.,  where  en  ‘but’  has  been  wrilen  as  enn  ‘s0ll’  – Require  a  context-­‐sensi0ve  spellchecker  

Iter.  1   Iter.  2   Iter.  3   Iter.  4  

N=1   35.7%   68.9%   73.4%   73.6%  

N=5   48.6%   84.6%   84.6%   84.6%  

Results  for  spelling  normaliza0on          

02

stendur eíns mikjið á bakji annarra í örlcgheítum til þessarar skiptunar, sem er vesturamtsins góðu innbúa eígjin eígn, og hvar um hókjiti höndlar, eíns og hins vegar sumir í hinni gjeístlegu röð."

X. í̂bftnnt'ncj m'b (gtnet;gba gjelntr <3amantefin ocj úU ftéft'n of S'óhjii ^jottalt'n, Dr. Medic. et Chirurgiæ, tttnefnbum S3ataIlt'on§ Chirurg otb .£>an§ ^cítícjnar .Konúncjð oorð eicjt'n berlibðflocf. S3tbet)ar .ftlauftri, 1839. 8. 28 blss.

XI. £ji5bafmámunir, famt Gnnilíu Sfauntr, af ©ícutrbi 83reíbfj0rb. 2ínnar drðfloffur. S3iber,ar £Iaujtri, 1839. 121. 144 blss.

Jietta nafn er niikjils til of stutt, því bókjin ætti reíndar að heífa: "látilffdrlegur smntiningur af málleísum, bögumœlum, dönskuslettum, hortittum, klaufalegum orða-tiltækj'um, smekkleisum og öðrum þess húttar smámunum, — sumt frjálst og sumu stolið af Siguroi Breíðfj'úrð." Hjcr eru fáei'n dæmi af hvurju firir sig.

Málleísur og Bögumœli. lanbttcettur, l l 6 (í fleírtölu); intum rann, 23' (firir intu rann/) ; altjlíife/ 23 1 0 (firir ölteítin); be^ti nábum blt'bum, 2 8 ' 3 ; j<$r, 291 2 (firir jó); jgorcjap Cjata, 23T (firir "Borgaragata"); bjógum, 291T (firir hjuggum); fycettulecjra (firir hættulegar) leit þab Út, 29*; (þetta bögrr-mæli er líka dönskusletta); unn, 33 1 9 (firir umii); ípjfi fréttir(?),59fi; í>lbi, 612 0 ; £lm (um sólina), 399; h)ab,3020; oarba, 402 (firir vamd); ffilja frá einl)t>urium, 649 (firir skjilj-ast^við eínhvum); þefib, 6921 (firir þakjið); láta I)cerbum manni tycjbir einar ab íajíi bella, 42*—5; ercji bucjar, 41 T ; cebur, 491S (í fleírtölu); gunbvmarbijj, 5 0 u ; unnt', 5513

(firir ann) ; VtfCjöcettur, 181 3 - 1 4 (í þolanda), og fram eptir því; (það er ekkji kjin, þó höfundurinn sje að fornirða og hafa við innanum þetta, t. a. m.: fcr eg, 3 3 1 1 ' 1 2 ; fíúa, 18 1 4 , og þviumlíkt.)

' ) Firri "ársflokkurinn" cr í sæmilega stóru átta blaða broti. lltif'iiniliii'inn Iiefii- ætlast til að báðir ársflokkarnir irði bundnir saman.

Facsimile  

OCR  

Corrected  original  spelling  

Corrected  modern  spelling  

Jietta nafn er niikjils til of stutt, því bókjin ætti reíndar að heífa: "látilffdrlegur smntiningur af málleísum, bögumœlum, dönskuslettum, hortittum, klaufalegum orða- tiltækj'um, smekkleisum og öðrum þess húttar smámunum,

Þetta nafn er mikjils til of stutt, því bókjin ætti reíndar að heíta: “lítilfjörlegur samtíníngur af málleísum, bögumælum, dönskuslettum, hortittum, klaufalegum orðatiltækjum, smekkleísum og öðrum þess háttar smámunum, — sumt frjálst j Þetta nafn er mikils til of stutt, því bókin ætti reyndar að heita: “lítilfjörlegur samtíningur af málleysum, bögumælum, dönskuslettum, hortittum, klaufalegum orðatiltækjum, smekkleysum og öðrum þess háttar smámunum, — sumt frjálst j

The  layers  of  Fjölnir    

       OCR   Post-­‐corr.   Modern   Lemma   Tag  

Hjcr   Hjer   Hér   hér   aa  

eru   eru   eru   vera   sfg3fn  

fáei´n   fáeín   fáein   fáeinir   fohfn  

dæmi   dæmi   dæmi   dæmi   sþghfn  

af   af   af   af   aþ  

hvurju   hvurju   hverju   hver   fsheþ  

firir   firir   fyrir   fyrir   ao  

sig   sig   sig   sig   fphfo  

Links  to  the  scanned  pages  on  0marit.is  will  be  provided.  The  texts  will  be  available  in  KWIC  format  at  arnastofnun.is.  

Manual  post-­‐processing                  

       •  Classifica0on  of  different  text  styles:  – Block  styles:  Headers  and  subheaders  of  different  levels,  body  text,  smaller  text,  footnote  text,  etc.  

– Inline  styles:  Italic,  wide-spaced ,  bold;  Fraktur  

•  Layout:  Poem  blocks,  tables,  footnotes,  math  

•  Standardiza0on  of  text  and  layout  styles,  defined  in  a  CSS  stylesheet  

•  Graphics  replicated  manually  in  SVG  format    

Time-­‐consuming  aspects  

       •  Reordering  text:  tables,  footnotes  

•  The  few  ar0cles  with  a  lot  of  forma�ng  changes  (e.g.  ar0cle  on  spelling  reforms)  

40

deplabaugnum Z' n' N ' m' (Fig. 1 b). Á stððunum Z' og N ' er ílóð, og á n' og m' er fjara.

Af þcssu 111 á það sjá án alls reíkníngs, að flóð og íjara veröur aö koma tvisvar á hvurju tíniabili, scm Iíður ámilli þess , er túngllð kjcmur í imdeígjisstað, svo og, að flóð kjemur alstaðar á jöröunni, þar sem túnglið er í hádeígj-is- og miðnættisstað, og fjara hhtur að koma þar rúmum G stundum seínna, hegar túnglið nemur við sjóndeíldarliríng, hað er að skjilja: ftcgar hað kjemur öpp og gjeíngur undir.

Sama er að scígja Um S(Slina, og mi hefir verið sagt um túnglið ; pví cínu munar, að miklu mlnna her á að-dráttarmagni sólarinnar, þótt þaö raunar sje miklu meíia, af því fjarlægð hennar er svo afarmikjil: enn það höfum vjer áður sjeð , að flóð og fjara kjemur af þv í , að að-dráttarmagnið má sjer mikjið eða lítið á jörðunni, eptir því sem staðirnir á ifirhorði hennar eru íjær eður n;er þeím likomum, sem að sjer draga. Meðalfjarlægð túngls frá jtfrðu er 51,536 mílur, og þvermál jarðarinnar er 1719 mílur; iljastaðurinn N (Fig. 1) er því ^ fjær miðju táogts enn hvirfilstaðurínn Z , og aðdráttarmagni túnglsins munar því töluvert á háðum þeím stöðum. Meðalfjarlægð sólar frá jörðu er 20,606,800 mílna ; mismunur fjarlægðanna á N og Z frá miðju jarðar er því aðeíns j ^ ^ , og mismunur aðdráttarins harla litill, þó eigji svo, að ekkji íieri á houum.

Setjnm nú, að S (Fig. 2) sje miðja sólar, og A-B kahli úr jarðbrautinni kríngum sólina; hinir staf-irnir þíða hjer sama og í Fig. 1. Af því jSrðiri gjeíngur í hríng um sólina, nmndi hvur hluti hennar vera á kasti. sem steíni sje snarað úr slaungu, og fjarlægjast hvur annann.

22/05/14 11:21Fjölnir, 6. árgangur 1843

Page 27 of 46file:///Users/krun/Desktop/Orðabókin%20sumar%202012/Fjölnir,%20leiðrétt/6.%20árg./Fjölnir-1843.html

C

C!B

S

A

N

Zn

m

N!

Z!

n! m!Fig. 2

að vatnið dregst þar saman og hækkar frá miðju jarðar; þar kjemur flóð, er vjersvo köllum.  Eíns fer á staðnum N og á Z, að þar verður flóð um sama leíti, þóttgagnstæður hlutur valdi, því það er þurnan aðdráttarmagnsins. Túnglið L dregurmeír að sjer miðbik jarðarinnar og þá jafnframt allan hinn fasta jarðarknött,heldur enn vatnið utan um knöttinn á staðnum N, það er fjærst er túnglinu. Miðjajarðarinnar C nálgast því túnglið meír enn staðurinn N á ifirborði sjáarins, það ermeð öðrum orðum: það er eíns og hin fasta jörð þokjist burtu frá ifirborðivatnsins á staðnum N, svo vatnið verður aptur úr og liptir sjer þar eður vegs, svoþar verður eínnig flóð. Eíns fer það, þótt flóðið smámínkji, á öllum þeím stöðumjarðarinnar, sem liggja undir sama hádeígjisbaug, sem Z og N, eður þar, semtúnglið er í hádeígjis- og miðnættisstað. Allt annað vatn umhverfis jörðinafjarlægjir sig því minna miðju hennar, sem það er fjær hádeígjisbaug; það er meðöðrum orðum: aðdráttarablið liptir því þeím mun minna. Á stöðunum n og m bertúnglið við sjóndeíldarhríng, og þar dregur túnglið vatnið að sjer með jafn mikluabli og miðju jarðarinnar C; aðdráttarmagnið breítir því ekkji í sjálfu sjersjáarhæðinni á þeím stöðum; samt sem áður hlítur hæð sjáarins að breítast þarum sama leíti og sjórinn eíkst á Z og N; ifirborð sjáarins lækkar á n og m, þvímikjill hluti vatnsmegnisins er orðinn eptir við N, og jafn mikjið er runnið til Z,svo ifirborð alls vatnsins er nú búið að fá þá mind, sem sjá er á deplabaugnum Z′n′ N′ m′ (Fig. 1 b). Á stöðunum Z′ og N′ er flóð, og á n′ og m′ er fjara.  Af þessu má það sjá án alls reíkníngs, að flóð og fjara verður að komatvisvar á hvurju tímabili, sem líður ámilli þess, er túnglið kjemur í hádeígjisstað,svo og, að flóð kjemur alstaðar á jörðunni, þar sem túnglið er í hádeígjis- ogmiðnættisstað, og fjara hlítur að koma þar rúmum 6 stundum seínna, þegartúnglið nemur við sjóndeíldarhríng, það er að skjilja: þegar það kjemur upp oggjeíngur undir.  Sama er að seígja um sólina, og nú hefir verið sagt um túnglið; því eínumunar, að miklu minna ber á aðdráttarmagni sólarinnar, þótt það raunar sje miklumeíra, af því fjarlægð hennar er svo afarmikjil: enn það höfum vjer áður sjeð, aðflóð og fjara kjemur af því, að aðdráttarmagnið má sjer mikjið eða lítið ájörðunni, eptir því sem staðirnir á ifirborði hennar eru fjær eður nær þeímlíkömum, sem að sjer draga. Meðalfjarlægð túngls frá jörðu er 51,536 mílur, ogþvermál jarðarinnar er 1719 mílur; iljastaðurinn N (Fig. 1) er því 1

30 fjær miðjutúngls enn hvirfilstaðurinn Z, og aðdráttarmagni túnglsins munar því töluvert ábáðum þeím stöðum. Meðalfjarlægð sólar frá jörðu er 20,666,800 mílna;mismunur fjarlægðanna á N og Z frá miðju jarðar er því aðeíns 1

12000 , ogmismunur aðdráttarins harla lítill, þó eígji svo, að ekkji beri á honum.

  Setjum nú, að S (Fig. 2) sjemiðja sólar, og AB kabli úrjarðbrautinni kríngum sólina; hinirstafirnir þíða hjer sama og í Fig. 1.Af því jörðin gjeíngur í hríng umsólina, mundi hvur hluti hennarvera á kasti, sem steíni sje snarað úrslaungu, og fjarlægjast hvurannann, ef aðdráttarmagnjarðarinnar sjálfrar orkaði ekkji aðhalda þeím saman. Slaungukastþetta er almennt kallaðmið f ló t t amagn , og er það mestá staðnum N, á C, n og m er það

minna og jafnmikjið á þeím öllum, og á staðnum Z er það minnst. Þetta ergagnstætt því, sem vjer höfum áður heírt um aðdráttarmagnið, því mest er það á

FJÖLNIR FYRIR HVERN MANN

The  Árni  Magnússon  Insetute    for  Icelandic  Studies  

Thank  you  for  your  a^eneon    

Jón  Friðrik  Daðason,  KrisYn  Bjarnadó�r  &  Kristján  Rúnarsson    [email protected],  [email protected],  [email protected]  

golnir.arnastofnun.is  

May  26  2014  LRT4HDA  /  LREC  2014  Reykjavík