thejournal$ fjölnirforeveryone: $ …©ft'n of s'óhjii ^jottalt'n, dr. medic. et...
TRANSCRIPT
Jón Friðrik Daðason, Kris0n Bjarnadó4r & Kristján Rúnarsson The Árni Magnússon Ins0tute for Icelandic Studies,
University of Iceland
The Journal Fjölnir for Everyone: The Post-‐Processing of Historical OCR Texts
Language Resources and Technologies for Processing and Linking Historical Documents and Archives – Deploying Linked Open Data in Cultural Heritage
LRT4HDA
May 26 2014
LREC 2014 Reykjavík
Fjölnir: a 19th century journal
The aim is making the text of Fjölnir accessible on the Web, both in the original spelling, and in modern spelling, in a version suitable both for scholars and the general public.
KrisYn: The journal The cohesion of Icelandic spelling The need for normaliza0on
Jón Friðrik: The OCR post-‐correc0on process The normaliza0on process Kristján: Manual post-‐processing The website The layers of Fjölnir
������
��� �
���
������
�� �� � � �
�� ��� �
Published in Copenhagen 1835-‐1847
“... to publish a yearly journal, not confined to anything but
the sensible and the amusing ... ”
Short stories, poetry, history, poli0cs, natural sciences, book reviews, language, spelling
reforms ...
A cornerstone of Roman0c literature in Iceland
Fjölnir
'-#� ����0� ���)� ���&# ��#�# '*$% ��# ���+0 * $%��$�% �*��� *$�� (�& �#� � �� �# �+ � � ($$��� �'�)37�& � �"%�� �'�)47� , ("��"" �&&�� '����� �7� �',������ #�8�% &�! 8�7 �% &'�'' ��� /7%( ���- &�!� �'�)47�&� � ���% �""�""#%7&� � �'�)37�& � �"��� ��%�% �%�!�"" �� �-�� ��% ��4%� �,'�� ��'� �''� �� � �/%� �(� � �0&� �#% ��. �� �%���"� �%��'&� �'�� � �.'� �"��(%� �"�.&�(%� ��� � #���� #�'� %���� �� � ���� ����� . ���� �� ����%��#'' � ��� 3'(% ��"&#� � �� �""�- �'�)37� � ("��"" ��%���
�7� �������� �� &'�"�� 8�7 �$'�"� �'�)47�� #� � �$'�% �""�7�)(%' ���� "��''� �7� �'�)47� &�!� #%7&� &�! ��%��% � ��"�)(%�(! /7%(! &'��� �"" � �� �"�!�� �7� �8� &'0"�"( ������ �'���� � ���% "�'' #%7� &�! �37� ���(% ���%+ (� #� ("��% �-�& ��"�)(%" �""�"" &'�� � ($$����"(� �"" ! �7� �8 %�� 7� . &/!( ��7�& � 4'(%
* ��"&#� )� � !/%�(! #%7(!� �47� � �"�� �'�)37�& �""�� 8��!� 8. �7 � !� �7��� �7� � �#!� "4&' , �$'�%� #� - �"�� 8��%%� &�� �%�� 80�7 ! �7� �8 �5� 8 �#!� "4&' , �$'�%� ��""�� � ��"(! �0 (!� 8���% !�"" �%( �7� )�%7� &��%!4 '�% , 8�(� ���7� � �"�� �'�)47�& �"%�� 8��!� 8. �7 � !� 7 �7� � �#!� 9"4&' � �$'�%� #� � �"�� 8�-%%� &�� �%�� 8. �7 ! �7� �8 �� 8 �#!� "4&' � �$'�% �-�� �� �/�%����
���� �� �#�''% * 1����� -%� �/)%�� �/������ �#�� �/)��� �� ��� �#�� ��)� ����� �#�� ���)�� ���%4'' �#�� �)�%4' � . �� �'�7 �#�� �) �'�7� �� �' �#�� �) �'� !� �� �#� �� ���% � � �"%� � �'�)47� � ("��"" � �� �""� �7� �7�� ��""�� � &(!(! #%7(!� 8���% �)(%"���& ��� �% �7 8��"� �)�7�7� �37� � � ' �)37�&��"��� � ((��"" /7%( �'�)37� &�!� #%7&� &�! ��%��% � � �� �")!�� �7� �7� ����� #�� #%7&��"��� � ("���"" �"�!��7� �8#!��+� �7�� &�� 8�7 ���%+ ( �(&'� (%�7�7
� � ���+ $ $�� 1) !"%�$% -# $�%% * $%�0 ���&� � ���0 � $%� �� ���#&�� ��% ) $�� �� �'&#% ! 1�% %� ��
#� ��� �# �)%�0 ������ *�##� �%�'-0� &� �0&# ��� & $�* � . �*� !�# ��$� '����
• From the Digital library of Icelandic newspapers, cf. Hrafnkelsson & Sævarsson (LRT4HDA)
• OCR: 86.2% word accuracy • Extreme font changes, cf.
example to the right, from a trea0se on spelling
• Extremely varied spelling, due to par0ally implemented experimental spelling reforms. Spelling was not standardized at the 0me.
The text
Sta0s0cs
Year Pages Words Characters
1835 180 41,951 243,713
1836 108 31,968 185,994
1837 114 34,272 202,851
1838 92 26,186 155,445
1839 186 59,484 343,139
1843 88 15,974 95,381
1844 140 42,646 248,671
1845 84 20,824 121,975
1847 96 22,867 131,365
Total 1,088 296,172 1,728,534
• 19th century word forms and frequency: 517,000 The Wrilen Language Archive (Ritmálssafn), The Árni Magnússon Ins0tute for Icelandic Studies (AMI)
• Modern word forms: 5.8 million The Database of Modern Icelandic Inflec0on (Beygingarlýsing íslensks núYmamáls), AMI
• Modern word frequency: Íslenskur orðasjóður (Wortschatz), Universität Leipzig
Approx. 500 million running words
Resources
• The general public balks at reading unfamiliar spelling
• Scholars make use of the anchoring of spelling variants to modern word forms and lemmas
• Modern NLP tools generally assume modern spelling • Normaliza0on greatly enhances the scope of search engines
The benefits of normaliza0on
• Rule-‐based normaliza0on – Rules manually created or derived from parallel corpora – A few rules can normalize a large por0on of the text – Ambiguous and uncommon variants can result in large and complex rule sets
– Generally specific to certain 0me periods and domains • Spellchecking
– Candidates generated and ranked by probability – Probability es0mated from character transforma0ons and the frequency of the candidate
– A good general solu0on if the spellchecker can be adapted to each document
Approaches to spelling normaliza0on
• Es0mate the probability that a given candidate is correct based on a language model and an error model
• The language model es0mates the probability of a given word (or a sequence of words) based on its frequency in a large corpus – We use a unigram model
• The error model es0mates the probability of a given character transforma0on
Noisy channel model
• The error model is trained on pairs of correct and “noisy” words
• The probability that the leler m could be misrecognized as rn is – P(rn|m) = count(m→rn) / count(m), where – count(m→rn) is the number of 0mes m was replaced with rn, and
– count(m) is the number of 0mes m appears in the correct words
Error model
• Several training itera0ons • First itera0on – Assume all words not in our lexicon are errors
– For each error, generate candidates from the lexicon – Rank the candidates using the language model only
• Following itera0ons – Train the error model using the results of the previous itera0on
– Re-‐rank the candidates using the updated error model
Training the error model
• Results when evaluated on the 8th volume of Fjölnir
– 18,714 alphabe0cal tokens; 2,591 word errors
• Sugges0on accuracy (top 5 sugges0ons) – Language model only: 49.4% – With error model: 58.0%
• Fraktur font results in many uncorrected errors
– E.g., vardveiti (varðvei0) ‘preserve’ → oartw^t – Easier to correct during the OCR process itself
Iter. 1 Iter. 2 Iter. 3 Iter. 4
N=1 38.1% 51.6% 52.9% 52.9%
N=5 49.4% 58.1% 57.8% 58.0%
Results for OCR correc0on (1)
• Excluding words in Fraktur yields significantly improved results
• Sugges0on accuracy (top 5 sugges0ons) – Language model only: 62.0% – With error model: 71.7%
Iter. 1 Iter. 2 Iter. 3 Iter. 4
N=1 47.9% 65.0% 66.4% 66.6%
N=5 62.0% 72.0% 72.1% 71.7%
Results for OCR correc0on (2)
• Sugges0on accuracy (top 5 sugges0ons) – Language model only: 48.6% – With error model: 84.6%
• Remaining errors are largely real-‐word errors – E.g., where en ‘but’ has been wrilen as enn ‘s0ll’ – Require a context-‐sensi0ve spellchecker
Iter. 1 Iter. 2 Iter. 3 Iter. 4
N=1 35.7% 68.9% 73.4% 73.6%
N=5 48.6% 84.6% 84.6% 84.6%
Results for spelling normaliza0on
02
stendur eíns mikjið á bakji annarra í örlcgheítum til þessarar skiptunar, sem er vesturamtsins góðu innbúa eígjin eígn, og hvar um hókjiti höndlar, eíns og hins vegar sumir í hinni gjeístlegu röð."
X. í̂bftnnt'ncj m'b (gtnet;gba gjelntr <3amantefin ocj úU ftéft'n of S'óhjii ^jottalt'n, Dr. Medic. et Chirurgiæ, tttnefnbum S3ataIlt'on§ Chirurg otb .£>an§ ^cítícjnar .Konúncjð oorð eicjt'n berlibðflocf. S3tbet)ar .ftlauftri, 1839. 8. 28 blss.
XI. £ji5bafmámunir, famt Gnnilíu Sfauntr, af ©ícutrbi 83reíbfj0rb. 2ínnar drðfloffur. S3iber,ar £Iaujtri, 1839. 121. 144 blss.
Jietta nafn er niikjils til of stutt, því bókjin ætti reíndar að heífa: "látilffdrlegur smntiningur af málleísum, bögumœlum, dönskuslettum, hortittum, klaufalegum orða-tiltækj'um, smekkleisum og öðrum þess húttar smámunum, — sumt frjálst og sumu stolið af Siguroi Breíðfj'úrð." Hjcr eru fáei'n dæmi af hvurju firir sig.
Málleísur og Bögumœli. lanbttcettur, l l 6 (í fleírtölu); intum rann, 23' (firir intu rann/) ; altjlíife/ 23 1 0 (firir ölteítin); be^ti nábum blt'bum, 2 8 ' 3 ; j<$r, 291 2 (firir jó); jgorcjap Cjata, 23T (firir "Borgaragata"); bjógum, 291T (firir hjuggum); fycettulecjra (firir hættulegar) leit þab Út, 29*; (þetta bögrr-mæli er líka dönskusletta); unn, 33 1 9 (firir umii); ípjfi fréttir(?),59fi; í>lbi, 612 0 ; £lm (um sólina), 399; h)ab,3020; oarba, 402 (firir vamd); ffilja frá einl)t>urium, 649 (firir skjilj-ast^við eínhvum); þefib, 6921 (firir þakjið); láta I)cerbum manni tycjbir einar ab íajíi bella, 42*—5; ercji bucjar, 41 T ; cebur, 491S (í fleírtölu); gunbvmarbijj, 5 0 u ; unnt', 5513
(firir ann) ; VtfCjöcettur, 181 3 - 1 4 (í þolanda), og fram eptir því; (það er ekkji kjin, þó höfundurinn sje að fornirða og hafa við innanum þetta, t. a. m.: fcr eg, 3 3 1 1 ' 1 2 ; fíúa, 18 1 4 , og þviumlíkt.)
' ) Firri "ársflokkurinn" cr í sæmilega stóru átta blaða broti. lltif'iiniliii'inn Iiefii- ætlast til að báðir ársflokkarnir irði bundnir saman.
Facsimile
OCR
Corrected original spelling
Corrected modern spelling
Jietta nafn er niikjils til of stutt, því bókjin ætti reíndar að heífa: "látilffdrlegur smntiningur af málleísum, bögumœlum, dönskuslettum, hortittum, klaufalegum orða- tiltækj'um, smekkleisum og öðrum þess húttar smámunum,
Þetta nafn er mikjils til of stutt, því bókjin ætti reíndar að heíta: “lítilfjörlegur samtíníngur af málleísum, bögumælum, dönskuslettum, hortittum, klaufalegum orðatiltækjum, smekkleísum og öðrum þess háttar smámunum, — sumt frjálst j Þetta nafn er mikils til of stutt, því bókin ætti reyndar að heita: “lítilfjörlegur samtíningur af málleysum, bögumælum, dönskuslettum, hortittum, klaufalegum orðatiltækjum, smekkleysum og öðrum þess háttar smámunum, — sumt frjálst j
The layers of Fjölnir
OCR Post-‐corr. Modern Lemma Tag
Hjcr Hjer Hér hér aa
eru eru eru vera sfg3fn
fáei´n fáeín fáein fáeinir fohfn
dæmi dæmi dæmi dæmi sþghfn
af af af af aþ
hvurju hvurju hverju hver fsheþ
firir firir fyrir fyrir ao
sig sig sig sig fphfo
Links to the scanned pages on 0marit.is will be provided. The texts will be available in KWIC format at arnastofnun.is.
Manual post-‐processing
• Classifica0on of different text styles: – Block styles: Headers and subheaders of different levels, body text, smaller text, footnote text, etc.
– Inline styles: Italic, wide-spaced , bold; Fraktur
• Layout: Poem blocks, tables, footnotes, math
• Standardiza0on of text and layout styles, defined in a CSS stylesheet
• Graphics replicated manually in SVG format
Time-‐consuming aspects
• Reordering text: tables, footnotes
• The few ar0cles with a lot of forma�ng changes (e.g. ar0cle on spelling reforms)
40
deplabaugnum Z' n' N ' m' (Fig. 1 b). Á stððunum Z' og N ' er ílóð, og á n' og m' er fjara.
Af þcssu 111 á það sjá án alls reíkníngs, að flóð og íjara veröur aö koma tvisvar á hvurju tíniabili, scm Iíður ámilli þess , er túngllð kjcmur í imdeígjisstað, svo og, að flóð kjemur alstaðar á jöröunni, þar sem túnglið er í hádeígj-is- og miðnættisstað, og fjara hhtur að koma þar rúmum G stundum seínna, hegar túnglið nemur við sjóndeíldarliríng, hað er að skjilja: ftcgar hað kjemur öpp og gjeíngur undir.
Sama er að scígja Um S(Slina, og mi hefir verið sagt um túnglið ; pví cínu munar, að miklu mlnna her á að-dráttarmagni sólarinnar, þótt þaö raunar sje miklu meíia, af því fjarlægð hennar er svo afarmikjil: enn það höfum vjer áður sjeð , að flóð og fjara kjemur af þv í , að að-dráttarmagnið má sjer mikjið eða lítið á jörðunni, eptir því sem staðirnir á ifirhorði hennar eru íjær eður n;er þeím likomum, sem að sjer draga. Meðalfjarlægð túngls frá jtfrðu er 51,536 mílur, og þvermál jarðarinnar er 1719 mílur; iljastaðurinn N (Fig. 1) er því ^ fjær miðju táogts enn hvirfilstaðurínn Z , og aðdráttarmagni túnglsins munar því töluvert á háðum þeím stöðum. Meðalfjarlægð sólar frá jörðu er 20,606,800 mílna ; mismunur fjarlægðanna á N og Z frá miðju jarðar er því aðeíns j ^ ^ , og mismunur aðdráttarins harla litill, þó eigji svo, að ekkji íieri á houum.
Setjnm nú, að S (Fig. 2) sje miðja sólar, og A-B kahli úr jarðbrautinni kríngum sólina; hinir staf-irnir þíða hjer sama og í Fig. 1. Af því jSrðiri gjeíngur í hríng um sólina, nmndi hvur hluti hennar vera á kasti. sem steíni sje snarað úr slaungu, og fjarlægjast hvur annann.
22/05/14 11:21Fjölnir, 6. árgangur 1843
Page 27 of 46file:///Users/krun/Desktop/Orðabókin%20sumar%202012/Fjölnir,%20leiðrétt/6.%20árg./Fjölnir-1843.html
C
C!B
S
A
N
Zn
m
N!
Z!
n! m!Fig. 2
að vatnið dregst þar saman og hækkar frá miðju jarðar; þar kjemur flóð, er vjersvo köllum. Eíns fer á staðnum N og á Z, að þar verður flóð um sama leíti, þóttgagnstæður hlutur valdi, því það er þurnan aðdráttarmagnsins. Túnglið L dregurmeír að sjer miðbik jarðarinnar og þá jafnframt allan hinn fasta jarðarknött,heldur enn vatnið utan um knöttinn á staðnum N, það er fjærst er túnglinu. Miðjajarðarinnar C nálgast því túnglið meír enn staðurinn N á ifirborði sjáarins, það ermeð öðrum orðum: það er eíns og hin fasta jörð þokjist burtu frá ifirborðivatnsins á staðnum N, svo vatnið verður aptur úr og liptir sjer þar eður vegs, svoþar verður eínnig flóð. Eíns fer það, þótt flóðið smámínkji, á öllum þeím stöðumjarðarinnar, sem liggja undir sama hádeígjisbaug, sem Z og N, eður þar, semtúnglið er í hádeígjis- og miðnættisstað. Allt annað vatn umhverfis jörðinafjarlægjir sig því minna miðju hennar, sem það er fjær hádeígjisbaug; það er meðöðrum orðum: aðdráttarablið liptir því þeím mun minna. Á stöðunum n og m bertúnglið við sjóndeíldarhríng, og þar dregur túnglið vatnið að sjer með jafn mikluabli og miðju jarðarinnar C; aðdráttarmagnið breítir því ekkji í sjálfu sjersjáarhæðinni á þeím stöðum; samt sem áður hlítur hæð sjáarins að breítast þarum sama leíti og sjórinn eíkst á Z og N; ifirborð sjáarins lækkar á n og m, þvímikjill hluti vatnsmegnisins er orðinn eptir við N, og jafn mikjið er runnið til Z,svo ifirborð alls vatnsins er nú búið að fá þá mind, sem sjá er á deplabaugnum Z′n′ N′ m′ (Fig. 1 b). Á stöðunum Z′ og N′ er flóð, og á n′ og m′ er fjara. Af þessu má það sjá án alls reíkníngs, að flóð og fjara verður að komatvisvar á hvurju tímabili, sem líður ámilli þess, er túnglið kjemur í hádeígjisstað,svo og, að flóð kjemur alstaðar á jörðunni, þar sem túnglið er í hádeígjis- ogmiðnættisstað, og fjara hlítur að koma þar rúmum 6 stundum seínna, þegartúnglið nemur við sjóndeíldarhríng, það er að skjilja: þegar það kjemur upp oggjeíngur undir. Sama er að seígja um sólina, og nú hefir verið sagt um túnglið; því eínumunar, að miklu minna ber á aðdráttarmagni sólarinnar, þótt það raunar sje miklumeíra, af því fjarlægð hennar er svo afarmikjil: enn það höfum vjer áður sjeð, aðflóð og fjara kjemur af því, að aðdráttarmagnið má sjer mikjið eða lítið ájörðunni, eptir því sem staðirnir á ifirborði hennar eru fjær eður nær þeímlíkömum, sem að sjer draga. Meðalfjarlægð túngls frá jörðu er 51,536 mílur, ogþvermál jarðarinnar er 1719 mílur; iljastaðurinn N (Fig. 1) er því 1
30 fjær miðjutúngls enn hvirfilstaðurinn Z, og aðdráttarmagni túnglsins munar því töluvert ábáðum þeím stöðum. Meðalfjarlægð sólar frá jörðu er 20,666,800 mílna;mismunur fjarlægðanna á N og Z frá miðju jarðar er því aðeíns 1
12000 , ogmismunur aðdráttarins harla lítill, þó eígji svo, að ekkji beri á honum.
Setjum nú, að S (Fig. 2) sjemiðja sólar, og AB kabli úrjarðbrautinni kríngum sólina; hinirstafirnir þíða hjer sama og í Fig. 1.Af því jörðin gjeíngur í hríng umsólina, mundi hvur hluti hennarvera á kasti, sem steíni sje snarað úrslaungu, og fjarlægjast hvurannann, ef aðdráttarmagnjarðarinnar sjálfrar orkaði ekkji aðhalda þeím saman. Slaungukastþetta er almennt kallaðmið f ló t t amagn , og er það mestá staðnum N, á C, n og m er það
minna og jafnmikjið á þeím öllum, og á staðnum Z er það minnst. Þetta ergagnstætt því, sem vjer höfum áður heírt um aðdráttarmagnið, því mest er það á
FJÖLNIR FYRIR HVERN MANN
The Árni Magnússon Insetute for Icelandic Studies
Thank you for your a^eneon
Jón Friðrik Daðason, KrisYn Bjarnadó�r & Kristján Rúnarsson [email protected], [email protected], [email protected]
golnir.arnastofnun.is
May 26 2014 LRT4HDA / LREC 2014 Reykjavík