dml-cz: Česká matematická digitální knihovna
DESCRIPTION
DML-CZ: Česká matematická digitální knihovna. Martin Lhoták, Jiří Rákosník, Petr Sojka, Martin Šárfy. Projekt DML-CZ. Cíl: zpřístupnění digitalizované matematické literatury publikované v průběhu historie v českých zemích, popis jednotlivých článků - PowerPoint PPT PresentationTRANSCRIPT
DML-CZ: Česká matematická digitální knihovna
Martin Lhoták,Jiří Rákosník, Petr Sojka, Martin Šárfy
AKM 2006 2/26
Cíl: zpřístupnění digitalizované matematické literatury publikované v průběhu historie v českých zemích, popis jednotlivých článků
Finančně podporováno Grantovou agenturou Akademie věd ČR v rámci národního výzkumného programu Informační společnost
Doba řešení: 2005–2009
Předpokládaný rozsah: 150–200 tisíc stran
Projekt DML-CZ
AKM 2006 3/26
Řešitelé
Matematický ústav AVČR (Praha): koordinátor projektu, výběr a příprava materiálů k digitalizaci, autorská práva a problémy copyrightu, obsluha a údržba stávajícího DML-CZ
Ústav výpočetní techniky, Masarykova univerzita (Brno): technická integrace, vývoj digitální knihovny, koordinace pořizování metadat a začlenění do WDML
Fakulta informatiky, Masarykova Univerzita (Brno): zpracování OCR, techniky pro vyhledávání a prezentování digitálních dokumentů, prezentační formáty a vývoj a testování relevantních technologií
Matematicko fyzikální fakulta Univerzity Karlovy (Praha): uživatelské požadavky, specifikace metadat, linkování do Zentralblatt MATH a Mathematical Reviews
Knihovna AV ČR (Praha): digitalizace, OCR, archivace a prezentace digitalizovaného materiálu v rámci Akademie věd ČR
AKM 2006 4/26
scan
článek
.xhtml
MRZbl
Obsah
článek
J ournal
.dml
plain-text.tex/ .ocr
editor
generování PDF
ruční opravy
rozsahy stran článků,MR and Zbl linky,Autoritní DB
článkovámetadata,full-text, reference
metadata seriálu,ISSN, ...
rozdělení číslana články
autodetekce metadat, full-text, referenceFine+InftyReader
opravy publikačnísystémy:Kramerius, DSpace, ...
opravy
opravy
1
8b
8c
8a
7a
3b
5
6b
6a
4c4b
4a
3a
2
7b
7c
Workflow
AKM 2006 5/26
Testovací vzorek
Československý matematický časopis / Czechoslovak Mathematical Journal
1951–1991 klasický tisk (téměř 30 000 stran), od roku 1992 elektronicky - TeX
multilijazyčnost: čeština, slovenština, ruština, angličtina, němčina, francouzština, italština
první dva výtisky byly vydány současně česky, rusky a v multijazyčné formě
ruční kresby, grafy, tabulky a fotografie
AKM 2006 6/26
AKM 2006 7/26
AKM 2006 8/26
AKM 2006 9/26
AKM 2006 10/26
Skenování a základní metadata
Digitalizační centrum Knihovny AV ČR http://digit.lib.cas.cz/
Skener Zeutschel OS 7000 (90 A4 stran za hodinu při 600 DPI)
šedá škála, 600 (644) DPI, 4~bit TIFFBookRestorer (i2S, France) pro grafické vylepšení
skenovaných stran – především ořez, binarizace a rovnání řádků
úvodní OCR (vše kromě matematických „specialit“): ABBYY FineReader integrovaný v produkčním systému Sirius (Elsyst Engineering, ČR)
vytváření základních metadat s využitím částečně automatizovaných postupů (DTD – Kramerius)
AKM 2006 11/26
Od digitalizovaných stran k článkům
1. Seřazení naskenovaných obrazů stran v adresářích v hierarchické struktuře Titul časopisu / Ročník / Výtisk
– prováděno v rámci skenovacího procesu
AKM 2006 12/26
2. Aplikace OCR FineReader pro běžný text a InftyReader pro matematické části
Problémy:– detekce jazyků na úrovni odstavců– detekce čísel stránek (v některých případech čísla
stran chybí)– pokud OCR nedetekuje číslo strany není obrázek
automaticky spojen s číslem strany – je nutný manuální zásah
Od digitalizovaných stran k článkům
scanned page PDF IML, MathML, TeXFineReader InftyReader
AKM 2006 13/26
Od digitalizovaných stran k článkům
3. Vytvoření úvodního seznamu článků v příslušném vydání časopisu
– využití metadat z existujících databází - Mathematical Reviews (MR) and Zentralblatt MATH (Zbl)
– nalezení začátků a konců článků pomocí OCR– identifikace strany s obsahem a jejích položek pomocí OCR
Tímto získáme základní podklady pro následující kroky.
Problémy:– OCR může způsobit nesprávné rozdělení článků na části– databáze nejsou absolutně spolehlivé– identifikace obsahu může být složitá, zatím není zcela
dořešeno
AKM 2006 14/26
Od digitalizovaných stran k článkům
4. Autodetekce deskriptivních metadat z externích databází a/nebo z OCR
– některá metadata jsou získána pomocí OCR již během skenovací fáze
– metadata jsou využitá v dalším kroku pro kontrolu
Problémy (zejména s referencemi):– identifikace začátků článků, rozdělení článků na
logické části, nalezení URL, …– multijazyčnost (Reference, Referencie, References,
Bibliography, Bibliographie, Literaturverzechnis, Littérature, Literatura, Литература)
AKM 2006 15/26
Od digitalizovaných stran k článkům
5. Manuální revize článků a jejich obsahů– nezbytné pro následující kroky ve workflow– prováděno manuálně pomocí vyvinutého Metadata Editoru
který umožňuje• vizuální kontrolu obrázků stran
• náhled článku
• přesun stran uvnitř článku a mezi články
• zrušení nesprávně identifikovaných článků a vytvoření nových
• odstranění prázdných stran
• …
AKM 2006 16/26
AKM 2006 17/26
Od digitalizovaných stran k článkům
6. Manuální kontrola popisných metadat– důležité pro kvalitu obsahu DML, ne pro workflow– také prováděno s Metadata Editorem
Problémy:– jména autorů
• transliterace• kdo je rozhodující – Zbl, MR, auroritní báze?• příklady: Zakharov/Zaharov,
Solomencev/Solomentsev, Nikolskiĭ/Nikol’skiĭ/Nikol’skij, …
– chybějící MSC (Mathematics Subject Classification)
AKM 2006 18/26
AKM 2006 19/26
Od digitalizovaných stran k článkům
7. Generování PDF souborů po článcích– dvouvrstvé PDF umožňující vyhledávání– při generování se využívá seznam článků a odpovídající čísla
stran– nepřepokládá se využití formátu DjVu (PDF od verze 6.0
podporuje kompresní algoritmus JBIG2)
AKM 2006 20/26
Od digitalizovaných stran k článkům
8. Import článků a metadat do publikačního systému
Problémy:– rozhodnutí, který systém využít
• Kramerius
• DSpace
• vytvoření vlastního?
– začlenění DML-CZ do WDML
AKM 2006 21/26
AKM 2006 22/26
AKM 2006 23/26
AKM 2006 24/26
Autorská a vlastnická práva
Problems:– podle českého práva je elektronická verze tištěného
dokumentu považována za zcela nový dokument – je nutné povolení od autora
– elektronické verze nemohou tedy být vystaveny veřejně na Internetu
– jednání s vydavateli / distributory (např. pohyblivé okno – prezentace dokumentu v tomto okně)
AKM 2006 25/26
Budoucí kroky
• vyřešení problémů• zpracování další literatury
– Aplikace matematiky, Kybernetika a některé další– konferenční sborníky, knihy, dizertační práce
• zpracování born-digital materiálů• zpracování materiálu digitalizovaného na univerzitě v Göttingenu• zpracování Slovak časopisů• spolupráce s dalšími digitalizačními iniciativami
– OCR matematických částí– indexace a vyhledávání matematických částí– klasifikace– prolinkování referencí
AKM 2006 26/26
Děkuji za pozornost
DML–CZhttp://dml.muni.cz/