dml-cz: Česká matematická digitální knihovna

26
DML-CZ: Česká matematická digitální knihovna Martin Lhoták, Jiří Rákosník, Petr Sojka, Martin Šárfy

Upload: kanoa

Post on 31-Jan-2016

35 views

Category:

Documents


0 download

DESCRIPTION

DML-CZ: Česká matematická digitální knihovna. Martin Lhoták, Jiří Rákosník, Petr Sojka, Martin Šárfy. Projekt DML-CZ. Cíl: zpřístupnění digitalizované matematické literatury publikované v průběhu historie v českých zemích, popis jednotlivých článků - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: DML-CZ:  Česká matematická digitální knihovna

DML-CZ: Česká matematická digitální knihovna

Martin Lhoták,Jiří Rákosník, Petr Sojka, Martin Šárfy

Page 2: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 2/26

Cíl: zpřístupnění digitalizované matematické literatury publikované v průběhu historie v českých zemích, popis jednotlivých článků

Finančně podporováno Grantovou agenturou Akademie věd ČR v rámci národního výzkumného programu Informační společnost

Doba řešení: 2005–2009

Předpokládaný rozsah: 150–200 tisíc stran

Projekt DML-CZ

Page 3: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 3/26

Řešitelé

Matematický ústav AVČR (Praha): koordinátor projektu, výběr a příprava materiálů k digitalizaci, autorská práva a problémy copyrightu, obsluha a údržba stávajícího DML-CZ

Ústav výpočetní techniky, Masarykova univerzita (Brno): technická integrace, vývoj digitální knihovny, koordinace pořizování metadat a začlenění do WDML

Fakulta informatiky, Masarykova Univerzita (Brno): zpracování OCR, techniky pro vyhledávání a prezentování digitálních dokumentů, prezentační formáty a vývoj a testování relevantních technologií

Matematicko fyzikální fakulta Univerzity Karlovy (Praha): uživatelské požadavky, specifikace metadat, linkování do Zentralblatt MATH a Mathematical Reviews

Knihovna AV ČR (Praha): digitalizace, OCR, archivace a prezentace digitalizovaného materiálu v rámci Akademie věd ČR

Page 4: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 4/26

scan

článek

.xhtml

MRZbl

Obsah

článek

.pdf

J ournal

.dml

plain-text.tex/ .ocr

editor

generování PDF

ruční opravy

rozsahy stran článků,MR and Zbl linky,Autoritní DB

článkovámetadata,full-text, reference

metadata seriálu,ISSN, ...

rozdělení číslana články

autodetekce metadat, full-text, referenceFine+InftyReader

opravy publikačnísystémy:Kramerius, DSpace, ...

opravy

opravy

1

8b

8c

8a

7a

3b

5

6b

6a

4c4b

4a

3a

2

7b

7c

Workflow

Page 5: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 5/26

Testovací vzorek

Československý matematický časopis / Czechoslovak Mathematical Journal

1951–1991 klasický tisk (téměř 30 000 stran), od roku 1992 elektronicky - TeX

multilijazyčnost: čeština, slovenština, ruština, angličtina, němčina, francouzština, italština

první dva výtisky byly vydány současně česky, rusky a v multijazyčné formě

ruční kresby, grafy, tabulky a fotografie

Page 6: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 6/26

Page 7: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 7/26

Page 8: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 8/26

Page 9: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 9/26

Page 10: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 10/26

Skenování a základní metadata

Digitalizační centrum Knihovny AV ČR http://digit.lib.cas.cz/

Skener Zeutschel OS 7000 (90 A4 stran za hodinu při 600 DPI)

šedá škála, 600 (644) DPI, 4~bit TIFFBookRestorer (i2S, France) pro grafické vylepšení

skenovaných stran – především ořez, binarizace a rovnání řádků

úvodní OCR (vše kromě matematických „specialit“): ABBYY FineReader integrovaný v produkčním systému Sirius (Elsyst Engineering, ČR)

vytváření základních metadat s využitím částečně automatizovaných postupů (DTD – Kramerius)

Page 11: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 11/26

Od digitalizovaných stran k článkům

1. Seřazení naskenovaných obrazů stran v adresářích v hierarchické struktuře Titul časopisu / Ročník / Výtisk

– prováděno v rámci skenovacího procesu

Page 12: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 12/26

2. Aplikace OCR FineReader pro běžný text a InftyReader pro matematické části

Problémy:– detekce jazyků na úrovni odstavců– detekce čísel stránek (v některých případech čísla

stran chybí)– pokud OCR nedetekuje číslo strany není obrázek

automaticky spojen s číslem strany – je nutný manuální zásah

Od digitalizovaných stran k článkům

scanned page PDF IML, MathML, TeXFineReader InftyReader

Page 13: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 13/26

Od digitalizovaných stran k článkům

3. Vytvoření úvodního seznamu článků v příslušném vydání časopisu

– využití metadat z existujících databází - Mathematical Reviews (MR) and Zentralblatt MATH (Zbl)

– nalezení začátků a konců článků pomocí OCR– identifikace strany s obsahem a jejích položek pomocí OCR

Tímto získáme základní podklady pro následující kroky.

Problémy:– OCR může způsobit nesprávné rozdělení článků na části– databáze nejsou absolutně spolehlivé– identifikace obsahu může být složitá, zatím není zcela

dořešeno

Page 14: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 14/26

Od digitalizovaných stran k článkům

4. Autodetekce deskriptivních metadat z externích databází a/nebo z OCR

– některá metadata jsou získána pomocí OCR již během skenovací fáze

– metadata jsou využitá v dalším kroku pro kontrolu

Problémy (zejména s referencemi):– identifikace začátků článků, rozdělení článků na

logické části, nalezení URL, …– multijazyčnost (Reference, Referencie, References,

Bibliography, Bibliographie, Literaturverzechnis, Littérature, Literatura, Литература)

Page 15: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 15/26

Od digitalizovaných stran k článkům

5. Manuální revize článků a jejich obsahů– nezbytné pro následující kroky ve workflow– prováděno manuálně pomocí vyvinutého Metadata Editoru

který umožňuje• vizuální kontrolu obrázků stran

• náhled článku

• přesun stran uvnitř článku a mezi články

• zrušení nesprávně identifikovaných článků a vytvoření nových

• odstranění prázdných stran

• …

Page 16: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 16/26

Page 17: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 17/26

Od digitalizovaných stran k článkům

6. Manuální kontrola popisných metadat– důležité pro kvalitu obsahu DML, ne pro workflow– také prováděno s Metadata Editorem

Problémy:– jména autorů

• transliterace• kdo je rozhodující – Zbl, MR, auroritní báze?• příklady: Zakharov/Zaharov,

Solomencev/Solomentsev, Nikolskiĭ/Nikol’skiĭ/Nikol’skij, …

– chybějící MSC (Mathematics Subject Classification)

Page 18: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 18/26

Page 19: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 19/26

Od digitalizovaných stran k článkům

7. Generování PDF souborů po článcích– dvouvrstvé PDF umožňující vyhledávání– při generování se využívá seznam článků a odpovídající čísla

stran– nepřepokládá se využití formátu DjVu (PDF od verze 6.0

podporuje kompresní algoritmus JBIG2)

Page 20: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 20/26

Od digitalizovaných stran k článkům

8. Import článků a metadat do publikačního systému

Problémy:– rozhodnutí, který systém využít

• Kramerius

• DSpace

• vytvoření vlastního?

– začlenění DML-CZ do WDML

Page 21: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 21/26

Page 22: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 22/26

Page 23: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 23/26

Page 24: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 24/26

Autorská a vlastnická práva

Problems:– podle českého práva je elektronická verze tištěného

dokumentu považována za zcela nový dokument – je nutné povolení od autora

– elektronické verze nemohou tedy být vystaveny veřejně na Internetu

– jednání s vydavateli / distributory (např. pohyblivé okno – prezentace dokumentu v tomto okně)

Page 25: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 25/26

Budoucí kroky

• vyřešení problémů• zpracování další literatury

– Aplikace matematiky, Kybernetika a některé další– konferenční sborníky, knihy, dizertační práce

• zpracování born-digital materiálů• zpracování materiálu digitalizovaného na univerzitě v Göttingenu• zpracování Slovak časopisů• spolupráce s dalšími digitalizačními iniciativami

– OCR matematických částí– indexace a vyhledávání matematických částí– klasifikace– prolinkování referencí

Page 26: DML-CZ:  Česká matematická digitální knihovna

AKM 2006 26/26

Děkuji za pozornost

DML–CZhttp://dml.muni.cz/

[email protected]