vēsturisko materiālu digitalizācija lnb

46
Vēsturisko materiālu digitalizācija LNB Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010.

Upload: barry-colon

Post on 02-Jan-2016

62 views

Category:

Documents


9 download

DESCRIPTION

Vēsturisko materiālu digitalizācija LNB. Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010. Digitalizācijas vēsture LNB. ~1998.g statēģiskie lēmumi – mikrofilmas vs. skenētie attēli 2006. maijs digitālās bibliotēkas attīstības pāns. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Vēsturisko materiālu  digitalizācija LNB

Vēsturisko materiālu digitalizācija LNB

Artūrs Žogla, Aigars Staks

Rāmava, 06.10.2010.

Page 2: Vēsturisko materiālu  digitalizācija LNB

Digitalizācijas vēsture LNB

• ~1998.g statēģiskie lēmumi – – mikrofilmas vs. skenētie attēli

• 2006. maijs digitālās bibliotēkas attīstības pāns

DiBi misija ir organizēt Latvijas valsts un latviešu tautas kultūrvēsturiskā mantojuma saglabāšanu digitalizētā formā un nodrošināt tā pieejamību

sabiedrībai.

Page 3: Vēsturisko materiālu  digitalizācija LNB

Digitizējamo datu tipi, problēmas

• Grāmatas un avīzes– Milzīgs apjoms, reizēm slikta kvalitāte, dažadas valodas

• Mikrofilmas– Mehāniski bojājumi, zemas kvalitātes darbs

• Audio ieraksti– Bojājumi, lēns apstrādes process

• Fotogrāfijas– Metadatu atklāšana

• Citi – Kartes, Plakāti utt.– Lietojamības izaicinājumi

Page 4: Vēsturisko materiālu  digitalizācija LNB

Lielākie projekti

• Periodika.lv - 2008

• DOM - 2009

• “Zudusī Latvija” (Europeana Local) - 2010

• ERAF – digitālās bibliotēkas 2.kārta -2011

• ERAF – e-pakalpojumi - 2012

• ...

Page 5: Vēsturisko materiālu  digitalizācija LNB

DiBI 2.kārtas projekta mērķis

• Digitalizēt:– ~2.1 milj. periodisko izdevumu lpp. (~700 nosaukumi)– ~1.4 milj. grāmatu lpp. (~7000 grāmatas)

• Izveidot vēsturisko tekstu portālu• Iesaistīt lietotājus satura uzlabošanā

Page 6: Vēsturisko materiālu  digitalizācija LNB

Digitalizācijas process

Page 7: Vēsturisko materiālu  digitalizācija LNB

Materiālu atlase [1]

• Periodiskie izdevumi– Laika periods: 1760.-1995.– Tipi: avīzes, žurnāli, zinātniskie raksti– Valodas: latviešu, vācu, krievu

• Grāmatas– Laika periods: 19.gs. vidus – 2009.– Valodas: latviešu, vācu, krievu, latgaliešu, franču,

zviedru, u.c.

Page 8: Vēsturisko materiālu  digitalizācija LNB

Materiālu atlase [2]• LNB galvenā grāmatu krātuve• LNB periodisko izdevumu nod.• LNB restaurācijas nod.• Latvijas Akadēmiskā bibliotēka• LU bibliotēka

• LNB Silakroga depozitārijs

Page 9: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [1]

• Projekta periods: 2010. feb. – 2011. jūn.• Kopējais lapu skaits: ~3.5 milj.• Viens sūtījums reizi 2 nedēļās

– Periodika: ~46 000 lappušu– Grāmatas: ~55 000 lappušu

• Skenētājs:

Page 10: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [6]

• Materiālu atlases principi1. Pieprasītākie2. Fiziski sabrūkošie (laikraksti)3. Kultūrvēsturiski nozīmīgie

– Vairāku izdevumu gadījumā – pirmizdevumi– Vairāku eksemplāru gadījumā – labākās kvalitātes

eksemplārs

Page 11: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [7]

• Pavaddokuments – katram sūtījumam

Page 12: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [8]

Page 13: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [9]

Page 14: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [10]

• JPEG 2000 datne katrai lappusei– Grāmatām, žurnāliem – krāsainas (RGB)– Laikrakstiem – melnbaltas (Greyscale)– Izšķirtspēja: 400 dpi

• Datnes izmērs: 3-100 MB

Page 15: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [11]

Katrā mapē – viena grāmata

Page 16: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [12]

Katrā datnē – viena lpp

Page 17: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [13]

• Sūtījumu izsekošanas rīks

Page 18: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [14]

Tipisks epasts digitalizēšanas gaitā

Page 19: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [15]

• “Latviešu avīzes”, 1828. g.

Page 20: Vēsturisko materiālu  digitalizācija LNB

Skenēšana [16]

~1.4

cm

Page 21: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [1]

• Izdevuma loģisko daļu identificēšana– Raksti/rakstu virsraksti– Attēli/attēlu paraksti– Autori– Tabulas– Reklāmas

• Teksta atpazīšana (OCR)

Page 22: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [2]

Maksims GorkijsRīgas jūrmalā

1905. gada rudenī ievērojamais krievu proletariātarakstnieks M a k s i m s G o r k i j s pavadīja dažas nedēļasRīgas jūrmalā...

OCR

Page 23: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [3]

Valodas:•LV, GE, RU, LA, LG, SE, LT, FR, ....

Druka:•Jaunā druka•Vecā druka•Jauktā druka (jaunā+vecā)•Mašīnraksts•Rokraksts

Page 24: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [4]

• Vecā druka

Page 25: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [5]

• Jauktā druka

Vecādruka

Jaunādruka

Page 26: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [6]

• Mašīnraksts

Page 27: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [7]

• Vecā krievu rakstība

Page 28: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [8]

• Latgaliešu

Page 29: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [9]

• Franču

Page 30: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [10]

• Senprūšu

Page 31: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [11]

• OCR kvalitāte (pa simboliem)– Mūsdienu tekstiem – tuvu 100%– Vecai drukai – 80%– Visblāvākajam mašīnrakstam - <50%

• Virsrakstus un attēlu parakstus labo manuāli

Page 32: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [12]

• Mūsdienu teksta OCR kvalitāte

Oriģināls OCRSimboli pareizi/kopā: 396/403 (~98%)

Page 33: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [13]

• Vecās drukas teksta OCR kvalitāte

Oriģināls OCRSimboli pareizi/kopā: 685/739 (~92.7%)

Page 34: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [14]

• Gala rezultāts:– 1 METS datne – katram izdevumam– 1 ALTO datne – katrai lappusei– 1 JPG datne – katrai lappusei– 1 OCR datne – katram rakstam

– 1 PDF datne – katram izdevumam

Nepieciešamisaskarnei

Page 35: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [15]

PDF datne ar satura rādītāju

Page 36: Vēsturisko materiālu  digitalizācija LNB

Segmentēšana [16]

Atpazīts, iezīmējams un kopējams teksts

Page 37: Vēsturisko materiālu  digitalizācija LNB

Saskarne [1]

• Mantojums-1

http://data.lnb.lv/digitala_biblioteka/laikraksti/

Page 38: Vēsturisko materiālu  digitalizācija LNB

Saskarne [2]

http://www.periodika.lv

Page 39: Vēsturisko materiālu  digitalizācija LNB

Saskarne [3]

• Mantojums-1– Avīzes digitalizētas un pieejamas Internetā

• Periodika.lv– Atpazīts avīžu teksts (OCR) un padarīts meklējams

• Nākotnes saskarne– Lietotāju līdzdalība satura pilnveidošanā– Interaktivitāte

Page 40: Vēsturisko materiālu  digitalizācija LNB

Saskarne [4]

• Austrālijas pieredze– Austrālijas NB avīžu digitalizācijas projekts

http://newspapers.nla.gov.au/ndp/del/home

Page 41: Vēsturisko materiālu  digitalizācija LNB

Saskarne [5]

• Austrālijas pieredze– Lietotāju iesaiste satura pilnveidošanā

OCR kļūdu labošana Komentāri Birkas

Page 42: Vēsturisko materiālu  digitalizācija LNB

Saskarne [6]

• Austrālijas pieredze– Lietotāju iesaiste satura pilnveidošanā

Page 43: Vēsturisko materiālu  digitalizācija LNB

Saskarne [7]

• “Gudrā” personu identificēšana

Andris Bērziņšpolitiķis

Andris Bērziņšaktieris

Andris Bērziņšpolitiķis

Andris Bērziņš?

Page 44: Vēsturisko materiālu  digitalizācija LNB

Saskarne [8]

• “Gudrā” vietu identificēšana

“Mežciems”?

PamatnosaukumsObjekta

veids Administratīvā vai teritoriālā vienībaMežciems dzc. pietura Daugavpils, Latvija, Eiropas Savienība

Mežciems lielciemsJaunsvirlaukas pagasts, Jelgavas novads, agrāk Jelgavas rajons

Mežciems pilsētas daļa Vidzemes priekšpilsēta, LatvijaMežciems pilsētas daļa Daugavpils, Latvija, Eiropas Savienība

Mežciems skrajciemsGaujienas pagasts, Apes novads, agrāk Alūksnes rajons

Mežciemsvasarnīcu ciems

Carnikavas novads, agrāk Rīgas rajons

Mežciems viensētaGaiķu pagasts, Brocēnu novads, agrāk Saldus rajons

Latvijas Ģeotelpiskās informācijas aģentūras dati

Page 45: Vēsturisko materiālu  digitalizācija LNB

Saskarne [9]

• “Gudrā” vietu identificēšana

“Ogre”?

Ogre – pilsēta Ogre – upe “Ogre” – trikotāžas kombināts