digitaalisten aineistojen pitkäaikaissäilytys kdk-hankkeessa

32
Digitaalisten aineistojen pitkäaikaissäilytys KDK-hankkeessa Luonnontieteiden digitointiseminaari 17.11.2011 Kuisma Lehtonen www.kdk2011.fi

Upload: guido

Post on 07-Feb-2016

46 views

Category:

Documents


0 download

DESCRIPTION

Digitaalisten aineistojen pitkäaikaissäilytys KDK-hankkeessa. Luonnontieteiden digitointiseminaari 17.11.2011 Kuisma Lehtonen. Tieteen tietotekniikan keskus CSC. Valtion omistama ja opetus- ja kulttuuriministeriön hallinnoima , voittoa tavoittelematon osakeyhtiö - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

Digitaalisten aineistojen pitkäaikaissäilytys KDK-hankkeessa

Luonnontieteiden digitointiseminaari

17.11.2011

Kuisma Lehtonenwww.kdk2011.fi

Page 2: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 2

Tieteen tietotekniikan keskus CSC

• Valtion omistama ja opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö

• Liitti Suomen internetiin 1988

• Työntekijöitä noin 220 (henkilöstömäärä tasaisessa kasvussa)

• Toimitilat Espoon Keilaniemessä, lähellä Otaniemen kampusta

• Toiminnan päämääriä:› Tutkimuksen ja tuotekehityksen toimintaedellytysten parantaminen

› Kansallisten keskitettyjen palvelujen tarjoaminen, joita ei ole tarkoituksenmukaista toteuttaa hajautetusti

› Kansainvälisesti kilpailukykyisten tieteen tietotekniikan palvelujen tuottaminen

www.kdk.fi

Page 3: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 3

Tieteen tietotekniikan keskus CSC

www.kdk.fi

http://www.ode-project.eu

http://www.aparsen.eu

http://www.eudat.eu

Page 4: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 4

Pitkäaikaissäilytys (PAS)

Mikä?

Miksi?

Miten?

www.kdk.fi

Page 5: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 5

Mikä PAS?

www.kdk.fi

Page 6: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 6

KDK-organisaatio

www.kdk.fi

Opetus- ja kulttuuriministeriö

Johtoryhmä

Ohjausryhmä

Asiakasliittymän ylläpitäjä/Kansalliskirjasto

Asiakasliittymän palvelimen ja sen käyttöympäristön ylläpito (CSC)

Pitkäaikaissäilytyksen infrastruktuuri- ja palveluorganisaatio (CSC)

PAS- tukiryhmä ja tekninen jaosAsiakasliittymä-

konsortio

KonsortioryhmäPitkäaikaissäilytysjärjestelmän

toteuttamishanke / CSC

Page 7: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 7

KDK PAS suunnittelu- ja toteuttamishanke • Tilaaja: opetus- ja kulttuuriministeriö• Toteuttaja: CSC – Tieteen tietotekniikan keskus Oy• Kesto: 1.6.2010 – 31.12.2013

• Tavoite:Edistää KDK:n pitkäaikaissäilytyksen suunnittelua ja tuottaa pitkäaikaissäilytyksen yksityiskohtainen toteuttamissuunnitelma marraskuuhun 2011 mennessä sekä edistää yhteistoimintaa KDK:n pitkäaikaissäilytyksen tavoitteiden ja painopisteiden toteutumiseksi

www.kdk.fi

Page 8: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 8

KDK PAS Tukiryhmä

Jäsenet:• Tuomas Alaterä, Yhteiskuntatieteellinen tietoarkisto• Juha Hakala, Kansalliskirjasto• Vesa Hongisto, Museovirasto • Minna Karvonen, opetus- ja kulttuuriministeriö• Istvan Kecskeméti, Kansallisarkisto • Esa-Pekka Keskitalo, Kansalliskirjasto • Johan Kylander, Svenska Litteratursällskapet I Finland SLS• Markus Merenmies, Kansallisarkisto • Kari Peiponen, Valtion taidemuseo • Pekka Tähtinen, Kansallinen audiovisuaalinen arkisto

CSC toimii tukiryhmän puheenjohtajana (Kimmo Koivunen) ja sihteerinä (Kuisma Lehtonen)

www.kdk2011.fi

Page 9: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 9

KDK PAS suunnittelu- ja toteuttamishanke

Pitkäaikaissäilytysjärjestelmä on palvelujärjestelmä, johon opetus- ja kulttuuriministeriön hallinnonalalla toimivat, kulttuuriperintöä säilyttävät organisaatiot siirtävät pitkäaikaisesti tai pysyvästi säilytettäviä aineistoja. Aineistot säilyvät myös pitkäaikaissäilytysjärjestelmässä tallentavien organisaatioiden aineistoina. Tavoitteena on, että pitkäaikaissäilytysratkaisu otettaisiin käyttöön vuonna 2016.

www.kdk.fi

Page 10: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 10

KDK PAS suunnittelu- ja toteuttamishanke

PAS-järjestelmä rakennetaan skaalautumaan aineisto- ja organisaatiomäärien kasvuun ja monimuotoistumiseen sekä mahdolliseen kehittymiseen tutkimuksen tietoaineistojen säilytysjärjestelmäksi.

Tutkimuksen tietoinfrastruktuurin kehitystyötä edistetään keskitetyllä tallennuspalveluratkaisulla ja tukemalla metatiedon tuottamista sekä yhdenmukaistamalla tietoaineistojen tuottamiseen ja ylläpitämiseen liittyviä prosesseja.

www.kdk.fi

Page 11: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 11

Miksi PAS?

www.kdk.fi

Page 12: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 12

Lainsäädännön eri sektoreilla on määritelty

kulttuuriaineistoja ja asiakirjallisia aineistoja sekä

museokokoelmien muodostamista, hallintaa,

saatavilla pitoa ja säilyttämistä koskevat velvoitteet.

Velvoitteet koskevat myös alkujaan digitaalista sekä

digitoitua aineistoa.

www.kdk.fi

Miksi PAS?

Page 13: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 13

Pitkäaikaissäilytys tarkoittaa digitaalisen informaation

luotettavaa säilyttämistä useiden kymmenien tai jopa

satojen vuosien ajan.

Laitteet, ohjelmistot ja tiedostomuodot vanhenevat,

mutta informaation täytyy säilyä esityskelpoisena ja

ymmärrettävänä.

www.kdk.fi

Miksi PAS?

Page 14: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 14

Tarvitaan teknisiä, toiminnallisia, tiedollisia, taidollisia,

taloudellisia ja juridisia valmiuksia.

Näiden valmiuksien hankkimiseen, ylläpitämiseen ja

kehittämiseen ei suurimmalla osalla arkistoista,

kirjastoista ja museoista ole itsenäisesti

mahdollisuutta.

Tarvitaan suunnitelmia siitä, mitä ylläpitotoimia

aineistolle on tehtävä, jotta aineisto säilyy ehyenä ja

alkuperäisenä ja jotta tietojen käytettävyys sekä

luotettavuus voidaan varmistaa myös tuleville

sukupolville.www.kdk.fi

Miksi PAS?

Page 15: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 15

KDK:n digitaaliset aineistotDigitaalisten aineistojen laajuus ja säilytysmenetelmät

www.kdk.fi

Arviot aineistojen laajuudesta vuoden 2011 kartoituksessa2010 2011 2015 2020

Objektien määrä (milj.

kpl)Koko (Tt)

Objektien määrä

(milj.kpl)Koko (Tt)

Objektien määrä (milj.kpl)

Koko (Tt)

Objektien määrä (milj.kpl)

Koko (Tt)

Asiakirjat ja dokumentit 11,6 328 15,4 394 25,6 646 48,7 1301

Valokuvat 1,7 18 2,1 30 3,9 68 6,1 120

Elokuvat 0,1 495 0,2 1143 0,8 3055 1,2 8020

Äänitallenteet 1,2 606 1,5 771 2,4 1418 3,7 2176

Viitetiedot 19,5 1,2 21 1,5 27 2,4 34 3,4

Verkkoarkisto 496 20 646 27 1396 59 2300 97

Radio- ja TV-arkisto 0,8 95 1,2 142 2,9 327 5,0 558

YHTEENSÄ 530 1 563 687 2 509 1458 5 575 2400 12 275

Page 16: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 16

Miten PAS?

www.kdk.fi

Page 17: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 17

Uhat ja niihin varautuminen

www.kdk.fi

• Säilytysmedian viat Datasta useampi kopio erilaisilla medioilla

• Toimittajakohtaiset systemaattiset viat Datasta kopiot eri toimittajien ratkaisussa

• Toiminnallinen tai hallinnollinen virhe Data hallinnoidaan vähintään kahdessa järjestelmässä

• Luonnonkatastrofit Säilytys toteutetaan maantieteellisesti hajautettuna

• Pahantahtoinen käyttäjä Säilytystä varmennetaan ns. pimeällä arkistolla

• Osaamisen ja henkilöstön riittämättömyys Toimintaa keskittämällä ja suunnitelmallisuudella varmistetaan osaamisen

kehittyminen ja riittävä henkilöstö

Page 18: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 18

Yleiset vaatimukset pitkäaikaissäilytyksen tekniikalle

www.kdk.fi

• Järjestelmässä ei saa olla yksittäistä kohtaa, jonka pettäessä koko järjestelmä pettää (single point of failure)

• Koskee erityisesti elintärkeitä osioita

• Järjestelmän täytyy toimia, vaikka mediat, ohjelmistot ja laitteistot vaihtuvat tasaisena virtana

• Järjestelmän täytyy tukea erilaisuutta ja välttää lukkiutumista tiettyjen laite- tai ohjelmistotoimittajien ratkaisuihin

• Järjestelmän täytyy jatkuvasti seurata tietopakettien eheyttä

• Järjestelmässä on aineistoa, jota käytetään harvoin, mikä aiheuttaa suuren riskin piilevien virheiden kerääntymiseen

• Järjestelmän ylläpitotoimet on oltava mahdollisia ilman käyttökatkoja

Page 19: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 19

Säilyttämisen vaatimuksia

Alkuperäisen käyttökokemuksen säilyttäminen

• Vaativin, mutta käyttäjän kannalta mielenkiintoisin• Esim. Tietokonepelin pelaaminen samoin kuin 30 vuotta sitten

Sisällön ymmärrettävyyden säilyttäminen

• Teksti, kuvat ja muu olennainen sisältö voidaan tulkita ja ymmärtää myös tulevaisuudessa• Käytön ja uuden tiedon tuottamisen kannalta yleensä tärkein vaatimus

Bittien säilyttäminen

• Varmistetaan alkuperäisten ykkösten ja nollien säilyminen ja luettavuus, sisällön tulkinnasta ei takeita• Pitkäaikaissäilyttämisen perusedellytys, joka ei vielä takaa aineistojen hyödynnettävyyttä pitkällä aikavälillä

www.kdk.fi

Page 20: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 20

Säilyttämisen menetelmiä

Alkuperäisen käyttökokemuksen säilyttäminen

• Emulaatio• Emulaattoreiden kehittäminen uusille alustoille, formaattien seuranta jne.• Aktiivinen testaaminen ja seuranta

Sisällön ymmärrettävyyden säilyttäminen

• Migraatio• Edellytyksenä aineistolle tarvittavat metatiedot ja säilytyssuunnitelma• Toimintaympäristön kehityksen seuraaminen• Muunnosten kehittäminen, testaaminen, toteuttaminen ja valvonta

Bittien säilyttäminen

• Eheyden varmistaminen• Tiedostojen validointi ja valvonta• Kopioiden hallinta• Koskee sekä objekteja että metatietoja

www.kdk.fi

Page 21: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 21

KDK:n PAS-tavoitteet

www.kdk.fi

• Varmistaa digitaalisten kulttuuriaineistojen säilyvyys• Hyödyntävät organisaatiot voivat suoriutua lain velvoitteista

• Varmistaa aineistojen hyödynnettävyys ja yhteiskäyttö• Aineistot varustetaan olennaisilla metatiedoilla • Aineistojen kuvailut yhtenäistetään

• Laatia kokonaisuus kustannustehokkaasti • Yhteisen ratkaisun tuomat kustannussäästöt • Aineistojen säilytyksen hallinnan kustannussäästöt • Digitoitujen aineistojen säilyvyyden tuomat kustannussäästöt

• Edistää organisaatioiden yhteistyötä• Kehitetään yhteisiä toimintatapoja ja parhaita käytäntöjä

• Rakentaa avoimella yhteistyöllä parempia palveluita • PAS-ratkaisua rakennetaan yhdessä mukana olevien organisaatioiden kanssa, josta

siirrytään vähitellen vakiintuneeseen ja avoimeen yhteistyöhön• Laajentua erilaisille aineistoille• Tutkimuksen tietoaineistot

Page 22: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 22

Open Archival Information System (OAIS) -viitemalli

www.kdk.fi

HY

ÖD

YN

O

RG

AN

ISA

AT

IO

JOHTO

SÄILYTYKSEN SUUNNITTELU

SÄILYTYS

VASTAAN- OTTO

TIEDONHALLINTA

HALLINNOINTI

KÄYTTÖ

Tilaukset

Kyselyt

Säilytyspaketti

Kuvailutiedot

AS

IAK

ASTulosjoukot

Jakelupaketti

Luovutuspaketti

Page 23: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 23

Säilytyksen suunnittelu

www.kdk.fi

• Menetelmä (tai prosessi) säilytyksen tavoitteiden ja reunaehtojen määrittelemiseksi ennen säilyttämisen aloittamista

• Tuottaa jokaiselle objektille säilytyssuunnitelman, joka mahdollistaa operatiivisen säilytystoiminnan pitkällä aikavälillä

• Toimintaympäristön muutoksien seurannan avulla havaitaan tarpeet, esim.: • Säilytystoimenpiteiden käynnistämiseen• Säilytyssuunnitelman uuteen arviointiin

Säilyttämisen vaatimusten määritteleminen

Vaihtoehtojen määritteleminen

Tulosten arvioiminen

Suoritettavan säilytyssuunnitelman

määritteleminen

Page 24: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 24

Aineiston valmistelu

www.kdk.fi

• KDK:ssa käytettävät standardit, tiedostomuodot sekä pakolliset ja suositeltavat metadatat määritellään standardisalkussa

• Standardisalkun mukaisesti aineisto siirretään taustajärjestelmästä PAS-järjestelmään käyttäen metatiedon koodaus- ja siirtostandardia (METS)

Page 25: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 25

KDK METS-profiili

www.kdk.fi

Aineistokohtaiset aliprofiilit

KDK METS-profiilivalokuville

KDK METS-profiilikirjoille

KDK METS-profiilivideomateriaalille

.

.

.

GeneerinenKDK METS-profiili

Page 26: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 26

METS-dokumentti

www.kdk.fi

Page 27: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 27

KDK:n säilytys- ja siirtokelpoiset tiedostomuodot

www.kdk.fi

Säilytyskelpoiset tiedostomuodot• Tietosisällön säilyminen ja ymmärrettävyys voidaan taata pidemmällä aikavälillä

Siirtokelpoiset tiedostomuodot• Käytetään useassa KDK:n PAS-järjestelmää hyödyntävässä organisaatiossa ja joissa

pitkäaikaissäilytettävää aineistoa on runsaasti tallennettu

• PAS-järjestelmä muuntaa säilytyskelpoiseen tiedostomuotoon

Esimerkki säilytyskelpoisesta tiedostomuodosta:

Extensible Markup Language (XML)XML on alustariippumaton SGML:stä johdettu merkintäkieli. W3C:n suosittelema XML kuvaa dokumentin loogisen rakenteen, mutta ei sen ulkoasua.

Hyväksyttävät versiot:XML versio 1.0; [XML_1.0]; PRONOM: fmt/101

(Lähdeluettelo)[XML_1.0] Extensible Markup Language (XML) 1.0 (Fifth Edition. W3C Recommendation 26 November 2008. http://www.w3.org/TR/xml/

Page 28: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 28

KDK:n säilytys- ja siirtokelpoiset tiedostomuodot

www.kdk.fi

Arviointikriteerit ja arviointiasteikkoAvoimuus Kuinka helppoa tiedostomuodosta on saada tietoja?Käyttö PAS-standardina Missä määrin tiedostomuoto on muodollisesti hyväksytty

pitkäaikaissäilytyksen välineeksi kansalliskirjastoissa, kansallisarkistoissa ja muissa alan laitoksissa?

Vakaus / yhteensopivuus (a) Missä määrin tiedostomuoto on eteen- ja taaksepäin yhteensopiva?(b) Missä määrin tiedostomuoto on suojattu tiedoston korruptoitumista vastaan?(c) Kuinka usein tiedostomuodosta julkaistaan korvaavia versioita?

Riippuvuudet / yhteentoimivuus

Missä määrin tiedostomuoto on sidottu esimerkiksi tiettyyn laitteistoon tai ohjelmistoon?

Standardisuus Missä määrin tiedostomuoto on käynyt läpi perusteellisen standardointiprosessin?

A Arviointikriteeri täyttyy hyvinA€ Arviointikriteeri täyttyy hyvin; siihen liittyy kuitenkin kuluja (esim. maksullinen

dokumentaatio)B Arviointikriteeri täyttyy kohtalaisestiC Arviointikriteeri ei täytyA/C Arviointikriteeri täyttyy hyvin yhdellä sektorilla (esim. elektroniset vapaakappaleet)

muttei toisella sektorilla (esim. asiakirja-aineisto)A/B Arviointikriteeri täyttyy hyvin yhdellä sektorilla (esim. elektroniset vapaakappaleet)

mutta vain kohtalaisesti toisella sektorilla (esim. asiakirja-aineisto)

Page 29: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 29

Sisältö Tiedostomuoto

Avoimuuss

Käyttö PAS-standardina

Vakaus / Yhteensopivuus

Riippumattomuus / yhteentoimivuus

StandardisuusAlas-/

ylöspäin yhteensopivuuden taso

Korruptoitumisen sieto

Versiopäivi tysten määrä

TEKSTI Electronic Publications (EPUB) A B B A A A

Extensible Hypertext Markup Language (XHTML) A B B A A A

Extensible Markup Language (XML) A A A A A A

Hypertext Markup Language (HTML) A A B A A A

Open Document Format (ODF) A A B B A A

PDF for long-term preservation (PDF/A) A€ A B A A A

Tekstitiedosto (plain text) A€ A B A A AÄÄNI Audio Interchange File Format (AIFF), PCM-koodattu A A A A A A

Broadcast Wave Format (BWF) A A A A A AFree Lossless Audio Codec (FLAC) A B A A A A AMPEG-4 AAC – Advanced Audio Coding (AAC) A B A A AWaveform Audio Format (WAV) A A A A A A

ELÄVÄ KUVA Motion JPEG 2000 A€ A A A A A AKUVA Joint photographic experts group (JPEG) A€ A A A A

Joint photographic experts group jpeg 2000 (JP2) A€ A A A A

Tagged image file format (TIFF) A A A A AVERKKOARKISTO Web Archive Format (WARC) A A B A A ATIETOKANNAT Määritellään myöhemmin

KDK:n säilytys- ja siirtokelpoiset tiedostomuodot

Page 30: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 30

KDK PAS Toteutuksen vaiheistaminen

www.kdk.fi

VAIHE 1:PAS-ratkaisun valmistelu2011-2013

VAIHE 2:PAS-ratkaisun toteuttaminen2014-2016

Page 31: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

17.11.2011 31

KDK PAS lisätietoa

www.kdk.fi

http://www.kdk.fi/fi/pitkaaikaissailytys

• KDK:n hallinnolliset ja rakenteelliset metatiedot ja aineistojen paketointi

• Säilytys- ja siirtokelpoiset tiedostomuodot • Digitaalisten aineistojen laajuus ja säilytysmenetelmät • Hyöty- ja kustannusanalyysi• Toteuttamissuunnitelma (tulossa 2011)

Page 32: Digitaalisten aineistojen pitkäaikaissäilytys  KDK-hankkeessa

Kiitos!

www.kdk.fi