it-zertifikat der phil.fak kurs 4: daten- und metadatenstandards patrick sahle daten- und metadaten...
TRANSCRIPT
IT-Zertifikat der Phil.Fak
Kurs 4: Daten- und Metadatenstandards
Patrick Sahle Daten- und Metadaten SS 09
TEI (Text Encoding Initiative)
• Einstieg
• http://www.youtube.com/watch?v=4sHYDfITjHY
• http://www.bobdylan.com/#/songs/subterranean-homesick-blues
• http://etcl.uvic.ca/wp-content/uploads/tei/Encoded_Dylan_Lyrics.xml
TEI (Text Encoding Initiative)
• Basics: Wikipedia
• Grundansatz (Auszeichnung als Abstraktion)
• Schieflagen? Anwendungsbereich?
TEI (Text Encoding Initiative)
• Ein Beispiel: • site: http://graves.uvic.ca/
• file: http://graves.uvic.ca/get_markup.xq?id=entries1935-02
• TEI verstehen und benutzen• Einstieg: http://www.tei-c.org/index.xml
• Elemente: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/REF-ELEMENTS.html
TEI (Text Encoding Initiative)
• TEI Strukturen• P5: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html
• ongoing activities: http://www.tei-c.org/Activities/index.xml
TEI (Text Encoding Initiative)
• TEI anwenden• Das Roma-Tool: http://www.tei-c.org/Roma/
Dublin Core (DC)
• Einstieg:• http://de.wikipedia.org/wiki/Dublin_Core
• http://en.wikipedia.org/wiki/Dublin_Core (besser!)
• http://dublincore.org/
• Organisatorischer, historischer und konzeptioneller Hintergrund
Dublin Core
• einfacher Satz an Elementen/Begriffen zur Beschreibung von Objekten auf der Metadatenebene
• core elements, version 1.1, ISO 15836 (2003):• http://dublincore.org/documents/dces/
• identifier
• format, type, language
• title, subject, coverage, description
• creator, publisher, contributor, rights, provenance
• relation, source
• date
Dublin Core
• "Dublin Core Simple" (15 Elemente) vs.
• "Dublin Core Qualified" (element refinements)
• "Begriffe im Namensraum DCTerms" (55 Elemente):
http://dublincore.org/documents/dcmi-terms/
Dublin Core• … definiert Begriffe / Konzepte, keine Syntax
• … kann ausgedrückt werden z.B. mittels HTML oder XML
<head>
<meta name="DC.title" content="DC Einführung"/>
<meta name="DC.creator" content="Patrick Sahle"/>
<meta name="DCTERMS,created" content="2009-01-20" />
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" />
<dc:title>DC Einführung</dc:title>
<dc:creator>Patrick Sahle</dc:creator>
<dcterms:created>2009-01-20</dcterms:created>
Dublin Core• Anwendungsbeispiel: BSB-Digitalisate an der OAI-Schnittstelle
<metadata> <dc:title>Reichstagshandbuch. </dc:title> <dc:publisher>Reichsdr.</dc:publisher> <dc:date>1924</dc:date> <dc:format>text/xml</dc:format> <dc_identifier>http://nbn-resolving.de/urn:nbn:de:bvb:12-bsb00000002-6</dc_identifier></metadata>
<metadata> <dc:title>Reichstagshandbuch. </dc:title> <dc:publisher>Reichsdr.</dc:publisher> <dc:date>1924</dc:date> <dc:format>text/xml</dc:format> <dc_identifier>http://nbn-resolving.de/urn:nbn:de:bvb:12-bsb00000003-1</dc_identifier></metadata>
DC revisited
• Vor und Nachteile?
• Lob der Einfachheit!
• Informationsreduktion? (Strategien)
• Gebunden an Perspektiven und Wissensbereiche
• Was ist das Objekt?• Granularität, Seitenbezug
• Typ, Ontologischer Status
Rekapitulation: Dublin Core (DC)
• "Scope"
• Ansatz
• Datenstandard, kein Datenformat
• Syntax? HTML und XML.
• Dublin Core Simple / Dublin Core Qualified
• Vor- und Nachteile? Problematisierung?
Dublin Core• Anwendungsbeispiel: OPAL
• http://www.opal-niedersachsen.de/
Dublin Core• Anwendungsbeispiel: OPAL
• myOpal xmlDownload ein Beispiel aussuchen
• Was ist hier los? Ist das noch Dublin Core?
• Lokale Anwendung! Dokumentation: "Application Profile"
• Leicht übersetzbar auf Standard-"Dublin Core"
DC revisited
• Vor und Nachteile?
• Lob der Einfachheit!
• Informationsreduktion? (Strategien)
• Gebunden an Perspektiven und Wissensbereiche
• Was ist das Objekt?• Granularität, Seitenbezug
• Typ, Ontologischer Status
OAI = Open Archives Initiative(eigentlich: OAI-PMH = Protocol for Metadata Harvesting)
OAI
• Einstieg: • http://de.wikipedia.org/wiki/Open_Archives_Initiative
• http://en.wikipedia.org/wiki/Open_Archives_Initiative
• http://www.openarchives.org/
• http://www.openarchives.org/OAI/openarchivesprotocol.html
• Beispiel für eine Schnittstelle zur Kommunikation von (Meta-)Daten über das Internet
• Wichtige Begriffe: Data-Provider, Service-Provider
OAI
• Datenkommunikation über http-Request• Basisadresse + Script (+ Verb (+ Argument)?)*
• Sechs "Verben" zur Kommunikation• Identify [wer bist du?]
• ListMetadataFormats [was sprichst du?]
• ListSets [was hast du für Sammlungen?]
• ListIdentifiers [gib mir deine Identifier]
• ListRecords [gib mir Datensätze]
• GetRecords [gib mir Datensätze]
• Sechs "Argumente": metadataPrefix, identifier, from, until, set, resumptionToken
OAI
• Beispielanwendungen• OAISTER (Service Provider): http://www.oaister.org/
• ZVDD (Data Provider): http://www.digitalisiertedrucke.de/• http://www.digitalisiertedrucke.de/oai2d.py?verb=ListSets
• BSB (Data Provider): http://www.bsb-muenchen.de/• http://mdz1.bib-bvb.de/~db/OAI/oai2.php?verb=Identify
• CEEC (Data Provider): http://www.ceec.uni-koeln.de/• http://www.ceec.uni-koeln.de/ceec-oai/kleioc?verb=Identify
OAI
• Beispielanwendung CEEC• Handschrift Dom 213
• Bild: http://www.ceec.uni-koeln.de/ceec-cgi/kleioc/0010/exec/pagesma/%22kn28-0213_001.jpg%22/segment/%22body%22
• Beschreibung: http://www.ceec.uni-koeln.de/ceec-cgi/kleioc/0010/exec/katl/%22kn28-0213%22
• XML (TEI-like): http://www.ceec.uni-koeln.de/projekte/CEEC/database/descriptions/kn28-0213.xml
• OAI (oai_dc): http://www.ceec.uni-koeln.de/ceec-oai/kleioc?verb=GetRecord&metadataPrefix=oai_dc&identifier=kn28-0213
Rekapitulation: OAI (PMH)
• "Scope"
• http-Requests
• "Schnittstelle"; Data-Provider, Service-Provider
• Sechs "Verben" (Identify, ListMetadataFormats, ListSets,
ListIdentifiers, ListRecords, GetRecords), mehrere "Argumente"
• oai_dc plus weitere Metadatenformate
Metadaten im BAM-Sektor(Bibliotheken / Archive / Museen – a.k.a Cultural Heritage)
• Bibliotheken: METS
• Archive: EAD
• Museen: museumdat
Metadaten in Bibliotheken
• Bibliographische Daten
• MAB2
• MARC ( RDA)
• MODS
• DC
• Komplexe digitale Objekte
• METS / MODS
METS / MODS (Zusammenfassung)
• "Scope"
• Problemlage
• verschiedene Sichten auf ein Objekt
• Grundprinzip
• Verbindung verschiedener Arten von Metadaten (METS-header, descriptive metadata, administrative metadata, files, structural map, links)
• Nochmals ein Beispiel? (Ponickau)
7 Abschnitte eines METS-Dokuments
• <mets>
• <metsHdr/> - Der Kopfteil - METS Header
• <dmdSec/> - Erschließungsangaben - Descriptive Metadata• <amdSec/> -Verwaltungsangaben - Administrative Metadata
• <fileSec/> - Dateiabschnitt - File Section
• <structMap/> - Strukturbeschreibung – Structural Map
• <structLink/> - Strukturverknüpfungen – Structural Links
• <behaviorSec/> - Verhalten – Behavior
• </mets>
• <mets>• …• <dmdSec>• <mdWrap>• <xmlData>• <!– Metadaten aus anderem namespace-->• </xmlData>• </mdWrap>• </dmdSec>• …• </mets>
METS als Containerformat
Konkurrierende Hierarchien?
Rekapitulation: Metadaten in Bibliotheken
• Traditionell: Bibliographische Daten
• Ausweitung: Komplexe digitale Objekte
• Standard: METS / MODS
• "Scope"
• Problemlage
• verschiedene Sichten auf ein Objekt
• Grundprinzipien
• Verbindung unterschiedlicher Metadaten (METS-header, descriptive metadata, administrative metadata, files, structural map, links)
• "Containerformat"
Metadaten im Archiv: EAD
• Die Heimat von EAD: http://www.loc.gov/ead/• wikipedia: http://de.wikipedia.org/wiki/Encoded_Archival_Description , http://en.wikipedia.org/wiki/Encoded_Archival_Description
• Scope• Bestandteile:
• 146 Elemente zur Beschreibung von Findmitteln und Archivalien• eadHeader (über die EAD-Datei)• archDesc
• did (Zum Gesamtbestand)• dsc / c… (Beschreibung über geschachtelte Container)
• Beispiel: http://www.bundesarchiv.de/, http://www.bundesarchiv.de/findbuecher/sapmo/Zdaofindxml/EAD-Dateien/Lehmann
Rekapitulation: Metadaten in Archiven; EAD
• Scope• Findmittel, nicht Archivalien
• Bestandteile: • eadHeader (über die EAD-Datei)
• archDesc
• did (Zum Gesamtbestand)
• dsc / c… (Beschreibung über geschachtelte Container)
• Übung: Vergleichen Sie EAD mit TEI und METS …
Metadaten in Museen
• HIDA-MIDAS (Marburger Informations-, Dokumentations- und Administrations-System)
• VRA Core 4.0 (http://www.vraweb.org/projects/vracore4/index.html)
• CDWA (http://www.getty.edu/research/conducting_research/standards/cdwa/)
• museumdat (http://museum.zib.de/museumdat/ , http://www.museumdat.org/ , http://de.wikipedia.org/wiki/Museumdat )
Rekapitulation: Metadaten im Museum; Beispiel: Museumdat
• Scope
• Zielstellung• Harvesting, Datenaustausch
• Bezug zu anderen Standards• CDWA Lite, CIDOC CRM
• Beschreibungsbereiche: Objektklassifikation, Identi- fikation, Beschreibung, Ereignisse, Beziehungen, Administration
Semantic Web – Zusammenfassung
• Problem: Wie kann die "Bedeutung" von Daten für den Computer verwertbar gemacht werden?
• Lösung: Explikation, Annotation, Metadaten, Taxonomien, Authority Files (Normdaten), eindeutige Identifikatoren (z.B. auch URIs), Ontologien, standardisierte Ausdrucksformen
RDF – Zusammenfassung
(Fallback: http://de.wikipedia.org/wiki/Resource_Description_Framework)
• RDF – Resource Description Framework
• Formale Beschreibung von Informationen ("Resourcen")
• Aussagen werden als Tripel modelliert
• Subjekt – Prädikat – Objekt • … sind selbst wieder als URI identifiziert (oder auch nur Strings)
• RDF als Datenmodell und als Syntax (XML, N3)
• Frage: Verhältnis von RDF und DC?
• RDFS als Schema für die formale Beschreibung ein- facher Ontologien (Konstrukte: Klassen und Eigenschaften)
OWL – Zusammenfassung
(Fallback: http://de.wikipedia.org/wiki/Web_Ontology_Language)
• Web Ontology Language
• Sprache zur formalen Beschreibung von Ontologien
• Baut auf RDF auf und geht über RDFS hinaus
• Konstrukte: Klassen, Eigenschaften, Instanzen
Noch Zeit?
Übung:
Wir semantisieren Regest 9(nur konzeptionell natürlich)
CDWA / CDWA Lite
• Die Heimat von CDWA: http://www.getty.edu/research/conducting_research/standards/cdwa/, http://www.getty.edu/research/conducting_research/standards/cdwa/cdwalite.html
• wikipedia: http://en.wikipedia.org/wiki/CDWA
• Scope• CDWA vs. CDWA Lite
• Charakteristika
CDWA-Lite
Beispiel: http://www.getty.edu/research/conducting_research/standards/cdwa/cdwalite/oai1_painting_gm_816.cdwalite
Museumdat• Die Heimat von Museumdat: http://www.museumdat.org/
• Scope
• Zielstellung
• Harvesting, Datenaustausch
• Bezug zu anderen Standards
• CDWA Lite, CIDOC CRM
• Beschreibungsbereiche: Objektklassifikation, Identi- fikation, Beschreibung, Ereignisse, Beziehungen, Administration
CIDOC-CRM• Ausgangspunkte
• http://de.wikipedia.org/wiki/CIDOC_Conceptual_Reference_Model
• http://en.wikipedia.org/wiki/CIDOC_Conceptual_Reference_Model
• Die Heimat von CIDOC-CRM: http://cidoc.ics.forth.gr/
Semantic Web – Zusammenfassung
• Problem: Wie kann die "Bedeutung" von Daten für den Computer verwertbar gemacht werden?
• Lösung: Explikation, Annotation, Metadaten, Taxonomien, Authority Files (Normdaten), eindeutige Identifikatoren (z.B. auch URIs), Ontologien, standardisierte Ausdrucksformen
RDF – Zusammenfassung
(Fallback: http://de.wikipedia.org/wiki/Resource_Description_Framework)
• RDF – Resource Description Framework
• Formale Beschreibung von Informationen ("Resourcen")
• Aussagen werden als Tripel modelliert
• Subjekt – Prädikat – Objekt • … sind selbst wieder als URI identifiziert (oder auch nur Strings)
• RDF als Datenmodell und als Syntax (XML, N3)
• Frage: Verhältnis von RDF und DC?
• RDFS als Schema für die formale Beschreibung ein- facher Ontologien (Konstrukte: Klassen und Eigenschaften)
RDF – Beispiel
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/">
<rdf:Description rdf:about="http://en.wikipedia.org/wiki/Tony_Benn">
<dc:title>Tony Benn</dc:title>
<dc:publisher>Wikipedia</dc:publisher>
</rdf:Description>
</rdf:RDF>
OWL – Zusammenfassung
(Fallback: http://de.wikipedia.org/wiki/Web_Ontology_Language)
• Web Ontology Language
• Sprache zur formalen Beschreibung von Ontologien
• Baut auf RDF auf und geht über RDFS hinaus
• Konstrukte: Klassen, Eigenschaften, Instanzen