![Page 1: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/1.jpg)
PDF und PDF/A
Universität zu KölnHistorisch Kulturwissenschaftliche Informationsverarbeitung
WS 2011/2012Digitale Langzeitarchivierung
Dozent: M.Thallerverfasst von: Jana Köllmann
![Page 2: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/2.jpg)
Inhalt
1.Das Adobe Grafikmodell
2. Das Dateiformat PDF
3. Wege zur PDF
4. Grenzen von PDF
5. Tagged PDF
6. Warum PDF/A?
7. Wege zur Archiv-PDF
8. Welche Datenformate sind archivtauglich?
9. Was tun mit „alten“ Archivformaten?
10. Quellen
![Page 3: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/3.jpg)
Das Adobe Grafikmodell
Bildet Grundlage der Kerntechnologie von PDF Zusätzlich Grundlage für Modelle anderer
Softwareentwickler Modell ist gerätunabhängig
→ ohne Bezug auf Eigenschaften des Geräts → Graphiken werden in abstrakter Beschreibung gespeichert und von Acrobat wieder hergestellt
Basiert auf Berechnung von Vektorgraphiken
![Page 4: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/4.jpg)
Eigenschaften der Basiselemente
Vektorgraphiken: alle Elemente, die aus Linien und Kurven gebildet werden können
Text: Untermenge der Vektorgraphik Rastergraphiken: Rechteckiges Fläche mit Pixeln
![Page 5: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/5.jpg)
Warum Text nicht als Vektorgraphik speichern?
Verarbeitungsgeschwindigkeit zu gering, da jeder Buchstabe immer wieder berechnet werden müsste
Hoher Anspruch an Ausgabegenauigkeit, da Menschliches Auge sehr sensibel
![Page 6: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/6.jpg)
Zusatzfunktionen
Farbseparation Farbverläufe Maskierung von Bildern Transparenz und Alphakanal
![Page 7: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/7.jpg)
Zusatzfunktionen
Farbverläufe
![Page 8: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/8.jpg)
Technische Eigenschaften
Kompression: Einzelne Objekte der Datei werden selektiv komprimiert, da nicht jede Kompression für jeden Datentyp sinnvoll
Wiederverwendbare Grafikmodelle:
Durch einmalige Speicherung und Wiederverwendung von Grafiken kann die Dateigröße optimiert werden
![Page 9: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/9.jpg)
Schriften in Acrobat
Schriften könnenin PDF eingebettet werden
→ stehen auch Benutzern zu Verfügung wenn sie nicht auf dem Rechner installiert sind
Fontdeskriptor: beschreibt die wichtigsten Strukturen einer Schrift (z.B. Serifen, Ober-/Unterlänge)
Mit diesen Angaben kann Acrobat eine Ersatzschrift generieren
![Page 10: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/10.jpg)
Das Dateiformat PDF
![Page 11: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/11.jpg)
Das Dateiformat PDF 2
![Page 12: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/12.jpg)
![Page 13: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/13.jpg)
Bedeutung der Pfade
![Page 14: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/14.jpg)
Wege zur PDF
Acrobat Distiller: Umwandlung von PostScript zu PDF
Acrobat PDFWriter:
- Druckertreiber für Windows und Mac
- Einschränkungen zu Distiller (kann z.B. kein PostScript verarbeiten)
- meist schlechte Qualität, da mit Bitmap-Fassung der Graphik gearbeitet wird
![Page 15: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/15.jpg)
Wege zur PDF
Acrobat Web Capture:
- Konvertierung von Webseiten zu PDF
- Wandelt HTML zu PDF um mit internen Mitteln der Software
Konvertieren von Bilddateien: in Acrobat über das „Datei“-Menü möglich, hat jedoch viele Nachteile
![Page 16: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/16.jpg)
Wege zur PDF
Konvertierung gescannter Seiten mit Acrobat Paper Capture:
- ist für Umwandlung gedruckter Dokumente zuständig
- Software versucht Gescanntes als Text zu erkennen und umzuwandeln
![Page 17: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/17.jpg)
Direkte Erzeugung mit Anwenderprogrammen
Immer mehr Software unterstützt die Exportmodeule für PDF
Oft ist nicht der komplette Funktionsumfang von PDF unterstützt
In vielen Programmen läuft die Konvertierung versteckt über Distiller
![Page 18: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/18.jpg)
Grenzen von PDF
Text aus PDF selten weiterverwendbar Weiterverwendung durch fehlende
Strukturinformationen zusätzlich erschwert Inhalt eines PDF-Dokuments schwer für
Sehbehinderte zugänglich, da Screenreader sie nicht verarbeiten können
![Page 19: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/19.jpg)
Unicode
Internationales Codesystem Langfristig wird für jedes bestehende
Schriftzeichen ein digitaler Code festgelegt Ziel ist die unterschiedliche und inkompatible
Kodierungen aus verschiedenen Ländern zu beseitigen
Mittlerweile sind 109.242 Zeichen aus 93 Schriftsystemen genormt
![Page 20: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/20.jpg)
Tagged PDF
Kündigt an Probleme der PDF zu lösen Screenraeder sollen Text Problemlos auslesen
können zuverlässige Konvertierung von PDF in andere
Dateiformate Dynamische Umformatierung am Bildschirm
![Page 21: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/21.jpg)
Tagged PDF liegt vor, wenn:...
Dokument enthält PDF-Strukturbaum Bedeutungen aller Zeichen sind bekannt und
Unicode-Zuordnung Dokumentinhalte sind nach Wichtigkeit
geordnet Lesereihenfolge ist dokumentiert
![Page 22: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/22.jpg)
Warum PDF/A?
Erforderliche Schriften MÜSSEN eingebettet werden
Einige PDF Elemente beeinträchtigen die Beständigkeit (z.B. Ebenen, interaktive Elemente)
PDF-Dokument das bestimmte Anforderungen der DLZA erfüllt
![Page 23: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/23.jpg)
Informationen zu PDF/A
Erster Standard besteht seit 2005, zugrunde liegt PFD-Version 1.4
Zweiter Standard aufgrund von Version 1.7 besteht seit Frühjahr 2011
Spezifiziert zwei Übereinstimmungsgrade für Version 1: PDF/A_1a, PDF/A_1b
Spezifiziert drei Übereinstimmungsgrade für Version 2: PDF/A_2a, PDF/A_2b,
PDF/A_2u
![Page 24: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/24.jpg)
PDF/A_1b
Betrifft die visuelle Integrität Jede PDF/A_1a-Datei entspricht auch dem
nicht so strengen Standard der PDF/A_1b-Datei Referenzen auf Resorsen ausserhalb des
Dokuments sind nicht erlaubt Transparenz darf nicht verwendet werden Eindeutige Farbdarstellung Verschlüsselung ist untersagt
![Page 25: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/25.jpg)
PDF/A_1a
Bezieht sich auf semantische Korrektheit und Struktur
Struktur basiert auf Tagged PDF Schriftzeichen müssen Unicode-Entsprecchung
haben Lesbar durch den Screenreader
![Page 26: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/26.jpg)
Wege zur Archiv-PDF
PDF/A aus Dateien oder Daten:
- Über Export durch Ursprungsprogramme, Distiller oder PDF Konverter
- auch Programme zur „Massenabvertigung“ erhältlich
Gescannte Papiervorlage zu PDF/A
- Text wird durch OCR durchsuchbar gemacht
- Durch das Scannen mit Acrobat Professional umwandelbar (ab Version 8)
![Page 27: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/27.jpg)
Wege zur PDF/A
PDF/A aus PDF:
- Acrobat 8 Professional erledigt dies
- kann ausserdem prüfen ob zugesannte Datei wirklich PDF/A und nicht PDF ist
- weitere zahlreiche andere Software ist in der Lage zu konvertieren
![Page 28: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/28.jpg)
Wer kann von PDF/A profitieren?
Emails als PDF/A um den Umstieg zwischen Mailkonten zu erleichtern
Online PDFs alternativ als PDF/A speichern Pläne, kartographische Werke,
Konstruktionszeichnungen, da sie oft über Jahrzehnte aufbewahrt werden müssen
Signierte digitale Verträge Sichere Farbe in Bilddokumenten Druckvorlagen Barrierefreie PDF-Dateien
![Page 29: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/29.jpg)
Welche Dateiformate sind archivtauglich?
![Page 30: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/30.jpg)
![Page 31: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/31.jpg)
![Page 32: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/32.jpg)
Was tun mit „alten“ Archivformaten?
Beliebt zur Archivierung waren bei Bildern bisher vor allem JPEG oder TIFF-G4
Man kann permanent oder temporär umwandeln:
permanent: besonders bei überschaubaren Datenmengen von Vorteil
temporär: bei vielen Daten sinnvoll, Daten können bei Aufruf „on the fly“ umgewandelt werden
![Page 33: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller](https://reader036.vdocuments.mx/reader036/viewer/2022062622/55204d6349795902118b9326/html5/thumbnails/33.jpg)
Quellen
Merz, Thomas; Drümmer, Olaf: Die PostScript- & PDF-Bibel, dpunkt Verlag, 2. Auflage, 2002.
http://de.wikipedia.org/wiki/Unicode http://www.callassoftware.com/callas/doku.php/
de:pdfakompakt:start http://unicode.org/ http://de.wikipedia.org/wiki/PDF/A http://www.einfach-fuer-alle.de/artikel/pdf-barrie
refrei-umsetzen/