ckan by friedrich lindenberg

47
LOD2 CKAN Workshop Wien - 15.6.2011

Upload: semantic-web-company

Post on 29-Jun-2015

822 views

Category:

Technology


0 download

DESCRIPTION

Presentation at the OGD2011 conference taking place in Vienna on the 16th of June 2011 as well as at the LOD2 CKAn workshop on 15th of June 2011: CKAN by Friedrich Lindenberg, Open Knowledge Foundation.(License: CC-BY 3.0)

TRANSCRIPT

Page 1: CKAN by Friedrich Lindenberg

LOD2 CKAN Workshop Wien - 15.6.2011

Page 2: CKAN by Friedrich Lindenberg
Page 3: CKAN by Friedrich Lindenberg
Page 4: CKAN by Friedrich Lindenberg

Warum?

Page 5: CKAN by Friedrich Lindenberg

✓ Welche Lizenz?

✓ Welche Formate?

✓ Welche Inhalte?

✓ Dann:

✓ Aktualität

✓ Vollständigkeit

✓ Bezugsraum, ...

Kernfragen

Page 6: CKAN by Friedrich Lindenberg

Informationsarchitektur

Page 7: CKAN by Friedrich Lindenberg

Daten-Ökosystem

Page 8: CKAN by Friedrich Lindenberg

Beispiel: Ausgaben UK

Page 9: CKAN by Friedrich Lindenberg

November 2011:

Veröffentlichung Ausgaben der zentralen Regierung > £ 25.000, lokal: > £ 500

Page 10: CKAN by Friedrich Lindenberg
Page 11: CKAN by Friedrich Lindenberg

7 Monate später

• 557 Datenpakete

• 588 Behörden

• 3327 Tabellen (CSV, Excel, HTML)

Page 12: CKAN by Friedrich Lindenberg

Datenbereinigung

• Abruf per CKAN-API (data.gov.uk)

• Formatkonvertierung (SQLite)

• Vereinheitlichung von Ministerien und Behörden (Google Spreadsheet)

• Verbindung mit OpenCorporates (Unternehmens-Registernummern)

• Als neues CKAN-Paket bereit gestellt (ckan.net)

Page 13: CKAN by Friedrich Lindenberg
Page 14: CKAN by Friedrich Lindenberg

Weiternutzung

Page 15: CKAN by Friedrich Lindenberg
Page 16: CKAN by Friedrich Lindenberg

Was ist CKAN? (I)

• Open Source-Projekt, etwa 12 Kernentwickler

• Nutzer: data.gov.uk, data.norge.no, hri.fi, register.data.overheid.nl, iatiregistry.org

• ckan.net und ~ 24 Community-Instanzen

Page 17: CKAN by Friedrich Lindenberg

Was ist CKAN? (II)

• Datenkatalog, kein Repositorium

• (Archiv & Speicherung als Erweiterung)

• flexibles Metadatenschema

• Kernelemente ~ Dublin Core + Ressourcen

• Versionierung aller Metadaten

Page 18: CKAN by Friedrich Lindenberg

Was ist CKAN? (III)• Ein Wiki für Metadaten

• Vision: GitHub/SourceForge für Datenquellen

• Community von aktiven Datennutzern einbinden (auch für Regierungsseiten)

• Verschiedene Metaphern (CPAN = Perl Packet-Verzeichnis)

Page 19: CKAN by Friedrich Lindenberg

Beispiel: LOD Cloud

Page 20: CKAN by Friedrich Lindenberg

Metadaten

• Kernelemente und “Extras”

• anpassbare Formulare im Webfrontend

• durch data.gov.uk: Konventionen für Extra-Felder (auch in data.norge.no, hri.fi, overheid.nl)

Page 21: CKAN by Friedrich Lindenberg

Theming

Page 22: CKAN by Friedrich Lindenberg

Content Management

• “Wordpresser”-Erweiterung zur Anbindung an Wordpress

• Integration mit Drupal bei data.gov.uk (Open Source)

Page 23: CKAN by Friedrich Lindenberg

Geodaten (I)

Page 24: CKAN by Friedrich Lindenberg

Geodaten (II)• CSW-Harvester und Endpunkt

• GEMINI 2.1 (~> INSPIRE)

• sammelt Kataloge aus England und den anghängten Ländern

• Übergabe via Ordnance Survey an EC

• Experimentelle Geo-Suche, WMS-Preview

Page 25: CKAN by Friedrich Lindenberg

Publisher

• Institutionen-Modell

• Freischaltung von Behörden

• Nutzergruppen

Page 26: CKAN by Friedrich Lindenberg

Moderierte Eingaben

Page 27: CKAN by Friedrich Lindenberg

Schnittstelle

• REST-API mit JSON und RDF-Support

• Bibliotheken für Python, PHP, Ruby

• Nutzung:

• Paketimport (Excel-Sheets)

• Metadatenanreicherung

Page 28: CKAN by Friedrich Lindenberg

Metadatenbereinigung

Page 29: CKAN by Friedrich Lindenberg

publicdata.eu

• Portal als Forschungs-Prototyp für data.eu

• Föderierung von Datenkatalogen aus Europa

• Integration & Anreicherung der Metadaten

• Standardisierung von DCat

Page 30: CKAN by Friedrich Lindenberg

Scraping

Page 31: CKAN by Friedrich Lindenberg
Page 32: CKAN by Friedrich Lindenberg
Page 33: CKAN by Friedrich Lindenberg

DCat• Standardisierungsdiskussion läuft (Workshop

Anfang Mai)

• Partner: RPI, CTIC, LOD2, CSI Piemonte etc.

• RDF mit DC Terms und Ressourcen

• Gemeinsame Harvesting-API

• datacatalogs.org

• GLD WG im W3C neu gestartet

• SKOS?

Page 34: CKAN by Friedrich Lindenberg

• 430 Teilnehmer aus 23 EU-Staaten

• Preisvergabe bei der Digital Assembly

Page 35: CKAN by Friedrich Lindenberg

Apps-Katalog

Page 36: CKAN by Friedrich Lindenberg

Ressourcen

• CKAN Projektseite - http://ckan.org

• CKAN Wiki - http//wiki.ckan.net

• PublicData.eu-Portal - http://publicdata.eu

• Open Data Manual - http://www.opendatamanual.org

• Open Defintion - http://opendefintion.org

• Allg. Informationen - http://opengovernmentdata.org/

Folien: CC-BY, Friedrich Lindenberg, genutzte Bilder: London Traffic Lights (Wikimedia Commons); Francis Maude at data.gov.uk Event (Guardian), Screenshots

Page 37: CKAN by Friedrich Lindenberg

Teil II: Hands-on

Page 38: CKAN by Friedrich Lindenberg

Technik

• Python-Anwendung, Pylons MVC-Framework

• PostgreSQL-Datenbank

• Apache/mod_wsgi oder uwsgi

• Optionale Abh.: Apache Solr, RabbitMQ

Page 39: CKAN by Friedrich Lindenberg

Modularisierung

Page 40: CKAN by Friedrich Lindenberg

Installation

• Debian Packages für Ubuntu LTS

• Extensions werden als Packages verteilt

• Solr und RabbitMQ getrennt installieren

Page 41: CKAN by Friedrich Lindenberg

Anpassung

• ckanext-exampletheme ableiten

• Formulare als Python-Modul anpassen

• Themes sind Template-Overlays

• HTML-Struktur enspricht Wordpress

• Lokalisierung via transifex.net

Page 42: CKAN by Friedrich Lindenberg
Page 43: CKAN by Friedrich Lindenberg

Sicherheit

• Authentifizierung via Login, OpenID, API Key

• Authorisierung via Rollen und Aktionen

• ACL für jedes Packet, jede Gruppe

• globale Defaults sind konfigurierbar

• AuthzGroups für Nutzergruppen

Page 44: CKAN by Friedrich Lindenberg

API

• /api/X/rest - Versioniert

• /api/2/rest/package - REST Collection (GET, POST), auf Entities: GET, PUT.

• Beispiele in ckanext-pdeu/scripts

Page 45: CKAN by Friedrich Lindenberg

Revisionen

• Copy on Write in Spiegel-Tabelle

• Revisionen können gelöscht werden

• Quelle für RSS-Feeds

Page 46: CKAN by Friedrich Lindenberg

Queue

• Hintergrundverarbeitung durch Queue

• Solr Index Aktualisierung

• Triple Store sync

• Archivierung

• Webhooks

Page 47: CKAN by Friedrich Lindenberg

Speicherung

• Noch im Beta-Stadium

• Nutzt Dateisystemabstraktion (OFS)

• S3, Archive.org, Google Storage

• REST Forward, Pairtree Dateisystem