ckan by friedrich lindenberg
DESCRIPTION
Presentation at the OGD2011 conference taking place in Vienna on the 16th of June 2011 as well as at the LOD2 CKAn workshop on 15th of June 2011: CKAN by Friedrich Lindenberg, Open Knowledge Foundation.(License: CC-BY 3.0)TRANSCRIPT
LOD2 CKAN Workshop Wien - 15.6.2011
Warum?
✓ Welche Lizenz?
✓ Welche Formate?
✓ Welche Inhalte?
✓ Dann:
✓ Aktualität
✓ Vollständigkeit
✓ Bezugsraum, ...
Kernfragen
Informationsarchitektur
Daten-Ökosystem
Beispiel: Ausgaben UK
November 2011:
Veröffentlichung Ausgaben der zentralen Regierung > £ 25.000, lokal: > £ 500
7 Monate später
• 557 Datenpakete
• 588 Behörden
• 3327 Tabellen (CSV, Excel, HTML)
Datenbereinigung
• Abruf per CKAN-API (data.gov.uk)
• Formatkonvertierung (SQLite)
• Vereinheitlichung von Ministerien und Behörden (Google Spreadsheet)
• Verbindung mit OpenCorporates (Unternehmens-Registernummern)
• Als neues CKAN-Paket bereit gestellt (ckan.net)
Weiternutzung
Was ist CKAN? (I)
• Open Source-Projekt, etwa 12 Kernentwickler
• Nutzer: data.gov.uk, data.norge.no, hri.fi, register.data.overheid.nl, iatiregistry.org
• ckan.net und ~ 24 Community-Instanzen
Was ist CKAN? (II)
• Datenkatalog, kein Repositorium
• (Archiv & Speicherung als Erweiterung)
• flexibles Metadatenschema
• Kernelemente ~ Dublin Core + Ressourcen
• Versionierung aller Metadaten
Was ist CKAN? (III)• Ein Wiki für Metadaten
• Vision: GitHub/SourceForge für Datenquellen
• Community von aktiven Datennutzern einbinden (auch für Regierungsseiten)
• Verschiedene Metaphern (CPAN = Perl Packet-Verzeichnis)
Beispiel: LOD Cloud
Metadaten
• Kernelemente und “Extras”
• anpassbare Formulare im Webfrontend
• durch data.gov.uk: Konventionen für Extra-Felder (auch in data.norge.no, hri.fi, overheid.nl)
Theming
Content Management
• “Wordpresser”-Erweiterung zur Anbindung an Wordpress
• Integration mit Drupal bei data.gov.uk (Open Source)
Geodaten (I)
Geodaten (II)• CSW-Harvester und Endpunkt
• GEMINI 2.1 (~> INSPIRE)
• sammelt Kataloge aus England und den anghängten Ländern
• Übergabe via Ordnance Survey an EC
• Experimentelle Geo-Suche, WMS-Preview
Publisher
• Institutionen-Modell
• Freischaltung von Behörden
• Nutzergruppen
Moderierte Eingaben
Schnittstelle
• REST-API mit JSON und RDF-Support
• Bibliotheken für Python, PHP, Ruby
• Nutzung:
• Paketimport (Excel-Sheets)
• Metadatenanreicherung
Metadatenbereinigung
publicdata.eu
• Portal als Forschungs-Prototyp für data.eu
• Föderierung von Datenkatalogen aus Europa
• Integration & Anreicherung der Metadaten
• Standardisierung von DCat
Scraping
DCat• Standardisierungsdiskussion läuft (Workshop
Anfang Mai)
• Partner: RPI, CTIC, LOD2, CSI Piemonte etc.
• RDF mit DC Terms und Ressourcen
• Gemeinsame Harvesting-API
• datacatalogs.org
• GLD WG im W3C neu gestartet
• SKOS?
• 430 Teilnehmer aus 23 EU-Staaten
• Preisvergabe bei der Digital Assembly
Apps-Katalog
Ressourcen
• CKAN Projektseite - http://ckan.org
• CKAN Wiki - http//wiki.ckan.net
• PublicData.eu-Portal - http://publicdata.eu
• Open Data Manual - http://www.opendatamanual.org
• Open Defintion - http://opendefintion.org
• Allg. Informationen - http://opengovernmentdata.org/
Folien: CC-BY, Friedrich Lindenberg, genutzte Bilder: London Traffic Lights (Wikimedia Commons); Francis Maude at data.gov.uk Event (Guardian), Screenshots
Teil II: Hands-on
Technik
• Python-Anwendung, Pylons MVC-Framework
• PostgreSQL-Datenbank
• Apache/mod_wsgi oder uwsgi
• Optionale Abh.: Apache Solr, RabbitMQ
Modularisierung
Installation
• Debian Packages für Ubuntu LTS
• Extensions werden als Packages verteilt
• Solr und RabbitMQ getrennt installieren
Anpassung
• ckanext-exampletheme ableiten
• Formulare als Python-Modul anpassen
• Themes sind Template-Overlays
• HTML-Struktur enspricht Wordpress
• Lokalisierung via transifex.net
Sicherheit
• Authentifizierung via Login, OpenID, API Key
• Authorisierung via Rollen und Aktionen
• ACL für jedes Packet, jede Gruppe
• globale Defaults sind konfigurierbar
• AuthzGroups für Nutzergruppen
API
• /api/X/rest - Versioniert
• /api/2/rest/package - REST Collection (GET, POST), auf Entities: GET, PUT.
• Beispiele in ckanext-pdeu/scripts
Revisionen
• Copy on Write in Spiegel-Tabelle
• Revisionen können gelöscht werden
• Quelle für RSS-Feeds
Queue
• Hintergrundverarbeitung durch Queue
• Solr Index Aktualisierung
• Triple Store sync
• Archivierung
• Webhooks
Speicherung
• Noch im Beta-Stadium
• Nutzt Dateisystemabstraktion (OFS)
• S3, Archive.org, Google Storage
• REST Forward, Pairtree Dateisystem