analysis and integration of web 2.0 data sources into a...
TRANSCRIPT
Analysis and integration of Web 2.0 data sourcesinto a system for analysis and storage of
Artefact-Actor-Networks
Adrian Wilkewilke@[REMOVE]campus.upb.de
09. September 2010
Ziele
Zielsetzung der Bachelorarbeit
Aus der Zielvereinbarung:
I Datenquellen fur Artefact-Actor-Networks System
I Ontologien definieren
I Crawler- und Parser-Komponenten entwickeln
Konkrete Arbeitsschritte:
I Relevante Daten?
I Nutzbare Schnittstellen?
I Einbettung Ontologie?
I Konzeption & Implementierung Komponenten
AAN: Analysis and integration of Web 2.0 data sources 2
Ziele
Zielsetzung der Bachelorarbeit
Aus der Zielvereinbarung:
I Datenquellen fur Artefact-Actor-Networks System
I Ontologien definieren
I Crawler- und Parser-Komponenten entwickeln
Konkrete Arbeitsschritte:
I Relevante Daten?
I Nutzbare Schnittstellen?
I Einbettung Ontologie?
I Konzeption & Implementierung Komponenten
AAN: Analysis and integration of Web 2.0 data sources 2
Ubersicht
Ubersicht Vortrag
I. Artefact-Actor-NetworksVorstellung des Konzepts
II. DatenformateWie werden Daten abgelegt?
III. Web 2.0 Netzwerke als DatenquellenAnalyse von Delicious, SlideShare und Scribd
IV. AAN FrameworkVorstellung des Systems
V. Entwickelte KomponentenNetzwerke durchlaufen, Daten-Extraktion und -Speicherung
VI. Ergebnisse und AusblickAktuelle und zukunftige Projekte
AAN: Analysis and integration of Web 2.0 data sources 3
Vorstellung AAN I. Artefact-Actor-Networks
I. Vorstellung Artefact-Actor-Networks (AAN)
Artefact-Actor-Networks - Was steckt dahinter?
I Dokumentennetzwerkeeinfaches Beispiel: Verlinkte Webseiten
I Soziale NetzwerkeIn Organisationen oder auch im Web (Facebook)
I Ansatz: Zusammenschluß beider NetzwerkartenNeue (indirekte) Verbindungen
AAN: Analysis and integration of Web 2.0 data sources 4
Dokumentennetzwerke I. Artefact-Actor-Networks
Konsolidierung von Dokumentennetzwerken
Network of documentsNetwork in World Wide Web Consolidated artefact network I
Website A
Website B
Document C
Document D
(1) (2) (3)
D
CA
B
Consolidated artefact network IINetwork with bookmarksConsolidated artefact network I
Website B
Bookmark E
(1) (2) (3)
AAN: Analysis and integration of Web 2.0 data sources 5
Soziale Netzwerke I. Artefact-Actor-Networks
Konsolidierung sozialer Netzwerke
Consolidated actor networkActor network of company Private actor network
Person X
Person Y
Person X
Person Z
Person Z
Person X
Person Y
(1) (2) (3)
Verbindung uber berufliches und privates Umfeld von Person X
AAN: Analysis and integration of Web 2.0 data sources 6
Konsolidierung I. Artefact-Actor-Networks
Konsolidierung beider Netzwerkarten
Consolidated artefact network II Consolidated actor network
Typen semantischer Relationen
AAN: Analysis and integration of Web 2.0 data sources 7
Semantische Relationen I. Artefact-Actor-Networks
Semantische Relationen zwischen Akteuren
I Zusammenschluß der verschiedenartigen Netzwerkarten:3 Typen von semantischen Relationen
isRelatedBy : ACT²
Actor ZActor XActor Y
relates : ACT²
isInBuddyList : isRelatedBy : ACT²
hasInBuddyList : relates : ACT²
I Eigenschaften in Abbildungen:Vererbung, Inversion
I Standards, Vokabularien: FOAF, RELATIONSHIP
AAN: Analysis and integration of Web 2.0 data sources 8
Semantische Relationen I. Artefact-Actor-Networks
Relationen zwischen Artefakten,Relationen zwischen Akteuren und Artefakten
I Standards, Vokabularien: Dublin Core, SIOC
Website A Website B
linksTo : references : ART²
Document C
references : ART²
hasLink : isReferencedBy : ART² isReferencedBy : ART²
Bookmark QActor Y
hasBookmarker : ART-ACT
bookmarkerOf : ACT-ART
AAN: Analysis and integration of Web 2.0 data sources 9
Semantische Relationen I. Artefact-Actor-Networks
Relationen zwischen Artefakten,Relationen zwischen Akteuren und Artefakten
I Standards, Vokabularien: Dublin Core, SIOC
Website A Website B
linksTo : references : ART²
Document C
references : ART²
hasLink : isReferencedBy : ART² isReferencedBy : ART²
Bookmark QActor Y
hasBookmarker : ART-ACT
bookmarkerOf : ACT-ART
AAN: Analysis and integration of Web 2.0 data sources 9
Stand der Dinge I. Artefact-Actor-Networks
Stand der Dinge
I Nutzen und Mehrwert durch lokalen Zugriff undneu erschließbare Verbindungen
I Wolfgang Reinhardt et al.: Artefact-Actor-Networks
I Tobias Varlemann: Konzeption und Entw. ArchitekturAußerdem: Twitter, HTML
I Matthias Moi: Anwendung im Kontekt von WikisAußerdem: Semantische Ahnlichkeit (SemSim)
I Zusammen mit ihnen:”Modeling, obtaining and storing data
from social media tools with Artefact-Actor-Networks“,ABIS 2010 Workshop, 4.-6. Oktober in Kassel
AAN: Analysis and integration of Web 2.0 data sources 10
Datenformate II. Datenformate
II. Datenformate
Bisher: Konzept von Artefact-Actor-Networks X
Aber: Speicherung semantisch angereicherter Daten?
Drei aufeinander aufbauende Formate: RDF, RDFS, OWL
AAN: Analysis and integration of Web 2.0 data sources 11
RDF II. Datenformate
Resource Description Framework (RDF)
I Tripel: Subjekt,Pradikat, Objekt
I Subjekt: Resource(URI oder Blank Node)
I Pradikat: Resource,keine Blank Nodes
I Objekt: Resource oderLiteral
http://www.cs.uni-paderborn.de
http://ddi.uni-paderborn.de
http:/ /www.terms.example.org/has-working-group
Didactics of Informatics
http://purl.org/dc/elements/1.1/descript ion
Terminologie: Ressource hat Eigenschaft mitEigenschafts-Beschreibung
Reprasentation von Informationen X Semantische Beschreibung?
AAN: Analysis and integration of Web 2.0 data sources 12
RDFS II. Datenformate
RDF Schema (RDFS)
Zur Definition von Ontologien
University
Corporation
rdfs:subClassOf
hasEmployee
Person
rdfs:domain rdfs:range
Ontologie (im Kontext des Semantic Web):Terme zur Beschreibung und Reprasentation eines Wissensgebiets.Bereitstellen von Beschreibungen der Konzepte Klasse, Beziehung,Eigenschaft.
AAN: Analysis and integration of Web 2.0 data sources 13
OWL II. Datenformate
Web Ontology Language (OWL)
Reprasentation der Bedeutung von Termen in Vokabularienund den Beziehungen zwischen solchen Termen.
Hatten wir das nicht gerade?
Ja, aber OWL kann mehr, z.B.:
I Inversion,
I Transitivitat,
I Symmetrie,
I Beschrankungen in der Kardinalitat ...
Die AAN Ontologie basiert auf OWL.
AAN: Analysis and integration of Web 2.0 data sources 14
AAN Ontologie (Version 2) II. Datenformate
AAN Grundontologie
<!– http://AAN/AANBase#bookmarkerOf –><owl:ObjectProperty rdf:about=”http://AAN/AANBase#bookmarkerOf”><rdfs:subPropertyOfrdf:resource=”http://AAN/AANBase#act art”/></owl:ObjectProperty>
AAN := artefact-actor-networks.net/ontologies/2010/03
Ubersicht Ontologie
AAN: Analysis and integration of Web 2.0 data sources 15
Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen
III. Netzwerke als Datenquellen
Bisherige Grundlagen:
I Artefact-Actor-Networks Konzept X
I Ablage von semantischen Daten X
Welche Daten der Netzwerke sind relevant?
AAN: Analysis and integration of Web 2.0 data sources 16
Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen
Kriterien fur Daten
I Relevanz fur AAN
I Offentliche Daten
I Statische Eingenschaften
I Konsistente Nutzung
Verfugbare Datentypen
I Klassen
I Relationen
I Eigenschaften
AAN: Analysis and integration of Web 2.0 data sources 17
Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen
Kriterien fur Daten
I Relevanz fur AAN
I Offentliche Daten
I Statische Eingenschaften
I Konsistente Nutzung
Verfugbare Datentypen
I Klassen
I Relationen
I Eigenschaften
AAN: Analysis and integration of Web 2.0 data sources 17
Delicious III. Web 2.0 Netzwerke als Datenquellen
Delicious: Social Bookmarking
AAN: Analysis and integration of Web 2.0 data sources 18
Delicious III. Web 2.0 Netzwerke als Datenquellen
AAN: Analysis and integration of Web 2.0 data sources 19
SlideShare III. Web 2.0 Netzwerke als Datenquellen
AAN: Analysis and integration of Web 2.0 data sources 20
Scribd III. Web 2.0 Netzwerke als Datenquellen
AAN: Analysis and integration of Web 2.0 data sources 21
Dokumentennetzwerke III. Web 2.0 Netzwerke als Datenquellen
AAN: Analysis and integration of Web 2.0 data sources 22
Schnittstellen III. Web 2.0 Netzwerke als Datenquellen
Schnittstellen der Netzwerke
Kriterien fur Schnittstellen
I Offentlich zugangliche Daten
I Alle zuvor gewahlten Daten
I Moglichst keine storenden Restriktionen
I Moglichst strukturierte Daten
AAN: Analysis and integration of Web 2.0 data sources 23
Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen
Schnittstellen: Delicious
I API: Zugriff personlicher Daten (Login)I Feeds: Beschrankungen
I 1 Aufruf pro SekundeI Maximal 100 zuruckgegebene Bookmarks
I HTML: Nicht strukturiert
Offentlich Strukturiert
API - XFeeds X XHTML X -
AAN: Analysis and integration of Web 2.0 data sources 24
Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen
Genutzte Delicous Feeds (10/23)
URLTag(s)
Tag(s)
Actor(s)
Tag(s)
URL
Actor
URL(s)
Tag(s)
Tag(s)
Tag(s)
URL
Actor
Actor
Actor
Actor
Actor
bmPopularByTag
bmByTags
bmByUrl
bmByUser
bmByUserAndTags
networkFans
networkMembers
tagsByUser
tagsByUserAndTags
urlInfo URL
Tags
Users
Bookmarks
Input classes Output schemesFeed patterns Output classes
Actor
URL
Tag
AAN: Analysis and integration of Web 2.0 data sources 25
Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen
Schnittstellen: SlideShare
Artefact
KeywordActor
get_user_contacts(username)
get_slideshows_by_user(username)get_slideshows_by_tag(tag)
Query ID | URL
search_slideshows(query) get_slideshow(id | url)
API method
XML Response
API:4 von 13 Methodendecken Bedarfsemantischer Daten
HTML:Zusatzlich furVolltexte undKategorien
AAN: Analysis and integration of Web 2.0 data sources 26
Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen
Schnittstellen: Scribd
Artefact
KeywordActor
docs.search(@tag)
Query
docs.search(query)
API method
HTML parser
ACT²
AA
AA
Keywordsof Artefact
API:1 von 24 Methodenliefert verwendbareDaten
HTML:Fur zusatzlichenBedarf
AAN: Analysis and integration of Web 2.0 data sources 27
AAN Framework IV. AAN Framework
IV. Das AAN Framework
Wir kennen:
I Artefact-Actor-Networks Konzept X
I Ablage von semantischen Daten X
I Daten in Netzwerken X
Jetzt wird es praktischer: Das AAN Framework
I Grundlage: Die OSGi Service Platform (Java)
I Architektur des AAN Frameworks
I In Arbeit entwickelte Komponenten
AAN: Analysis and integration of Web 2.0 data sources 28
OSGi IV. AAN Framework
OSGi Service Platform
I Spezifikation der OSGi Alliance
I Verschiedene Implementationen,u.a. Equinox (Eclipse Foundation)
I Java-basiert → Portabilitat
I Abhangigkeitsmanagement operiert auf Versionierung
I Bundles: Ressourcen und Klassen
I Statischer Export oder
I dynamisch angebotene ServicesImplementierungen von Interfaces,registriet bei Service Registry
AAN: Analysis and integration of Web 2.0 data sources 29
AAN Framework IV. AAN Framework
Architektur AAN Framework
AAN: Analysis and integration of Web 2.0 data sources 30
Entwickelte Komponenten V. Entwickelte Komponenten
V. Entwickelte Komponenten
Bisher behandelt:
I AAN Konzept X
I Semantische Daten X
I Daten in Netzwerken X
I AAN Framework X
Nun zu den entwickelten Komponenten.
Fur jede der 3 Datenquellen war zu entwickeln:
I Crawler Komponente
I Parser Komponente
AAN: Analysis and integration of Web 2.0 data sources 31
Entwickelte Komponenten V. Entwickelte Komponenten
Entwickelte OSGi Bundles
Crawler Komponenten:
I Schnittstellen: Webservice, Observierung, Job Behandlung
I Durchlaufen der Netzwerk-Strukturen
Parser Komponenten:
I Schnittstellen: Parsen moglich? Parsen.
I Extraktion relevanter Daten
I Speicherung im Modell
I Erstellen von Folgeauftragen
AAN: Analysis and integration of Web 2.0 data sources 32
Workflows V. Entwickelte Komponenten
Workflows Crawling Komponenten
AAN: Analysis and integration of Web 2.0 data sources 33
Workflows V. Entwickelte Komponenten
Workflow Scribd Parser
AAN: Analysis and integration of Web 2.0 data sources 34
Workflows V. Entwickelte Komponenten
Workflow Delicious Crawler Manager
AAN: Analysis and integration of Web 2.0 data sources 35
Workflows V. Entwickelte Komponenten
Workflow Delicious Crawler Manager
AAN: Analysis and integration of Web 2.0 data sources 36
Ergebnisse und Ausblick VI. Ergebnisse und Ausblick
VI. Ergebnisse und Ausblick
Behandelt wurden:
I AAN Konzept X
I Semantische Daten X
I Daten in Netzwerken X
I AAN Framework X
I Entwickelte Komponenten X
Abschließend eine Ubersicht der Ergebnisse und ein Ausblick
AAN: Analysis and integration of Web 2.0 data sources 37
Ergebnisse VI. Ergebnisse und Ausblick
Ergebnisse
I Komplette Daten Ontologie aus allen Netzwerken X
I Vollstandige Ergebnisse fur SlideShare und Scribd X
I Volltexte fur Delicious und SlideShare X
I Keine Volltexte aus Scribd(Optionale Anforderung in der Zielvereinbarung)In Zukunft: Daten aus PDFs extrahieren?
I Keine vollstandigen Ergebnisse fur DeliciousWarum?
AAN: Analysis and integration of Web 2.0 data sources 38
Ergebnisse VI. Ergebnisse und Ausblick
Beschrankungen Delicious Feeds
AAN: Analysis and integration of Web 2.0 data sources 39
Ergebnisse VI. Ergebnisse und Ausblick
Delicious Analyse Fallbeispiel
I Job: Delicios Tag”fsln10“
I Es gibt 387 BM von 12 Akteuren,384 BM ohne Doppel-Eintrage
I Job mit rekursiven Anfragen, interner Tiefe 1 (ca. 25 Minuten)
I 630 Artefakte von 7 Akteuren wurden gecrawlt
I Das sind 327 BM(grep -o http://delicious.com/url/ artefact-list.xml | wc -w)
I Job mit rekursiven Anfragen, interner Tiefe 2
I 733 Artefakte von 10 Akteuren wurden gecrawlt
I Das sind 383 BM
AAN: Analysis and integration of Web 2.0 data sources 40
Ergebnisse VI. Ergebnisse und Ausblick
Delicious Analyse Fallbeispiel
Benutzer Webseite Job 1 Differenz Job 2 Differenzjul. 120 120 0 120 0wol. 126 126 0 126 0syw. 97 52 45 96 1seb. 9 9 0 9 0Den. 12 12 0 12 0rol. 1 1 0 1 0
mey. 7 7 0 7 0chr. 1 0 1 1 0eva. 10 0 10 10 0dig. 2 0 2 1 1moi. 1 0 1 1 0cwa. 1 0 1 0 1
Gesamt 387 327 60 383 3 oder 4
AAN: Analysis and integration of Web 2.0 data sources 41
Ausblick VI. Ergebnisse und Ausblick
Ausblick
I Analyse: Auswertung zu Delicious und Slideshareim Journal of Computer Science and Technology(Beitrage bis 1. Oktober 2010)
I Aktive Weiterentwicklung Visualisierung und Analyse imFachgebiet DDI
I Projektgruppe: knowAAN Voraussichtlich im WS 2010/11
I Seminar: Future Social Learning Networks im WS 2010/11
AAN: Analysis and integration of Web 2.0 data sources 42
Fazit VI. Ergebnisse und Ausblick
Personliches Fazit
Wissen in verschiedenen Bereiche erworben:
I Theorie (z.B. Reprasentation von Semantiken)
I Technik (z.B. Architektur OSGi Platform & AAN Framework)
I Praxis (Entwurf & Entwicklung der Komponenten)
I Teamarbeit, Englisch-Kenntnisse
Vielen Dank!
AAN: Analysis and integration of Web 2.0 data sources 43
Anhang: Vereinfachte Ontologie V2, Stand: Juli 2010
Grundontologie
AAN: Analysis and integration of Web 2.0 data sources 44