sudoc, calames, theses.fr et le web de données
DESCRIPTION
Atelier sur le Web de données lors des Journées ABES 2011TRANSCRIPT
![Page 1: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/1.jpg)
Sudoc, Calames, theses.fret le Web de données
Atelier JABES2011
![Page 2: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/2.jpg)
Vers le Web de donnéesApplication Lancement Format RDF Données à jour Richesse des liens
Calames 2008 RDFa Oui +
theses.fr 2010 RDFa + RDF/XML2011 Oui +
IdRef 2010 RDF/XML + RDFa2011 Oui ++
Sudoc 2011 RDF/XML2011 Oui +++
![Page 3: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/3.jpg)
Il faut participer au Web de données [Acquis]
![Page 4: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/4.jpg)
Objectifs de l’atelier
• Faire un bilan d’étape• Montrer les données• Justifier certains choix• Expliquer comment ça marche• Manipuler quelques outils simples• Esquisser la suite du travail à mener– Nous– Vous
![Page 5: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/5.jpg)
Partons du connu
![Page 6: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/6.jpg)
![Page 7: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/7.jpg)
S’agit-il de données RDF ou d’une simple notice Dublin Core ?
![Page 9: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/9.jpg)
about• En RDF, il faut expliciter de quoi on parle en
l’identifiant par une URL : http://www.sudoc.fr/013041932/id
• http://www.sudoc.fr/013041932/id est l’identifiant du document décrit
• http://www.sudoc.fr/013041932/id est décrit à cette page-là http://www.sudoc.fr/013041932
![Page 10: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/10.jpg)
triplets
• En RDF, tout est décomposé en triplets
• Chaque triplet est indépendant• Chaque triplet pourrait être stocké séparément
Pas de notice finie Une autre source peut la compléter, si elle parle de la même chose :
http://www.sudoc.fr/013041932/id Interopérabilité. Extensibilité.
![Page 11: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/11.jpg)
Identifier la langue avec le référentiel Lexvo
![Page 12: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/12.jpg)
![Page 13: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/13.jpg)
Mettre en relation un document et une langue
• La langue n’est pas un code (‘fre’)• La langue est une entité à part entière– Avec son propre identifiant
http://lexvo.org/id/iso639-3/fra – et ses propres propriétés
• La propriété dcterms:language met en relation deux entités
![Page 16: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/16.jpg)
De fil en aiguille
• La description de la langue poursuit la description du document Sudoc
• Où s’arrêter ?• C’est sans fin• C’est le Web de données
![Page 17: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/17.jpg)
Identifier les personnes avec IdRef
![Page 18: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/18.jpg)
![Page 19: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/19.jpg)
IdRef, fournisseur d’identifiants et de référentiels
• www.idref.fr = application Web ouverte– Ouverte sur le Web de données– Ouverte à d’autres applications IST (France)• Par son Web Service de recherche• Par ses fonctions d’intégration (Javascript)
• Différents moyens/services pour récupérer et exploiter les identifiants et les données des autorités Sudoc ABES.
![Page 20: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/20.jpg)
IDREF Autorités
Sudoc
Sudoc et IdRef
Sudoc
![Page 21: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/21.jpg)
Autorités Sudoc
Les autorités Sudoc,pivot du Linked data ABES
theses.fr
Calames
SudocThèses soutenuesetThèses en cours (2011)
![Page 22: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/22.jpg)
RDFa de Calames
• Pas de page RDF/XML• Le RDF est caché dans le HTML de
http://www.calames.abes.fr/pub/ms/Calames-2010914119419211
Pour révéler le RDF caché ,utiliser un outil comme
![Page 23: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/23.jpg)
RDFa de Calames
http://www.calames.abes.fr/pub/ms/Calames-2010914119419211
![Page 24: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/24.jpg)
RDFa de theses.fr
• Pas encore de page RDF/XML• Le RDF est caché dans le HTML de
http://www.theses.fr/2009TOUR3802
Pour révéler le RDF caché ,utiliser un outil comme
![Page 25: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/25.jpg)
Les thèsesportant sur les correspondants de Goethe
PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX ead: <info:ms#>PREFIX tef: <http://www.abes.fr/abes/documents/tef/>
SELECT ?these{?ms dc:creator <http://www.abes.fr/su/res/026895528>.?ms ead:destinataire ?destinataire.?these a tef:Thesis.?these dc:subject ?destinataire}
La requête exploite les données Calames et STAR
![Page 26: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/26.jpg)
Lier les données à IdRef, au-delà de l’ABES
![Page 27: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/27.jpg)
Autorités Sudoc
Linked data IST.fr ?
theses.fr
Calames
SudocThèses soutenuesetThèses en cours ( 2011)
HAL ?
revues.org ?
Persée ?
Presses univ. de Y ?
Plateforme pédagogiq.
?
?
![Page 28: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/28.jpg)
IdRef comme nœud régional
• Positionnement d’IdRef : IST français• En complémentarité avec d’autres
fournisseurs d’identifiants et de référentiels :– Local : identifiants propres à une application, à un
annuaire– Régional : BnF, auteurs HAL, CERL, DAI (NL)– Global : VIAF, DBpedia
![Page 29: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/29.jpg)
Autorités Sudoc
theses.fr
Calames
Sudoc
HAL ?
revues.org ?
Persée ?
Presses univ. de Y ?
Plateforme pédagogiq.
?
Autorités BnFDBpedia
VIAF
![Page 30: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/30.jpg)
Lier les données de l’IST entre elles, au-delà d’IdRef
![Page 31: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/31.jpg)
Autorités Sudoc
Linked data IST.fr ? Les labos !
theses.fr
Calames
Sudoc
HAL
revues.org
Persée
Presses univ. de Y
Plateforme pédagogiqu
e X
?
Référentiel des
laboratoires
![Page 32: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/32.jpg)
Autorités Sudoc
Linked data IST.fr ? Les affiliations
theses.fr
Calames
Sudoc
HAL
revues.org
Persée
Presses univ.s de Y
Plateforme pédagogiqu
e X
PRISMES (AMUE) locaux
Référentiel des
laboratoires
![Page 33: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/33.jpg)
On parle de la même chose
• owl:sameAs
![Page 34: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/34.jpg)
Identifier et nommer les personnes avec IdRef
![Page 35: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/35.jpg)
![Page 36: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/36.jpg)
Identifier les concepts avec IdRef et RAMEAU
![Page 37: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/37.jpg)
![Page 38: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/38.jpg)
IdRef et Rameau
• Identifiants IdRef pour Rameau• A lier aux identifiants canoniques, ceux du
centre national Rameau (BnF) quand ils seront officiellement publiés.
• MeSH• Dewey
![Page 39: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/39.jpg)
Préciser le rôle des agents avec les MARC Relators
![Page 40: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/40.jpg)
![Page 41: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/41.jpg)
![Page 42: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/42.jpg)
L’embarras du choix ?
• dcterms:creator• dcterms:contributor• marcrel:aut• rda:authorWork• tef:auteur ?
![Page 43: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/43.jpg)
Qui utilise explicitement marcrel:aut utilise implicitement dc:contributor
![Page 44: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/44.jpg)
RaisonnementLe Sudoc dit :http://www.sudoc.fr/012367206/id marcrel:aut http://www.idref.fr/ 026975262 /id
La Bibliothèque du Congrès dit (ici) :Marcrel:aut rdfs:subPropertyOf dc:contributor
Un outil de raisonnement pourra en déduire que :http://www.sudoc.fr/012367206/id dc:contributor http://www.idref.fr/ 026975262 /id
![Page 45: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/45.jpg)
Qui utilise marcrel:aut peut également tef:auteur,
malgré la redondance apparente
![Page 46: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/46.jpg)
tef:auteur
• Ne semble rien dire de plus que marcrel:aut• Mais possède une propriété intéressante :
C’est une propriété fonctionnelle=
Une thèse ne peut avoir qu’un auteur=
si une thèse a deux auteurs, c’est deux fois le même !
![Page 47: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/47.jpg)
RaisonnementQuelqu’un dit :http://www.sudoc.fr/012367206/id tef:auteur http://www.idref.fr/035200898/id
Quelqu’un d’autre dit :http://www.sudoc.fr/012367206/id tef:auteur http://www.viaf.org/123456789
Une ontologie TEF dit :http://www.abes.fr/tef/auteur rdf:type owl:ObjectProperty owl:FunctionalProperty(une thèse ne peut avoir qu’1 auteur, au sens de tef:auteur)(mais elle peut avoir 2 dc:creator)
Un outil de raisonnement pourra en déduire que :http://www.idref.fr/035200898/id owl:sameAs http://www.viaf.org/123456789
![Page 48: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/48.jpg)
DÉMO
Fichier (fusion des triplets RDF) : http://193.52.69.127/xml/rdf/sperber_turtle.txt
Outils de raisonnement :http://www.ivan-herman.net/Misc/2008/owlrl/ http://inspector.sindice.com
![Page 49: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/49.jpg)
Raisonnement
• RDF, c’est de la logique• Travaux en cours avec le LIRMM pour ADONIS sur
les données Persée• Oblige à qualité des données et rigueur de la
modélisation• Sinon : on génère n’importe quoi !
• Usages :– Enrichir les données– Expliciter les données– Mettre au jour des incohérences
![Page 50: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/50.jpg)
Page RDF complète
![Page 51: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/51.jpg)
![Page 52: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/52.jpg)
Une pincée de RDA et de FRBR
![Page 53: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/53.jpg)
CONCLUSION
![Page 54: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/54.jpg)
Convertir en RDF
• Aussi indéterminé que « convertir en Excel » !
Quelle modélisation ?Quels vocabulaires réutiliser ?Forger son propre vocabulaire ?Nos données historiques sont-elles éligibles à
ces nouvelles modélisations ?» cf. notre dc:format et notre dc:publisher
![Page 55: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/55.jpg)
Trois lièvres à la fois
Priorité Objectif Vocabulaires
Parler à la cantonade Interopérabilité générale dc, foaf
Modéliser de manière exhaustive nos données métier
Se passer de MARC rda, isbd, frbr
Faire raisonner les données Tirer le maximum des donnéesContrôler leur qualitéAide au catalogage
ad hoc si nécessaire
![Page 56: Sudoc, Calames, theses.fr et le Web de données](https://reader038.vdocuments.mx/reader038/viewer/2022102922/54c6f3c44a795942768b45c0/html5/thumbnails/56.jpg)
La suite
• Enrichir encore les conversions en RDF• Multiplier si nécessaire les vocabulaires employés,
sans craindre les redondances• Ajouter des liens internes et externes (IST française,
BnF, OCLC, Dbpedia, Freebase, etc.)• Encourager les partenaires à diffuser leurs données
en RDF, en s’appuyant sur des référentiels communs (IdRef)
• Continuer à exploiter ces données en RDF avec le LIRMM et d’autres