représentation et accès: continuités et transformations. chapitre 1. transformations à...

43
Métadonnées Représentation et accès à l’information INRIA Seminaire 2008 par Sylvie Dalbin - ATD [email protected] (1)

Upload: dalb

Post on 28-Nov-2014

496 views

Category:

Technology


2 download

DESCRIPTION

INRIA 2008 (1) - Métadonnées : mutations et perspectives http://www.adbs.fr/metadonnees-mutations-et-perspectives-46545.htm

TRANSCRIPT

Page 1: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

MétadonnéesReprésentation et accès à l’information

INRIA

Seminaire 2008

par Sylvie Dalbin - [email protected]

(1)

Page 2: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.2

Fil conducteur de l’intervention

1. Contexte de l’intervention1. Contexte du séminaire2. Contexte professionnel

2. Métadonnées1. Définition2. Processus de conception3. Outils de modélisation4. Architecture5. Administration et qualité

3. Axes d’évolution1. Des listes d’autorité aux répertoires sémantiques2. Représenter des langues3. Convergence et spécificités des modèles4. Accès immédiat aux corpus numériques : le cas des thèses

4. Conclusion

Page 3: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

1. CONTEXTE DE L’INTERVENTION

Contexte du séminaire

Contexte professionnel

1.

Page 4: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.4

Contexte du séminaire

• Introduction au thème de la semaine Inria

• S’ouvrir aux différents mondes qui se rencontrent – Les mondes des différents intervenants et les vôtres

– Autour de la notion de métadonnées• Sur les plans fonctionnel et technique

• Et des notions connexes : granularité, notation, terminologie, …

– Par une mise en perspective inter-professionnel (Archives, Documentation, Bibliothèques, Musée)

– En partant de la réalité d’hier et d’aujourd’hui

• En complément (mardi 30 sept) : – «  Métadonnées et normalisation », Atelier

1.1

Page 5: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.5

Contexte professionnel

• Du livre aux ressources• Du papier au numérique - Du mono- au pluri- et multi-média• D’un objet (le livre) à des grains d’information contextualisés• Immédiateté ; Flux et volumes• Métadonnées plus riches, mieux contrôlées• Métadonnées métiers : à la source• Des contenus exploitables

• Accès à l’information à l’ère de la Société de l’Info• Tout citoyen dans ses activités professionnelles (et personnelles)• Des besoins étendus, fréquents, diversifiés• Dont la nature diffère de celle du « chercheur » (scientifique)

• Automates : le cœur des systèmes• Moteurs et automatisme : quelle place pour l’Humain• Interopérabilité (à distinguer de centralisation)

1.2

Page 6: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

2. METADONNEES

Définition

Processus de conception

Outils

Architecture

2.

Page 7: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.7

Métadonnée : représentation + codage

Représentation réinterprétable

d'une information, sous forme

conventionnelle convenant à la

communication, à l'interprétation

ou au traitement.

membres.lycos.fr/jjww/

50.htm.

2.1

Page 8: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.8

Processus de conception

La Vie,

Les Choses de la Vie

B - Représentation Informatique

A - Représentation Métier

2.2

A1 - Modéliser et formaliser le modèle métier

A2 - Développer des Référentiels métier

B1 - Concevoir un modèle informatique sur la base du modèle conceptuel métierB2 - Développer un schéma de données

Page 9: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.9

Processus A : Représentation métier

Une réalité - Un objectif

A1 - Modéliser

Formaliser ce modèle

A2 - Développer

des Référentiels métier

pour alimenter ces modèles

Favoriser la guérison en décrivant précisément les maladies

« Modèle conceptuel biomédical » des conséquences des maladies, années 1940

Langage médical : Classification internationale des maladies (CIM)

2.2

Page 10: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.10

Processus B : Représentation SI

B1 - Concevoir un modèle informatique sur

la base du modèle conceptuel métier

B2 - Développer un schéma de données

- représentation des ressources- Représentation des référentiels

ClaML Classification Markup Language

« support the transfer of the majority of hierarchical healthcare classification systems »

<Class kind="category"> <Symbol>A04</Symbol>

<SuperClass>A00-A09</SuperClass>

<Rubric xml:lang=“en" kind="preferred">Other bacterial intestinal infections</Rubric>

<Rubric xml:lang=“en" kind="excludes">foodborne intoxications, bacterial (<Reference>A05</Reference>)</Rubric>

<Rubric xml:lang=“en" kind="excludes">tuberculous enteritis (<Reference>A18.3</Reference>)</Rubri>

</Class>

2.2

Page 11: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.11

Outils: langages à tous les étages

Le langage : moyen d'expression et de représentation

• Langages de représentation des SI– Représention graphique UML, entité-attribut-classe, Schémas XML

• Langages de représentation des ressources– Des champs aux schémas de métadonnées

• Langages de représentation de concepts/entités– Langages documentaires, langage d’indexation, de recherche– Langages de représentation d’entités nommées

» Des listes d’autorité aux référentiels sémantiques– Langages de représentation Métier ou Domaine

représentation des activités et non des ressources seules

Représenter les activités - pas uniquement les ressources

Repositionner les notions de classes, concepts, sujet

2.2

Page 12: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.12

Outils : modèle entité-relation-attribut

Outil de modélisation de données de haut niveau

Modèle « Entité-Association » (1970->)

– Entité– Objet pourvu d’une existence : un ou des individus (un auteur, une

société, un gène, etc.), une chose concrète ou abstraite (publication, pays, etc.), un événement (facture, manifestation, etc.).

– Relation– Association fonctionnelle entre deux entités ou classes d’entités.

– Attribut ou propriété– Données élémentaires sur une entité (date ou lieu de naissance

d’une personne) ou sur une relation.

– Cardinalité– Dimension ou degré de la relation; nombre d'entités impliquées dans

cette relation : une seule entité (réflexive), minimum (0 ou 1) et maximum (n).

2.3

Page 13: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.13

Outils : modèle entité-relation-attribut

identifiant relation

entités attributs Instance de la classe Personne

Instance de la classe Oeuvre

Une représentation (partielle) du domaine Musique

2.3

Page 14: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.14

Architecture des composants fonctionnels

Ontologie (structure des connaissances)

Vocabulaires contrôlésThésaurus

Base de connaissances

Métadonnées

Donnéesvidéo, photo, texte, artefact

Moteur de

recherche

Accès

Recherche

Taxonomie de navigation

Métadonnées MétiersŒuvres, Personnes, Concerts,…

Autres métadonnées Titre, format, support,…

Vocabulaire enrichiSynonymes et traductionsAutres relations

So what de Miles Davis

Ad

min

istr

erIn

dex

erRéservoirs de connaissances

Référentiel

2.4

Page 15: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

Fonction d’administration

Administration des métadonnées

Qualité des Référentiels

Page 16: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.16

Administration des métadonnées

• Les applications s’auto-référencent ?• Elaborer une documentation « informatique » et « métier »

• Documenter le référentiel des applications• Règle de documentation : norme ISO 11179 (MDR)

• Autres règles : ISO 9735-2:2002 pour les données composites

• Enregistrer schémas et profils d’application• les « agences d’enregistrement  » de l’ISO 11179

• Profils d’application: schéma + règle + système d’encodage + tableau de concordance

• Reprise du projet « Registry » au sein du Dublin Core

2.5

Page 17: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.17

Métadonnée « Contribution person »

2.5

Page 18: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.18

Qualité des référentiels

• Qualité de quoi ? – la qualité du modèle initial

– La qualité des données elles-mêmes

– La qualité interne du schéma de métadonnées

– La qualité externe du schéma de métadonnées

– La qualité des vocabulaires d’encodage

• Quel contrôle ?– Pour chacune de ces catégories

– Par échantillonnage sur les données et leurs usages à la recherche et à l’indexation

2.5

Page 19: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

3. AXES D’EVOLUTION

Quelques axes d’évolution

dans ce nouveau contexte

3.

Page 20: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.20

Présentation de 4 axes d’évolution

1. Des listes d’autorité aux répertoires sémantiques Le cas du Catalogue de la Cité de la Musique

2. Métadonnées composites et choix d’encodage• Les normes du Web

Le cas de la représentation des « langues » (rfc 4646)

3. Convergence et spécificités des modèles Le cas des modèles éditorial, bibliothéconomique, archivistique et

documentaire

4. Accès immédiat aux corpus numériques Le cas des thèses

3.

Page 21: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

#1. Des listes d’autorité aux répertoires sémantiques

Le cas du Catalogue de la Cité de la Musique

3.1

Page 22: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.22

Référentiel sémantique (1)3.1

Page 23: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.23

Référentiel sémantique (2)

• Schémas de métadonnées – Cohérents et coordonnés

• Répertoires contrôlés et enrichis : des ressources– Des entités identifiées (identifiant, uri)

– Des entités contrôléesLes Titres de partition, d’œuvres, d’ouvrages, de concerts,… Les Noms des musiciens, compositeurs, éditeurs ….Les Noms des instrumentsLes Fonctions/Rôles

– Des entités enrichies par des attributs Les valeurs de certains attributs sont elles-mêmes contrôlées

3.1

Page 24: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.24

Référentiel sémantique (3)

• Finalités– Ré-exploitations multiples

• Grâce aux Entités - Attributs - Relations

– Logiques de recherche/navigation du Web

– Optimisation économique

• Quelles évolutions ?– Connaissances sur le domaine, plus que catalogue de documents

• La Musique à travers ses compositeurs, ses œuvres, ses instruments, ses interprétations,…

– Fluidité des liens entre « nœuds » versus rigidité des notices

– Offres construites avec des applications composites mêlant des ressources pas toujours homogènes

• Interopérabilité structurelle

3.1

Page 25: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

#2. Métadonnées composites et choix d’encodage

Les normes du WebLe cas de la représentation des « langues » (rfc

4646)

3.2

Page 26: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.26

Représentation des langues (1)

• Analyse du problème posé– Langue

– la langue écrite dans un système d’écriture particulier » la langue chinoise - alphabet chinois ou romanisé (pinyin)

– La langue parlée– Dans une région précise du monde  » En-UK, En-US, en-CA

– Unité traitée– La langue d’un document textuel, d’une mention sur une affiche, du

sous-titrage, de leurs traductions, d’annotations..– Supports plurilangues

– Dans le temps– Prise en compte de l’évolution des Pays en particulier– Des langues anciennes

– Langues et pays : écriture éponyme » deu et non ger

– Règles d’encodage du Web - XHTML, HTML, CSS

3.2

Page 27: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.27

Représentation des langues (2)

• Métadonnée composite du W3C– Sur la base de la RFC 4646 (Tags for Identifying Languages)

– Finalités– Accès direct aux ressources– Répondre précisément aux besoins– Prendre en compte les particularismes régionaux à travers le

monde– Intégré à Dubin Core / ISO 15836

zh - Latn - CN [ISO 639-1] [ISO 15924] [ISO 3166]

de - CH - 1996Allemand utilisé en Suisse, écrit après la réforme de l'orthographe

entamée en 1996 après J.C.

3.2

Page 28: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.28

Représentation des langues (3)

• Quelles évolutions ? Jusqu’où aller ?– Représentation et encodage fins d’éléments de donnée

appartenant à un schéma de représentation global– La langue telle qu’elle est parlée ou écrite– Mais aussi Contributeur = Personne - Rôle - Date, répétable

– Associer des métadonnées à des grains d’information– L’interview d’une personnalité au sein d’une séquence

– S’aligne-t-on sur les exigences des technologies du Web ?– accès direct aux ressources, caractère international, précision de la

description de tout ou partie des ressources,…

3.2

Page 29: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

#3. Convergence et spécificités des modèles

Le cas des modèles éditorial, bibliothéconomique, archivistique et

documentaire

3.3

Page 30: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.30

Modèles documentaires (1)

• Points de vue variés sur des objets informationnels ou des activités des Audiences

• Critères nombreux• Unité de traitement privilégiée

• Résultat : schéma de représentation (notice)

• Appartenance à des collections : thématiques, par filiation,…

• Structure prise en charge ; interne ou externe à l’objet

• Usages de cette représentation (en recherche, avec ou sans outils supplémentaires…)

• Reconnaissance (ou pas) de cette méta-structure par les audiences visées

• Existence ou pas de formats normalisés (e-books).Existence ou pas d’outils de production

3.3

Page 31: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.31

Modèles documentaires (2)

A. Structuration orientée par l’objet physique 1. Modélisation éditoriale

2. Modélisation bibliographique

B. Structuration orientée par les contenus 3. Modélisation Contenu de premier niveau

4. Modélisation Structurelle de premier niveau

5. Modélisation Genre

6. Modélisation Domaine ou Métier (contexte)

7. Modélisation Collection (contenu/contexte)

3.3

Page 32: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.32

Modèles documentaires (3)

1. Modélisation éditoriale• L’objet pris comme un tout, appartenant à une collection (filiation)

• Structure interne visible– supportant la navigation intra-documentaire– Connue par un large public

• Formats normalisés (e-book)

2. Modélisation bibliographique• L’objet pris comme un tout, appartenant à une collection

(acquisition)

• Structure externe à l’objet (notice) – Connue par un large public– N’intègre pas (ou très peu) la sémantique structurelle éditoriale

• Formats normalisés

3.3

Page 33: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.33

Modèles documentaires (4)

3. Modélisation Contenu de 1er niveau• L’objet pris comme un tout, appartenant à une collection (filiation)

• Structure externe à l’objet enrichie de métadonnées d’accès– Offrant une vue synthétique (sujet), mais externe à l’objet– Territoire fixé par l’objet

4. Modélisation Structurelle de 1er niveau• L’unité documentaire est « décrochée » par rapport à l’unité

éditoriale ou bibliographique (article, reportage, …) créant après la collection et l’objet, un 3ème niveau

• Structure externe à l’objet enrichie de métadonnées d’accès– Offrant des accès analytiques pluriels

3.3

Page 34: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.34

Modèles documentaires (5)

5. Modélisation Genre• L’objet pris comme un tout, appartenant à une famille particulière

• Structure intra-documentaire prédéterminée par le genre, non formelle

– Connue par un public au sein de communautés métiers– Métagenres (compte-rendu de réunion), genres spécialisés– Traduit dans le modèle documentaire par une seule métadonnée

6. Modélisation Domaine ou Métier• Prend appui sur les activités et non spécifiquement les objets

• Structure de représentation du domaine, externe aux ressources, indépendante de celles-ci

– Connue par les acteurs du domaine et touche un public large au sein du domaine

3.3

Page 35: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.35

Modèles documentaires (6)

7. Modélisation Collection– Intégration des objets au sein d’un schéma d’ensemble

• Collection éditoriale, d’une bibliothèque, d’un musée, fonds d’une centre documentaire, fonds d’archives

• Le référent de cette structure est varié : filiation ou contexte de production , savoir encyclopédique ou domaine spécialisé, activités…

Dans un contexte de fédération de ressources

(portail), il est possible de rendre convergents ces

différents points de vue, tout en conservant les

spécificités de chacun.

3.3

Page 36: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.36

Modèles documentaires (6)

• Granularité de l’unité de traitement choisie

3.3

Page 37: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.37

Modèle documentaire générique3.3

Page 38: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

#4. Accès immédiat aux corpus numériques

Le cas des thèses

3.4

Page 39: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.39

Le cas des thèses (1)

• Recommandation TEF de 2006 • « définit un jeu de métadonnées pour les thèses électroniques

soutenues en France.

• […] a voulu valoriser les thèses françaises grâce à leur diffusion électronique et engager une politique de dépôt et de conservation qui assure leur pérennité. »

• Optimiser un circuit éditorial• Postérieur à la création de l’objet

• Métadonnées de type bibliographique et administrative

Un modèle éditorial post-publication

3.4

Page 40: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.40

Le cas des thèses (2)

• Améliorer aussi l’exploitation des thèses• Accès immédiat au corpus, lecture non linéaire, parcours,

exploitation partielle,…

• Insérer des connaissances propres au domaine • Structuration interne de la thèse (genre)

– Etat de l’art, méthodologie, modèle, algorithme, architecture, prototype ou étude de cas d’une thèse scientifique

– A formaliser dans le jeu de métadonnées

• Offrir des possibilités d’indexation sociale par les lecteurs

• Adosser ces nouvelles métadonnées au schéma existante

• Métadonnée : éditoriale, bibliographique, administrative et de contenu

3.4

Page 41: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.41

Le cas des thèses (3)

• Etat de l’art sur l’indexation dans différents types de SRI

• Méthode d’indexation proposée Index : modèle des graphes sémantiques, extensions tels thesaurus sémantique, opérateur de projection et algorithmes; annotation et indexation;

• ExpérimentationIndex : prototype SyDOM, bibliothèque (lieu d’exp.), évaluation de l’indexation

• Perspective• Terminologie

Index : indexation automatique, système de représentation de concepts, ressource linguistique

• Article (grain autonome) sur les systèmes de recherche multilingue

C. Roussey - Une méthode d’indexation sémantique adaptée aux corpus multilingues, 2001

Sommaire de la thèse

3.4

Page 42: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

Conclusion provisoire…

4.

Page 43: Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre

INRIA IST - Session introductive sur les métadonnées par Sylvie Dalbin 29 Sept 2008 - p.43

Complexité de mise en oeuvre

• Malgré les qualités des technologies du Web• Ouverture, interopérabilité technique, normalisation,…

• Des difficultés de conception et de mise en œuvre• Normalisation, méthodes et outils : mobilité très grande • Contenu et systèmes ouverts

» Penser autrement territoires et périmètres» Articuler différents modèles, schémas et langages » Complexité de la reprise de l’existant» Importance des travaux de modélisation

• S’ouvrir aux pratiques et besoins des Utilisateurs» Renouveler l’ ergonomie et les services

• Economie des dispositifs et coût des transformations• Accompagner le changement : formation de formateurs

Adopter un esprit ouvert et critique

4.