de la caractérisation des données à leur transformation
DESCRIPTION
TRANSCRIPT
De la caractérisation des données à leur transformation
Ecole Technique du pôle Technologies
14-15-16 mars à Poitiers
Diane Le Hénaff, Ingénieur Systèmes d’information Documentaires (DV-IST)
1- Objet, information, donnée, …
2- Caractériser
3- Exemple
4- Transformer
De la caractérisation des données à leur transformation
1ère partie
1- Objet, information, donnée
“The term data refers to qualitative or quantitative attributes of a variable or set of variables. Data are typically the results of measurements and can be the basis of graphs, images, or observations of a set of variables”
Source : http://en.wikipedia.org/wiki/Data
Qu’est ce qu’une donnée ?
• Une donnée est un attribut, une propriété d’un objet
• Une donnée est une unité d’information
1- Un objet
1- Un ensemble d'information
2- CaractériserCaractériser un objet, c’est décrire l’objet avec des propriétés, des attributs, des caractéristiques qui forment alors un ensemble de données.
Caractériser une donnée est impropre sauf si l’on vise à décrire encore plus finement une unité d’information.
2- Caractériser un objet
Les polyamines sont des composés organiques
possédant au moins deux fonctions amine
Une amine est un composé organique dérivé de
l'ammoniac dont certains hydrogènes ont été
remplacés par un groupement carboné
Un polyamine se caractérise par :
• une suite de copolymères (-CH2-CHOH-CH2-N+(CH3)2-
) de dimethylamine et d’epichlorohydrin
• présence d’ammoniac
• …
2-Caractériser une information
Une bibliothèque est un lieu (-thèque)
qui regroupe des livres (biblio-)
Ce livre se caractérise par :
• un éditeur : Gallimard
• un auteur : Lane Smith
• un titre : « C’est un livre »
• un nombre de pages
• une langue d’écriture
• …
2- Prendre en compte le contexte et l’objectif
Cet objet se caractérise par :
• un assemblage de légo
• des couleurs noir, bleu, gris
• une belle harmonie avec les couleurs de
la chambre de mon fils…
Ce livre se caractérise par :
• une très bonne critique
• son classement en livre jeunesse
• son sujet original sur les mérites du
livre imprimé
2-Caractériser : pour quoi, pour qui, comment ?
•Retrouver l’information•Définir l’information•Récupérer l’information
Pour quoi
•L’utilisateur humain•La machinePour qui
•En stockant les propriétés-données (avec ou sans l’objet)
•En les publiant sous différents formats et médiaComment
3- Exemple
Objectif :
je voudrais
que mon
article soit
lu par mes
pairs
3- Exemple
Je le publie
Je le stocke
3- ExempleJe le décris ------ manuellement
3- ExempleIl est décrit ------ informatiquement
On parle du format de
données de
l’application (ici
ProdInra).
Il est issu d’une
modélisation
intellectuelle puis
informatique (en UML)
3- Exemple
Application BDD
De l’alimentation à la restitution des données
4- Transformer
BDD XML
Tout est transformation de données
4- Transformer
SGBD relationnel
Tout est transformation de données
Caractériser un objet, un document
doit se faire
dans un contexte (implicite)
pour un objectif (implicite)
1ère partie Conclusion 1/4
Concevoir un système d'information
documentaire, c'est expliciter
• le contexte,
• l'objectif
et modéliser (décrire) les objets,
les informations, les documents.
1ère partie Conclusion 2/4
La transformation des données est
partout,
mais elle est cachée à l'utilisateur
1ère partie Conclusion 3/4
Chaque transformation a un coût
humain et financier.
L’avenir est dans les systèmes économes
(ie : optimisation/réduction du nbre de
transformations pour un objectif donné)
1ère partie Conclusion 4/4
1. Du document à l'encodage2. Concevoir une application
documentaire3. L'exposition des données en OAI4. La réutilisation des données
De la caractérisation des données à leur transformation
2ème partie
1- Du document à l’encodageJe caractérise :
Type : Article -> Editorial
Titre : des bibliothèques aux
archives ouvertes
Auteur : Jean-Michel Rauzier
Revue : Documentaliste – SI
Corps du texte : Voici, comme chaque année à pareille époque, un numéro dans lequel les bibliothèques occupent une place plus visible que d’ordinaire – parce qu’il paraît après lecongrès de l’IFLA que précéda de peu celui de l’ABF. Les bibliothèques, moteurs de la diffusion des connaissances et de la construction de la société de l’information : c’estvers l’avenir que l’IFLA avait clairement tourné sa soixante-douzième conférence, moins que jamais repliée sur la bibliothéconomie d’antan et s’affirmant désormais résolument comme « le congrès mondial des bibliothèques et de l’information ». La bibliothèque demain… : loin de s’appesantir avec narcissisme sur un siècle d’existence,l’Association des bibliothécaires français consacrait le congrès de son centenaire à scruter le futur des bibliothèques et du métier dans la société de l’information.
Je caractérise :
Type : Article -> Editorial
Titre : des bibliothèques aux
archives ouvertes
Auteur : Jean-Michel Rauzier
Revue : Documentaliste – SI
Corps du texte : Voici, comme chaque année à pareille époque, un numéro dans lequel les bibliothèques occupent une place plus visible que d’ordinaire – parce qu’il paraît après lecongrès de l’IFLA que précéda de peu celui de l’ABF. Les bibliothèques, moteurs de la diffusion des connaissances et de la construction de la société de l’information : c’estvers l’avenir que l’IFLA avait clairement tourné sa soixante-douzième conférence, moins que jamais repliée sur la bibliothéconomie d’antan et s’affirmant désormais résolument comme « le congrès mondial des bibliothèques et de l’information ». La bibliothèque demain…
J’encode :
(le choix du schéma est important –
voici ce qu’il ne faut pas faire)</type production=« Article »
genre=« Editorial »>
<description>
<titre langue=« FRA » role="original">
Des bibliothèques aux archives ouvertes
</titre>
<auteur>
<prenom>Jean-Michel</prenom>
<nom>Rauzier</nom>
</auteur>
…
1- Du document à l’encodage
• Relationnelle• Native XML• Objet, graphe, no-sql…
Quel type de BDD ?
•MCD•UML
Quelle modélisation ?
•Spécifique•Standard (MODS…)Quel format ?
2- Concevoir une application documentaire
2- Un exemple de diagramme de classe
3- L’exposition des données en OAI
Record (Métadata) format OA
Record (Métadata)Format demenadé
Métadonnées au format de l’archive ouverte
Set n°1
Fichierstexte intégral
Méta données
Archive ouverte
Entrepôt OAI
Interpréteur
Set n°2
Set n°3
Requête OAI (http)
• Le verbe (ici GetRecord)
• Le set de données (optionnel)
• Le format de données (obligatoire)
Transformation
4- La réutilisation des donnéesExemple avec les projets IraLis, Exit, E-LIS portés par CIEPI, the International Centre of Research for Information Strategy and Development
Je m’enregistre
dans IraLis
4- La réutilisation des données
<rdf:RDF>
<foaf:Person rdf:about="FRLIS2192">
<foaf:familyName>Le Hénaff</foaf:familyName>
<foaf:firstName>Diane</foaf:firstName>
<foaf:mbox rdf:resource="mailto:[email protected]"/>
<iralis:anep_classification>LIS</iralis:anep_classification>
<iralis:jcr_classification>INFORMATION SCIENCE </iralis:jcr_classification>
<skos:Collection/>
<skos:prefLabel>Diane Le-Hénaff</skos:prefLabel>
<foaf:mbox rdf:resource="mailto:"/>
</foaf:Person>
</rdf:RDF>
Ma signature telle qu’encodée en RDF dans IraLIS
4- La réutilisation des données
Je m’enregistre dans EXIT en signalant mon IraLIS
Mes publications déposées dans ELIS sont mentionnées
On ne caractérise pas des données
mais un objet, un document, une
information…
2ème partie Conclusion 1/2
On ne transforme pas des données
mais l’encodage de l’objet (format
de données)
2ème partie Conclusion 2/2
Conclusion générale
Le titre de cette présentation est
incorrect (CQFD)
Vous devriez maintenant savoir
pourquoi !