common language resources and technology infrastructure (clarin) présentation le 5 octobre 2011 au...

32
Common Language Resources and Technology Infrastructure (CLARIN) http://clarin.eu Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux, TGIR CORPUS, Paris http://sldr.org/doc/show/PresentationDeClarin.pptx Rédaction : Bernard Bel Laboratoire Parole et langage (LPL, http://lpl-aix.fr ) Speech & Language Data Repository (SLDR, http://sldr.org )

Upload: evrard-piquet

Post on 03-Apr-2015

105 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Common Language Resources and Technology Infrastructure (CLARIN)

http://clarin.eu

Présentation le 5 octobre 2011 auConsortium Corpus oraux et multimodaux, TGIR CORPUS, Paris

http://sldr.org/doc/show/PresentationDeClarin.pptx

Rédaction : Bernard BelLaboratoire Parole et langage (LPL, http://lpl-aix.fr)

Speech & Language Data Repository (SLDR, http://sldr.org)

Page 2: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

• E-Science (ou eScience) désigne une pratique scientifique intensivement computationnelle qui s’appuie sur des environnements de réseaux largement distribués, et/ou qui utilise de très grandes quantités de données en se servant de grilles informatiques (grid computing) : un ensemble de ressources informatiques potentiellement partagées, distribuées, hétérogènes, délocalisées et autonomes.

• Selon J. Taylor, il s’agit à la fois de collaborer globalement dans les domaines clés de la science, et de mettre en place une nouvelle génération d’infrastructures qui rendra possible cette collaboration.

• Pour cela, on a besoin de plateformes pérennes d’un nouveau genre :– qui permettent aux chercheurs de combiner des ressources et des outils afin de

résoudre les grands défis actuels (migrations, crises des cultures et des mentalités) ;– qui augmentent l’efficacité des chercheurs dans leurs multiples petits travaux : 40%

du temps des « travailleurs de la connaissance » est occupé à la recherche de matériaux utiles (d’après Forrester Research).

E-Science

Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010http://www.clarin.gr/files/wittenburg%20presentation-athens.pdf

2

Page 3: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Les objectifs de CLARIN• Que faire ?– Proposer une infrastructure de recherche distribuée de ressources et

outils linguistiques intégrés et interopérables, au service des chercheurs et étudiants en sciences humaines et sociales.

• Comment ?– En permettant la combinaison de centres de ressources numériques

existants et accessibles sur internet dans une fédération partagée ;– En installant des services et des outils linguistiques comme des services

distribués sur une interface web commune.• Utilisation typique :– Un chercheur s’authentifie avec son affiliation professionnelle, puis crée

une collection virtuelle de ressources issues de diverses bases de données (repositories) et effectue une série virtuelle (virtual pipeline) de traitements sur ces données. Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010

http://www.clarin.gr/files/wittenburg%20presentation-athens.pdf3

Page 4: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

• 36 consortium partners• 193 member institutions• 211 members sites (working units)• 33 countries

Implémentation de CLARIN

Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010http://www.clarin.gr/files/wittenburg%20presentation-athens.pdf

4

Page 5: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010http://www.clarin.gr/files/wittenburg%20presentation-athens.pdf

5

Page 6: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

6

Page 7: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/20107

Page 8: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Création de CLARIN-ERIC (1)

• ERIC = European Research Infrastructure Consortium• En octobre 2010, 14 pays et un organisme

international ont signé le Memorandum of Understanding pour la création de CLARIN-ERIC : l’Autriche, la Croatie, la République tchèque, le Danemark, l’Union de la langue néerlandaise (Pays-Bas, Flandre belge, Suriname), l’Estonie, la Finlande, la France, l’Allemagne, la Grèce, la Lettonie, la Lituanie, les Pays-Bas, la Norvège et la Pologne.

Source : CLARIN Newsletter 13 (janvier-juin 2011) 8

Page 9: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Création de CLARIN-ERIC (2)• Le 17-18 mars 2011 s’est tenue une première réunion du Comité de

pilotage. S’y étaient joints le Bureau de coordination stratégique et les experts nationaux. Une deuxième réunion a eu lieu le 15 avril avec pour objectifs de déterminer les conditions de la participation financière des infrastructures de recherche, et d’arriver à un consensus sur l’accord qui sera signé par les représentants des ministres.

• Le 1er mai, la Commission européenne a validé le projet avec ce commentaire : « L’opinion des experts indique que CLARIN ERIC a le potentiel de promouvoir une recherche de premier plan (cutting edge) dans un domaine où les données et les travaux sont actuellement dispersés. »

• Le ministère des Pays-Bas a finalisé les documents et envoyé aux collègues des pays membres une demande de lettre de soutien ainsi que d’un engagement sur le projet définitif qui a été soumis à Bruxelles fin juillet 2011.

Sources : CLARIN Newsletter 13 (janvier-juin 2011), CLARIN Newsflash juillet 2011 9

Page 10: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

ESFRI = European Strategy Forum on Research InfrastructuresSource : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010

http://www.clarin.gr/files/wittenburg%20presentation-athens.pdf10

Page 11: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010http://www.clarin.gr/files/wittenburg%20presentation-athens.pdf

11

Page 12: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Prochain événement CLARIN• SDH 2011 Supporting Digital Humanities:

Answering the unaskable• Conférence 17-18 november 2011, Copenhagen• en coopération avec DARIAH

(Digital Research Infrastructure for the Arts and Humanities)• Dans quelle mesure les Digital Humanities peuvent-elles nous

aider, non seulement à obtenir plus vite et plus facilement des réponses à nos problématiques de recherche, mais aussi à formuler des questions que nous n'aurions jamais été capables de poser si nous n'avions pas eu accès à de grandes quantités de données numériques et à des outils sophistiqués permettant de les analyser ?

12

Page 13: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

DARIAH• The mission of DARIAH is to enhance and support digitally-

enabled research across the humanities and arts. DARIAH aims to develop and maintain an infrastructure in support of ICT-based research practices.

• DARIAH is working with communities of practice to:– Explore and apply ICT-based methods and tools to enable new

research questions to be asked and old questions to be posed in new ways

– Improve research opportunities and outcomes through linking distributed digital source materials of many kinds

– Exchange knowledge, expertise, methodologies and practices across domains and disciplines

13

Page 14: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Annexes

• VLO• ISOcat• Projet d’Equipex ORTOLANG• Archivage pérenne, liens pérennes• Gestion des droits d’accès• Suivi et valorisation• Métadonnées RDF

14

En rouge, les développements du SLDR qui intéressentle plus nos collègues du réseau CLARIN

Page 15: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

• Virtual Language Observatory (VLO, http://www.clarin.eu/vlo/)• C’est un portail qui moissonne les métadonnées de diverses banques de

données (repositories) dans de nombreux formats :– IMDI (ISLE Meta Data Initiative)– OLAC (Open Language Archives Community)– ELRA (European Language Resources Association)– CMDI (Component MetaData Infrastructure) • Il permet de lancer des requêtes par localisation géographique

(geographical browsing) via GoogleEarth, par les catalogues, ou par les facettes: sujet, genre, type de ressource etc.

15

Page 16: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

• VLO utilise les catégories de données standardisées par ISOcat Data Category Registry.http://www.isocat.org, ISO 12620

• According to this model, each data category is assigned a unique administrative identifier, together with information on the status or decision-making process associated with the data category.

• In addition, data category specifications in the DCR contain linguistic descriptions, such as data category definitions, statements of associated value domains, and examples.

• Data category specifications can be associated with a variety of data element names and with language-specific versions of definitions, names, value domains and other attributes.16

Page 17: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Projet ORTOLANG• Projet EQUIPEX http://sldr.org/wiki/ORTOLANG• Soumis en septembre 2011 par ATILF, LPL, LORIA, MoDyCo, LLL et INIST. • ORTOLANG (Open Resources and Tools for Language) a pour but de proposer une

infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui :– permettent, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la modélisation et

le traitement automatique de notre langue de se hisser au meilleur niveau international ;– facilitent l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics

vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ;

– valorisent le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics.

• A pour objectif de généraliser et d’assurer la pérennisation des efforts entrepris à travers les centres de ressources numériques sur la langue : CNRTL (Centre de Ressources Textuelles et Lexicales) et SLDR (Speech and Language Data Repository, anciennement CRDO-Aix) mis en place par le CNRS.

• Nœud français et support à l’engagement de la France au sein de l’infrastructure CLARIN (Common Language Resources and Technology Infrastructure).

• Il servira de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et la TGIR CORPUS.

17

Page 18: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Archiver : pourquoi et comment ?

• L’archivage numérique n’est pas une simple sauvegarde.• Motivation première : préserver des données• Motivation seconde : donner la possibilité de les localiser et de les

réutiliser dans un avenir indéterminé. C’est l’objet de l’archivage pérenne (long-term preservation).

• L’archivage numérique pérenne n’est pas l’ultime étape du stockage des données avant l’oubli ou la perte définitive !

• Trois objectifs principaux :1) conserver le document,2) le rendre accessible, 3) en préserver l’intelligibilité => migration des fomats

Pourquoi archiver ?

18

(Source : CINES)

Comment archiver ?• Ces objectifs sont inscrits sur le très long terme, c’est-à-dire plus de 30 ans.• Pour ces raisons il faut confier les données à une archive institutionnelle plutôt

qu’à un consortium de centres informatiques.• Ceci implique des contraintes techniques et juridiques.

Page 19: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

19

1. Accès centralisé aux données : le service de diffusion est aussi le service de versement.

2. Pas de versionnage systématique.3. Pérennité de 50 (?) ans garantie par le consortium

de centres informatiques, mais que se passera-t-il ensuite ?

4. La migration des formats doit être assurée par les déposants : suivi à long terme ?

Solution « classique » : sauvegardes multiples

Quelques problèmes :

Page 20: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Le modèle OAIS implémenté au SLDR

20

SLDR(Service versant)

Service d’archivage

Service de diffusion

Laboratoire producteur

Producteur individuel

Transfert

Dépôt

Architecture ‘multi-tier’

CINES (Montpellier) Grille TGE-Adonis au CC-IN2P3 (Lyon)

Dépôt Dépôt

Dépôtversion 2

version 1

version 2

version 1

OAIS = Open Archival Information System

Source : Présentation du SLDRhttp://sldr.org/doc/show/SldrPresentation-fr.pdf

Page 21: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

CRDOOrganisation collecte

Formats et métadonnées

Création des SIP

CINESGestion des transferts/validation SIP

Création AIP/archivage des AIPTransfert AIP à IN2P3

Paquets à verser(SIP)

Accusés de réceptionRetours sur anomalieCertificats d’archivage

IN2P3Validation des transferts

Organisation des objets en vue de l’accèsRécupération des métadonnées Dublin

Core/organisation catalogue général

Producteurs

Paquets archivés(AIP) CRDO

Application métier :Interface graphique

Gestion des métadonnées OLAC

Outils de recherche…

Utilisateursscientifiques

Objetspourdiffusion

Schéma du processus d’ensembleModèle OAIS

Infrastructure générique UtilisateursGrand public

TGE ADONIS : gestion ; financement21

Source : Projet pilote pour la mutualisation de l’archivage pérenne des données orales (présentation à la DAF, p.13)

Page 22: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

La vie d’un objet – modèle OAIS sur SLDR/CINES/CC-IN2P3

1. Les objets déposés sur le SLDR sont protégés par des procédures ordinaires de sauvegarde ; ce sont des données courantes auxquelles ont accès le déposant et les personnes spécialement autorisées ;

2. Par la suite, tout objet peut être déposé sur la plateforme de test du service d'archivage (CINES) ;

3. Après validation du paquet à verser (SIP), le CINES transmet un paquet à diffuser (DIP) à la grille TGE-Adonis au CC-IN2P3 ;

4. Plusieurs versions d’un objet peuvent être déposées afin de prendre en compte ses modifications pendant cette période de diffusion ;

5. Une fois que l’objet est devenu stable, il est déposé sur la plateforme de production du service d'archivage et reçoit un identifiant permanent d'archivage (ARK, Archival Resource Key). Il est de nouveau transmis par le CINES au CC-IN2P3 pour assurer sa diffusion ;

6. Le versionnage reste possible mais doit être motivé puisque toutes les versions sont préservées dans l’archive pérenne ;

7. On peut toutefois modifier les métadonnées, les fichiers descriptifs et les droits d’accès sans déposer une nouvelle version.

22Source : Présentation du SLDR

http://sldr.org/doc/show/SldrPresentation-fr.pdf

Page 23: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Des URIs et URLs pérennes (SLDR)

23

L’URL http://sldr.org/sldr000525/get/stream/CG5_22k-tc.txt est indépendante du service de diffusion, de la version de l’objet, et de son stockage dans une archive intermédiaire ou pérenne.

Toutefois, le SLDR n’a pas l’autorité pour garantir une redirection pérenne. D’où la nécessité prochaine de recourir aux PIDs (identifiants pérennes) gérés par EPIC (European Persistent Identifier Consortium).

http://sldr.org/sldr000525/toc

Source : Présentation du SLDRhttp://sldr.org/doc/show/SldrPresentation-fr.pdf

Page 24: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

24

Gestion des droits d’accès

Les données du SLDR sont versées pour leur archivage pérenne dans une archive institutionnelle (le CINES). Les conditions d’accès doivent donc respecter les récentes dispositions (juillet 2008) du Code du patrimoine (français) pour ce qui concerne les archives publiques.

Parmi les résistances des chercheurs à archiver/mutualiser leurs ressources orales/linguistiques, on rencontre presque toujours l’exigence de maîtrise des droits d’accès : d’un côté une injonction de « tout rendre public » — le Code du patrimoine décrète qu’une archive publique devrait être immédiatement accessible —, et de l’autre les questions de droit de l’image, de propriété intellectuelle, secret médical etc.

Or ce n’est pas la législation qui est compliquée, mais les solutions techniques inadaptées qui imposent aux producteurs de données des simplifications incompatibles avec la réalité du terrain.

Speech & Language Data Repository (SLDR)

Source : Présentation du SLDRhttp://sldr.org/doc/show/SldrPresentation-fr.pdf

Page 25: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

25

Gestion des droits d’accès au SLDR

1

23

4• Les objets préservés à long terme au CINES constituent une archive publique.• Par défaut, une archive publique doit être immédiatement en libre accès (article

L213-1). Toutefois, des dérogations à ce principe sont prévues selon l’article L213-2.

• Le refus d’accès (dérogation au principe de libre-communicabilité) doit être explicitement motivé (art. L213-5) (1).

• En cas de dérogation, les ayant-droit peuvent signer des autorisations qui rendent possible l’accès aux documents avant l’expiration de leur période stipulée par la dérogation (2).

• Ces autorisations peuvent être accordées pour une durée limitée (3) et/ou selon des conditions particulières (4).

• Les droits d’accès peuvent être réglés de manière distincte pour chaque document appartenant au même objet.

• Les droits d’accès peuvent être modifiés par une simple mise à jour de métadonnées (sans versionnage de l’objet). Source : Présentation du SLDR

http://sldr.org/doc/show/SldrPresentation-fr.pdf

Page 26: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Les conditions d’accès aux données doivent être rendues explicites dans les métadonnées d’un système interopérable.

26

Page 27: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Suivi et valorisation (SLDR)

27

Téléchargements d’un objet et profils des utilisateurs

Cette liste n’est accessible qu’aux utilisateurs ayant eux-mêmes déposé des objets et/ou téléchargé cet objet.

1) Les utilisateurs

Source : Présentation du SLDRhttp://sldr.org/doc/show/SldrPresentation-fr.pdf

Page 28: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

28

2) Les publications

Suivi et valorisation (SLDR)

Source : Présentation du SLDRhttp://sldr.org/doc/show/SldrPresentation-fr.pdf

Page 29: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

29

• faciliter l’agrégation de projets au delà des frontières institutionnelles (programmes internationaux etc.)

• souligner l’importance des données orales pour le monde de la recherche, la diversité de leurs utilisations, et par conséquent le bénéfice de la mutualisation de leur accès.

Les dispositifs de suivi des personnes, productions, équipes et programmes de recherche associés aux ressources orales ont pour objet de :

Suivi et valorisation (SLDR)

Source : Présentation du SLDRhttp://sldr.org/doc/show/SldrPresentation-fr.pdf

Page 30: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

RDF - Ressource Description Framework • Sur le Web, on utilise le mécanisme des URI (Uniform Ressource Identifier) pour

identifier les ressources.• RDF (Ressource Description Framework) est un modèle de description des données

dans lequel toute ressource est identifiée par une URI, et où l'on peut faire des assertions ou déclarations sur ces ressources sous la forme d'un triplet sujet/prédicat/objet.

• Dans ce triplet, le sujet et le prédicat sont toujours exprimés par des URI. L'objet peut être exprimé sous la forme d'une URI ou d'une chaîne de caractères (littéral).

• Un ensemble de triplets RDF qui décrivent une ressource ou un ensemble de ressources composent un graphe.

• Les données en RDF peuvent être sérialisées en utilisant différentes syntaxes :– la syntaxe RDF/XML, qui correspond à l'expression en XML de données en RDF (cette

syntaxe est la plus fréquente pour les échanges de données et les conversions) ; – les syntaxes spécifiques de type N3, N-Triple et Turtle ;– la syntaxe RDFa qui permet d'encapsuler des données en RDF dans une page HTML.

Source : Principaux standards du Web Sémantique : les URI et RDF (BnF) 30

Page 31: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Source : http://www.slideshare.net/lespetitescases/rdf-en-quelques-slides-presentation

31

Page 32: Common Language Resources and Technology Infrastructure (CLARIN)  Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Voir aussi : http://www.bnf.fr/fr/professionnels/anx_web_s/a.web_semantique_uri_rdf.html32