predon mastodons 24jan2014-v04 · 2014-02-04 · big+data:+explosion+des+données+digitales+ 0 20...
TRANSCRIPT
![Page 1: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/1.jpg)
Préserva(on des données scien(fiques
C. Diaconu pour le Groupe d’Etudes PREDON
PREDON
h"p://predon.org
![Page 2: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/2.jpg)
Big data: explosion des données digitales
0 20 40 60 80 100 120 140 160 180 200
Facebook new content per year
Google index
Digital Health records
YouTube videos per year
LHC raw data per year
Clima(c Data Center database
Library of Congres Digital collec(on
Stock database
Tweeter
PB
Cred
it: P. B
uncic, ECFA Worksho
p, 4 Oct. 2013
C.Diaconu 2 PB
![Page 3: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/3.jpg)
Big Scien(fic Data • Scien(fic research observes a drama(c increase in data and
are ques(oning the long term future of this data
Telescope Collec(ng Area
BC72
E691 E665
E791 E831
NA48
ALEPH
RHIC
JLAB
ATLAS/CMS LHC 2012
Babar
H1
BELLE CDF D0
LHC Phase 1
LHC Phase 2
10
100
1000
10000
100000
1000000
10000000
100000000
1E+09
1E+10
1980 1990 2000 2010 2020 2030
C.Diaconu 3
Travail au sein de PREDON
HEP Data Mb
![Page 4: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/4.jpg)
Est-‐ce que les données scien(fiques sont spéciales?
• Riches en informa(on car structurées suivant un plan de recherche et une démarche scien(fique
• De plus en plus diverses, la plus part des disciplines se sont mises à produire massivement des données
• Souvent produites avec des efforts financiers et humains significa(fs (voir gigantesques) – Plus ça coute cher, moins c’est reproduc(ble
• Englobent des connaissances uniques – « Time stamped »
• De plus en plus dans une logique « observatoire »: – Les données con(ennent plus que ce qu’on voulait au départ
• Il est évident qu’on doit réfléchir (à deux fois) sur le sort de ces données – PRESERVATION! C.Diaconu 4
![Page 5: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/5.jpg)
Préserva(on: where is the problem?
C.Diaconu 5
Constat quasi-‐général: Nous pensons que c’est important, Mais le problème est loin d’être traité de maniére sa(sfaisante
![Page 6: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/6.jpg)
C.Diaconu 6
Study over 516 ecology papers published between 1991 and 2011.
![Page 7: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/7.jpg)
Données Scien(fiques • Publica(ons • Documenta(on • Raw • Donées Processées • Meta-‐données • Workflows • Sooware • Diffuse knowledge ….more…
C.Diaconu 7 Co
mplexité
, cou
ts
U(lité
Techno
logie,
métho
dologie
Organisa
(on
![Page 8: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/8.jpg)
Est-‐ce que ça vaut le coup de garder des données « anciennes »
C.Diaconu 8
Fin acquisi(on
Fin collabora(on
« Scien2fic case »
![Page 9: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/9.jpg)
MASTODONS • Stockage et ges(on de données (par exemple, dans le Cloud),
sécurité, confiden(alité. • Calcul intensif sur des grands volumes de données, parallélisme
dirigé par les données. • Visualisa(on de grandes masses de données. • Extrac(on de connaissances, datamining et appren(ssage. • Qualité des données, confiden(alité et sécurité des données. • Problèmes de propriété, de droit d’usage, droit à l’oubli.
• Préserva2on/archivage des données pour les généra2ons futures. – PREDON (PREserva2on des DONnees)
C.Diaconu 9
![Page 10: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/10.jpg)
PREDON: Plan mul(-‐annuel (Dec. 2012)
• Court terme (2012/2013 et après): Anima2on et partenariat – Elargir le champ de réflexion, cons(tuer un consor(um mul(-‐disciplinaire
• Medium terme (2013/2014) : Harmonisa2on et projets R&D – Communica(on: exchanges and workshops – Livre blanc sur la préserva(on et la mise à disposi(on des données
scien(fiques dans un contexte mul(-‐disciplinaire – Démonstrateur accès et préserva(on de données scien(fiques complexes
• Long term (2015/2016) Architecture et pilotage – “Observatoire Na(onal des Données Scien(fiques”
• Coali(on de grands centres de données et projets mul(-‐disciplinaires • Support et suivi des lots de données scien(fiques : accès et préserva(on
Animation Partenariat
Harmonisation R&D Architecture Pilotage
C.Diaconu 10
![Page 11: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/11.jpg)
Groupe d’études PREDON > IN2P3
§ Cristinel Diaconu, Dirk Hofmann, Angélique Pèpe, Magali Damoiseaux, D. Christofol (CPPM, Marseille) § Sabine Kraml (LPSC, Grenoble) § Giovanni Lamanna (LAPP, Annecy) § Volker Beckmann (APC, Centre Francois Arago, Paris 7) > CCIN2P3
§ Ghita Rahal, Jean-Yves Nief (CC-IN2P3) > INSU
§ Christian Surace (LAM/OAMP Cesam, Marseille) > INS2I § Mustapha Lebbah (LIPN, Paris 13) § Salima Benbernou (LIPADE, Paris 5) § Anne Laurent, Sophie Nicoud (LIRMM, Montpellier) > CINES
§ Stéphane Coutin, Marion Massol (CINES, Montpellier) > IRD
§ Thérèse Libourel, Yuan Lin (Espace DEV)
11
Nouveau contacts en 2013 suite aux workshops: Daniel Chateigner, CRISMAT/ENSICAEN, données cristallographie Marc Schaming, Ins(tut de Physique du Globe (CNRS/UNISTRA), IPG Strasbourg Catherine Boisson de l'Observatoire de Meudon / LUTH/INSU CTA Danièle Boucon, expert en préserva(on de données CNES
Prop. 2012
2013
![Page 12: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/12.jpg)
PREDON : complementarité
Volume données
Complexité Diversifica2on des sources
Structura2on au niveau interna2onal
Algorithmes et methodologies pour la preserva2on
IN2P3 HEP +++ +++ + ++ +
INSU, IRD Astrophysics Earth Sciences
++ ++ ++ +++ ++
CINES INS2I IT, Algorithms, workflows
+ ++ +++ + +++
C.Diaconu 12
![Page 13: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/13.jpg)
PREDON 2013 • Ac(ons:
– Réunions téléphoniques – Réunion du groupe de travail PREDON à Montpellier : 17 juin 2013 – Atelier PREDONx sur la préserva(on de données à Marseille 14/15
Novembre 2013 – Par(cipa(on à des groupes de travail interna(onaux sur la
préserva(on de données – Présence dans des colloques et conférences au niveau na(onal (par
exemple les journées Frédocs Octobre 2013) – Démarrage d’un mini-‐projet d’interface de données de physique de
haute énergie au sein d’un projet générique au CINES – Le groupe a déposé un projet ANR en janvier 2013.
• Résultats : – extension du groupe de travail sur des nouvelles disciplines:
cristallographie, sismologie, droit, documenta(on (IST) – publica(on d’un document commun (en impression) – présence dans des media scien(fique (interview du porteur de projet
dans Nature), contribu(on a un livre édité par CNRS – accepta(on d’un workshop proposé par les membres du groupe au
sein de la conférence ICDE2014 C.Diaconu 13
![Page 14: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/14.jpg)
Livre blanc sur la préserva(on de données (« facts finding »)
C.Diaconu 14
![Page 15: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/15.jpg)
Physique des Par(cules Préserva(on d’un système d’accès et calcul à des données complexes (SLAC/Stanford USA)
Système de préserva(on et migra(on Virtualisa(on, valida(on intensive (DESY, Hambourg, Allemagne)
DPHEP: « Project Manager » nommé au CERN en Octobre 2012 (Scien(fic chair: CD) Collabora(on Interna(onale en cours d’installa(on( MoU signé par CERN, DESY,…)
C.Diaconu 15
dphep.org
![Page 16: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/16.jpg)
Exemple projet astrophysique: Virtual Observatories
hwp://www.ivoa.org C.Diaconu 16
![Page 17: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/17.jpg)
à Archivage de données scien(fiques pour des communautés européennes structurées
à Archivage à long terme de données scien(fiques, patrimoniales, administra(ves
à Archivage intermédiaire de données scien(fiques
Assurance qualité OAIS
Compétences archivis(ques Exper(se formats Processus mé(er Ges(on des risques
PAC
ISAAC EUDAT
Les services d’archivage au CINES
Archival exper(se CINES
C.Diaconu 17
![Page 18: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/18.jpg)
Workflows et préserva(on
C.Diaconu 18
Similarité entre les disciplines Besoin d’une approche théorique rigoureuse
![Page 19: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/19.jpg)
Long Term Archiving and CCSDS standards Danièle Boucon, CNES
C.Diaconu 19
Nouveau Contact 2013
The primary objec(ve of the Producer-‐Archive Interface Specifica(on (PAIS) standard is to provide concrete XML files suppor(ng the descrip(on and the control of transfers from a Producer to an Archive.
![Page 20: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/20.jpg)
Crystallography Open Databases and Preserva(on: a World-‐Wide Ini(a(ve
PCOD
sisters
Daniel Chateigner (for the COD Advisory Board)
0
50000
100000
150000
200000
250000
300000
mar
s-03
mar
s-05
mar
s-07
mar
s-09
mar
s-11
mar
s-13
…
Nb entries
“…there is not yet sufficient coherence of experimental metadata standards or na(onal policy to rely on instrumental facili(es to act as permanent archives; -‐there is not sufficient funding for exis(ng crystallographic database organisa(ons (which maintain curated archives of processed experimental data and derived structural data sets) to act as centralised stores of raw data, although they could effec(vely act as centralised metadata catalogues; -‐few ins2tu2onal data repositories yet have the exper(se or resources to store the large quan((es of data involved with the appropriate level of discoverability and linking to derived publica(ons.”
C.Diaconu 20
Nouveau Contact 2013
![Page 21: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/21.jpg)
Seismic Data Preserva(on
Conclusion Preserva2on of seismic data is essen2al, but usually not considered by scien2sts, because it takes resources to document metadata, to read and copy tapes, to convert formats, etc. These tasks should be addressed at na(onal and/or European level. Some European projects (Seiscan/Seiscanex, Geo-‐Seas) demonstrated that it is possible and useful. Repositories at na(onal level should pursue this task with geophysical skills.
Marc SCHAMING, Ins(tut de Physique du Globe (CNRS/UNISTRA), Strasbourg
C.Diaconu 21
Nouveau Contact 2013
![Page 22: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/22.jpg)
Scien(fic Data Preserva(on, Copyright and Open Science
• The best guarantee for ensuring the integrity of a resource is based on property.
• However, isn’t there a public ownership of scien(fic research? – In truth, even if the public authori(es may fundamentally par(cipate
in the scien(fic research, this does not mean, ipso facto, that they own its results.
• …any paper, ar(cle, report, record, thesis, book, graphic, map,... conduc(ng personal choices of a researcher, or expressing his own personality, will be considered as a work of mind […] are copyrightable
• The goal of digital preserva2on of scien2fic data must therefore be reconciled with intellectual property rights.
• Open model of management of intellectual property rights. – Tools: open access licensis (e.g. Crea(ve Commons)
Philippe Mouron, Aix-‐Marseille University, Faculté de droit et de science poli(que
C.Diaconu 22
Nouveau Contact 2013
![Page 23: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/23.jpg)
!
PREDON: Concept demonstrator
• But : « forcer » les fron(ères entre les disciplines, par exemple: – essayer des formats astrophysique (VOT) et des ou(ls de visualisa(on
(Tulip) sur des données HEP – Stocker des données complexes et très « custom » dans un projet de
sauvegarde de données généraliste (ISAAC) C.Diaconu 23
![Page 24: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/24.jpg)
Interface données HEP – ISAAC (CINES)
C.Diaconu 24
![Page 25: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/25.jpg)
Workshop on Data Preserva2on at ICDE 2014
• Coordonnateurs workshop: S.Benbernou, C. Diaconu • hwp://lipade.math-‐info.univ-‐paris5.fr/lops/ • LOPS will be held in conjunc(on with the 30th IEEE
Interna(onal Conference on Data Engineering. Chicago, IL, USA. March 31-‐April 4, 2014.
C.Diaconu 25
![Page 26: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/26.jpg)
PREDON 2014 • Organisa(on Workshop LOPS@ ICDE2014
• Con(nua(on et ini(a(on de nouveaux mini-‐projets et démonstrateurs pour des cas spécifiques de préserva(on de données (stages) – HEP-‐Data @ ISAAC – Formats de données transdisciplinaires
• Réunions du groupe de travail : nouveau contacts, séminaires – Extensions possibles à d’autres domaines (bio, IST, économie) – Aborder des ques(ons communes (cout, persistence, open access, éduca(on,
outreach etc.)
• Organisa(on d’un Atelier sur la préserva(on des données scien(fiques et en rela(on avec la théma(que « Big Data » – Publica(on PREDON: 2015
• Par(cipa(on aux groupes de travail au niveau interna(onal et aux projets et consor(a en cours de cons(tu(on pour des programmes de financement H2020.
C.Diaconu 26
![Page 27: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/27.jpg)
BACKUP
C.Diaconu 27
![Page 28: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/28.jpg)
Site web PREDON h"p://predon.org
C.Diaconu 28
![Page 29: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/29.jpg)
Summary of informa(on from the (pre-‐LHC) experiments
Longévité recherchée: > 10 ans
![Page 30: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/30.jpg)
Opportunités H2020
C.Diaconu 30
![Page 31: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/31.jpg)
Generic arguments • Task forces already in place to address this issue in a generic way (standards)
– e.g. Blue Ribbon, APA, DPC, eSciDir, …
• Scien(fic Data is a major component of the ongoing efforts (complexity)
hwp://www.alliancepermanentaccess.eu hwp://br�.sdsc.edu
C.Diaconu 31
![Page 32: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/32.jpg)
Exemple projet: Data processing & storage in the cloud
LabEx UnivEarths project at APC / François Arago Centre:
-‐ poten(al of the cloud versus classical data processing and storage opportuni(es
-‐ test processing on Francois Arago Centre cluster, compared with Cloud StratusLab
Schema(c descrip(on of the cloud StratusLab, which is a European public cloud project IaaS which started in 2010.
C.Diaconu 32
![Page 33: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/33.jpg)
PREDON: Challenges • Scien2fic Poten2al Challenge: these data sets contain
unexploited informa(on, which may give rise to highly useful for joint, mul(-‐disciplinary project.
• Complexity Challenge: the data collected by the experimental devices considered in the project is unique and encodes a large typology, well beyond the regular, well-‐structured data produced in large quan((es in the industrial world.
• Technological et methodological challenge. The installa(on of procedures, workflows, algorithms for long term data preserva(on, as well as the defini(on of suitable technological frameworks cons(tute novel inves(ga(on domains.
C.Diaconu 33
![Page 34: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+](https://reader033.vdocuments.mx/reader033/viewer/2022060321/5f0d45097e708231d43982bb/html5/thumbnails/34.jpg)
Les données digitales sont fragiles • La capacité de stockage est physiquement dépassée depuis longtemps
C.Diaconu 34