predon mastodons 24jan2014-v04 · 2014-02-04 · big+data:+explosion+des+données+digitales+ 0 20...

34
Préserva(on des données scien(fiques C. Diaconu pour le Groupe d’Etudes PREDON PREDON h"p://predon.org

Upload: others

Post on 25-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Préserva(on  des  données  scien(fiques    

C.  Diaconu  pour  le  Groupe  d’Etudes  PREDON  

PREDON

h"p://predon.org    

Page 2: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Big  data:  explosion  des  données  digitales  

0   20   40   60   80   100   120   140   160   180   200  

Facebook  new  content  per  year  

Google  index  

Digital  Health  records  

YouTube  videos  per  year  

LHC  raw  data  per  year  

Clima(c  Data  Center  database  

Library  of  Congres  Digital  collec(on  

Stock  database  

Tweeter  

PB  

Cred

it:  P.  B

uncic,  ECFA  Worksho

p,  4  Oct.  2013  

C.Diaconu   2  PB  

Page 3: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Big  Scien(fic  Data    •  Scien(fic  research  observes  a  drama(c  increase  in  data  and  

are  ques(oning  the  long  term  future  of  this  data  

Telescope  Collec(ng  Area  

BC72  

E691  E665  

E791  E831  

NA48  

ALEPH  

RHIC  

JLAB  

ATLAS/CMS    LHC  2012  

Babar  

H1  

BELLE  CDF  D0  

LHC  Phase  1  

LHC  Phase  2  

10  

100  

1000  

10000  

100000  

1000000  

10000000  

100000000  

1E+09  

1E+10  

1980   1990   2000   2010   2020   2030  

C.Diaconu   3  

Travail  au  sein  de  PREDON  

HEP  Data  Mb  

Page 4: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Est-­‐ce  que  les  données  scien(fiques  sont  spéciales?  

•  Riches  en  informa(on  car  structurées  suivant  un  plan  de  recherche  et  une  démarche  scien(fique  

•  De  plus  en  plus  diverses,  la  plus  part  des  disciplines  se  sont  mises  à  produire  massivement  des  données  

•  Souvent  produites  avec  des  efforts  financiers  et  humains  significa(fs  (voir  gigantesques)  –  Plus  ça  coute  cher,  moins  c’est  reproduc(ble  

•  Englobent  des  connaissances  uniques  –  «  Time  stamped  »      

•  De  plus  en  plus  dans  une  logique  «  observatoire  »:  –  Les  données  con(ennent  plus  que  ce  qu’on  voulait  au  départ  

•  Il  est  évident  qu’on  doit  réfléchir  (à  deux  fois)  sur  le  sort  de  ces  données  –  PRESERVATION!     C.Diaconu   4  

Page 5: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Préserva(on:  where  is  the  problem?  

C.Diaconu   5  

Constat  quasi-­‐général:    Nous  pensons  que  c’est  important,    Mais  le  problème  est  loin  d’être  traité  de  maniére  sa(sfaisante  

Page 6: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

C.Diaconu   6  

Study  over  516  ecology  papers  published  between  1991  and  2011.  

Page 7: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Données  Scien(fiques  •  Publica(ons  •  Documenta(on  •  Raw  •  Donées  Processées    •  Meta-­‐données  •  Workflows  •  Sooware  •  Diffuse  knowledge  ….more…  

C.Diaconu   7  Co

mplexité

,  cou

ts  

U(lité

 

Techno

logie,  

métho

dologie  

Organisa

(on  

Page 8: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Est-­‐ce  que  ça  vaut  le  coup  de  garder  des  données  «  anciennes  »  

C.Diaconu   8  

Fin    acquisi(on  

Fin    collabora(on  

«  Scien2fic  case  »  

Page 9: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

MASTODONS  •  Stockage  et  ges(on  de  données  (par  exemple,  dans  le  Cloud),  

sécurité,  confiden(alité.  •  Calcul  intensif  sur  des  grands  volumes  de  données,  parallélisme  

dirigé  par  les  données.  •  Visualisa(on  de  grandes  masses  de  données.  •  Extrac(on  de  connaissances,  datamining  et  appren(ssage.  •  Qualité  des  données,  confiden(alité  et  sécurité  des  données.  •  Problèmes  de  propriété,  de  droit  d’usage,  droit  à  l’oubli.  

•  Préserva2on/archivage  des  données  pour  les  généra2ons  futures.  – PREDON    (PREserva2on  des  DONnees)    

C.Diaconu   9  

Page 10: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

PREDON:  Plan  mul(-­‐annuel  (Dec.  2012)  

•  Court  terme  (2012/2013  et  après):  Anima2on  et  partenariat  –  Elargir  le  champ  de  réflexion,  cons(tuer  un  consor(um  mul(-­‐disciplinaire    

•  Medium  terme  (2013/2014)  :  Harmonisa2on  et  projets  R&D  –  Communica(on:  exchanges  and  workshops    –  Livre  blanc  sur  la  préserva(on  et  la  mise  à  disposi(on  des  données  

scien(fiques  dans  un  contexte  mul(-­‐disciplinaire  –  Démonstrateur  accès  et  préserva(on  de  données  scien(fiques  complexes    

•  Long  term  (2015/2016)  Architecture  et  pilotage  –   “Observatoire  Na(onal  des  Données  Scien(fiques”  

•  Coali(on  de  grands  centres  de  données  et  projets    mul(-­‐disciplinaires  •  Support  et  suivi  des  lots  de  données  scien(fiques  :  accès  et  préserva(on  

Animation Partenariat

Harmonisation R&D Architecture Pilotage

C.Diaconu   10  

Page 11: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Groupe  d’études  PREDON  > IN2P3

§ Cristinel Diaconu, Dirk Hofmann, Angélique Pèpe, Magali Damoiseaux, D. Christofol (CPPM, Marseille) § Sabine Kraml (LPSC, Grenoble) § Giovanni Lamanna (LAPP, Annecy) § Volker Beckmann (APC, Centre Francois Arago, Paris 7) > CCIN2P3

§ Ghita Rahal, Jean-Yves Nief (CC-IN2P3) > INSU

§ Christian Surace (LAM/OAMP Cesam, Marseille) > INS2I § Mustapha Lebbah (LIPN, Paris 13) § Salima Benbernou (LIPADE, Paris 5) § Anne Laurent, Sophie Nicoud (LIRMM, Montpellier) > CINES

§ Stéphane Coutin, Marion Massol (CINES, Montpellier) > IRD

§ Thérèse Libourel, Yuan Lin (Espace DEV)

11  

Nouveau  contacts  en  2013  suite  aux  workshops:  Daniel  Chateigner,  CRISMAT/ENSICAEN,  données  cristallographie  Marc  Schaming,  Ins(tut  de  Physique  du  Globe  (CNRS/UNISTRA),  IPG  Strasbourg      Catherine  Boisson  de  l'Observatoire  de  Meudon  /  LUTH/INSU    CTA  Danièle  Boucon,  expert  en  préserva(on  de  données  CNES  

Prop.    2012  

 2013  

Page 12: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

PREDON  :  complementarité  

Volume  données  

Complexité   Diversifica2on  des  sources  

Structura2on  au  niveau  interna2onal  

Algorithmes  et  methodologies  pour  la  preserva2on  

IN2P3  HEP   +++   +++   +   ++   +  

INSU,  IRD  Astrophysics  Earth  Sciences  

++   ++   ++   +++   ++  

CINES  INS2I  IT,  Algorithms,  workflows  

+   ++   +++   +   +++  

C.Diaconu   12  

Page 13: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

PREDON  2013  •  Ac(ons:  

–  Réunions  téléphoniques  –  Réunion  du  groupe  de  travail  PREDON  à  Montpellier  :  17  juin  2013  –  Atelier  PREDONx  sur  la  préserva(on  de  données  à  Marseille  14/15  

Novembre  2013  –  Par(cipa(on  à  des  groupes  de  travail  interna(onaux  sur  la  

préserva(on  de  données  –  Présence  dans  des  colloques  et  conférences  au  niveau  na(onal  (par  

exemple  les  journées  Frédocs  Octobre  2013)  –  Démarrage  d’un  mini-­‐projet  d’interface  de  données  de  physique  de  

haute  énergie  au  sein  d’un  projet  générique  au  CINES  –  Le  groupe  a  déposé  un  projet  ANR  en  janvier  2013.  

•  Résultats    :  –  extension  du  groupe  de  travail  sur  des  nouvelles  disciplines:  

cristallographie,  sismologie,  droit,  documenta(on  (IST)  –  publica(on  d’un  document  commun  (en  impression)  –  présence  dans  des  media  scien(fique  (interview  du  porteur  de  projet  

dans  Nature),  contribu(on  a  un  livre  édité  par  CNRS    –  accepta(on  d’un  workshop  proposé  par  les  membres  du  groupe  au  

sein  de  la  conférence  ICDE2014  C.Diaconu   13  

Page 14: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Livre  blanc  sur  la  préserva(on  de  données  («  facts  finding  »)  

C.Diaconu   14  

Page 15: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Physique  des  Par(cules  Préserva(on  d’un  système  d’accès    et  calcul  à  des  données  complexes  (SLAC/Stanford  USA)  

Système  de  préserva(on  et  migra(on  Virtualisa(on,  valida(on  intensive    (DESY,  Hambourg,  Allemagne)  

   DPHEP:  «  Project  Manager  »  nommé  au  CERN  en  Octobre  2012  (Scien(fic  chair:  CD)  Collabora(on  Interna(onale  en  cours  d’installa(on(  MoU  signé  par  CERN,  DESY,…)  

C.Diaconu   15  

dphep.org  

Page 16: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Exemple  projet  astrophysique:  Virtual  Observatories  

hwp://www.ivoa.org   C.Diaconu   16  

Page 17: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

à   Archivage  de  données          scien(fiques  pour    des  communautés  européennes  structurées  

à  Archivage  à  long  terme  de  données    scien(fiques,  patrimoniales,                administra(ves  

à   Archivage  intermédiaire  de                données  scien(fiques  

Assurance  qualité  OAIS  

Compétences  archivis(ques  Exper(se  formats  Processus  mé(er  Ges(on  des  risques  

     

PAC  

ISAAC   EUDAT  

Les  services  d’archivage  au  CINES  

Archival  exper(se  CINES  

C.Diaconu   17  

Page 18: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Workflows  et  préserva(on  

C.Diaconu   18  

Similarité  entre  les  disciplines    Besoin  d’une  approche  théorique  rigoureuse  

Page 19: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Long  Term  Archiving  and  CCSDS  standards                  Danièle  Boucon,  CNES    

C.Diaconu   19  

Nouveau    Contact  2013  

The  primary  objec(ve  of  the  Producer-­‐Archive  Interface  Specifica(on  (PAIS)  standard  is  to  provide  concrete  XML  files  suppor(ng  the  descrip(on  and  the  control  of  transfers  from  a  Producer  to  an  Archive.  

Page 20: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Crystallography  Open  Databases  and  Preserva(on:  a  World-­‐Wide  Ini(a(ve  

 

PCOD  

 sisters  

Daniel  Chateigner  (for  the  COD  Advisory  Board)    

0

50000

100000

150000

200000

250000

300000

mar

s-03

mar

s-05

mar

s-07

mar

s-09

mar

s-11

mar

s-13

Nb entries

“…there  is  not  yet  sufficient  coherence  of  experimental  metadata  standards  or  na(onal  policy  to  rely  on  instrumental  facili(es  to  act  as  permanent  archives;    -­‐there  is  not  sufficient  funding  for  exis(ng  crystallographic  database  organisa(ons  (which  maintain  curated  archives  of  processed  experimental  data  and  derived  structural  data  sets)  to  act  as  centralised  stores  of  raw  data,  although  they  could  effec(vely  act  as  centralised  metadata  catalogues;    -­‐few  ins2tu2onal  data  repositories  yet  have  the  exper(se  or  resources  to  store  the  large  quan((es  of  data  involved  with  the  appropriate  level  of  discoverability  and  linking  to  derived  publica(ons.”  

C.Diaconu   20  

Nouveau    Contact  2013  

Page 21: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Seismic  Data  Preserva(on    

Conclusion  Preserva2on  of  seismic  data  is  essen2al,  but  usually  not  considered  by  scien2sts,  because  it  takes  resources  to  document  metadata,  to  read  and  copy  tapes,  to  convert  formats,  etc.  These  tasks  should  be  addressed  at  na(onal  and/or  European  level.  Some  European  projects  (Seiscan/Seiscanex,  Geo-­‐Seas)  demonstrated  that  it  is  possible  and  useful.  Repositories  at  na(onal  level  should  pursue  this  task  with  geophysical  skills.  

Marc  SCHAMING,  Ins(tut  de  Physique  du  Globe  (CNRS/UNISTRA),  Strasbourg    

C.Diaconu   21  

Nouveau    Contact  2013  

Page 22: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Scien(fic  Data  Preserva(on,    Copyright  and  Open  Science  

•  The  best  guarantee  for  ensuring  the  integrity  of  a  resource  is  based  on  property.    

•  However,  isn’t  there  a  public  ownership  of  scien(fic  research?    –  In  truth,  even  if  the  public  authori(es  may  fundamentally  par(cipate  

in  the  scien(fic  research,  this  does  not  mean,  ipso  facto,  that  they  own  its  results.    

•  …any  paper,  ar(cle,  report,  record,  thesis,  book,  graphic,  map,...  conduc(ng  personal  choices  of  a  researcher,  or  expressing  his  own  personality,  will  be  considered  as  a  work  of  mind  […]  are  copyrightable    

•  The  goal  of  digital  preserva2on  of  scien2fic  data  must  therefore  be  reconciled  with  intellectual  property  rights.    

•  Open  model  of  management  of  intellectual  property  rights.    –  Tools:  open  access  licensis  (e.g.  Crea(ve  Commons)  

Philippe  Mouron,  Aix-­‐Marseille  University,  Faculté  de  droit  et  de  science  poli(que  

C.Diaconu   22  

Nouveau    Contact  2013  

Page 23: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

!

PREDON:  Concept  demonstrator  

•  But  :  «  forcer  »  les  fron(ères  entre  les  disciplines,  par  exemple:  –  essayer  des  formats  astrophysique  (VOT)  et  des  ou(ls  de  visualisa(on  

(Tulip)  sur  des  données  HEP  –  Stocker  des  données  complexes  et  très  «  custom  »  dans  un  projet  de  

sauvegarde  de  données  généraliste  (ISAAC)  C.Diaconu   23  

Page 24: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Interface  données  HEP  –  ISAAC  (CINES)  

C.Diaconu   24  

Page 25: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Workshop  on  Data  Preserva2on  at  ICDE  2014  

•  Coordonnateurs  workshop:  S.Benbernou,  C.  Diaconu  •  hwp://lipade.math-­‐info.univ-­‐paris5.fr/lops/  •  LOPS  will  be  held  in  conjunc(on  with  the  30th  IEEE  

Interna(onal  Conference  on  Data  Engineering.  Chicago,  IL,  USA.  March  31-­‐April  4,  2014.  

C.Diaconu   25  

Page 26: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

PREDON  2014  •  Organisa(on  Workshop  LOPS@  ICDE2014  

•  Con(nua(on  et  ini(a(on  de  nouveaux  mini-­‐projets  et  démonstrateurs  pour  des  cas  spécifiques  de  préserva(on  de  données  (stages)  –  HEP-­‐Data  @  ISAAC  –  Formats  de  données  transdisciplinaires      

•  Réunions  du  groupe  de  travail  :  nouveau  contacts,  séminaires  –  Extensions  possibles  à  d’autres  domaines  (bio,    IST,  économie)  –  Aborder  des  ques(ons  communes  (cout,  persistence,  open  access,  éduca(on,  

outreach  etc.)  

•  Organisa(on  d’un  Atelier  sur  la  préserva(on  des  données  scien(fiques  et  en  rela(on  avec  la  théma(que  «  Big  Data  »  –  Publica(on  PREDON:  2015    

•  Par(cipa(on  aux  groupes  de  travail  au  niveau  interna(onal  et  aux  projets  et  consor(a  en  cours  de  cons(tu(on  pour  des  programmes  de  financement  H2020.  

C.Diaconu   26  

Page 27: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

BACKUP  

C.Diaconu   27  

Page 28: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Site  web  PREDON  h"p://predon.org    

C.Diaconu   28  

Page 29: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Summary  of  informa(on  from  the  (pre-­‐LHC)  experiments  

Longévité  recherchée:  >  10  ans  

Page 30: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Opportunités  H2020  

C.Diaconu   30  

Page 31: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Generic  arguments  •  Task  forces  already  in  place  to  address  this  issue  in  a  generic  way  (standards)  

–  e.g.  Blue  Ribbon,  APA,  DPC,  eSciDir,  …  

•  Scien(fic  Data  is  a  major  component  of  the  ongoing  efforts  (complexity)  

hwp://www.alliancepermanentaccess.eu  hwp://br�.sdsc.edu    

C.Diaconu   31  

Page 32: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Exemple projet: Data processing & storage in the cloud

LabEx  UnivEarths  project  at  APC  /  François  Arago  Centre:  

     -­‐  poten(al  of  the  cloud  versus  classical  data  processing  and  storage  opportuni(es  

     -­‐  test  processing  on  Francois  Arago  Centre  cluster,  compared  with  Cloud  StratusLab  

Schema(c  descrip(on  of  the  cloud  StratusLab,  which  is  a  European  public  cloud  project  IaaS  which  started  in  2010.    

C.Diaconu   32  

Page 33: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

PREDON:  Challenges    •  Scien2fic  Poten2al  Challenge:  these  data  sets  contain  

unexploited  informa(on,  which  may  give  rise  to  highly  useful  for  joint,  mul(-­‐disciplinary  project.    

•  Complexity  Challenge:  the  data  collected  by  the  experimental  devices  considered  in  the  project  is  unique  and  encodes  a  large  typology,  well  beyond  the  regular,  well-­‐structured  data  produced  in  large  quan((es  in  the  industrial  world.  

•  Technological  et  methodological  challenge.  The  installa(on  of  procedures,  workflows,  algorithms  for  long  term  data  preserva(on,  as  well  as  the  defini(on  of  suitable  technological  frameworks  cons(tute  novel  inves(ga(on  domains.  

C.Diaconu   33  

Page 34: PREDON MASTODONS 24JAN2014-V04 · 2014-02-04 · Big+data:+explosion+des+données+digitales+ 0 20 40 60 80 100 120 140 160 180 200 Facebook+new+contentper+year+ Googleindex Digital+Health+records+

Les  données  digitales  sont  fragiles  •  La  capacité  de  stockage  est  physiquement  dépassée  depuis  longtemps    

C.Diaconu   34