sfsic14 140605-ibekwe-san juan-big science

53
Big Data, Big machines, Big Science : vers une société sans sujet et sans causalité ? Fidelia Ibekwe-SanJuan

Upload: sfsic-association

Post on 18-Jun-2015

130 views

Category:

Education


0 download

DESCRIPTION

Big Data, Big machines, Big Science : vers une société sans sujet et sans causalité ? Fidelia Ibekwe-SanJuan Elico

TRANSCRIPT

Page 1: Sfsic14 140605-ibekwe-san juan-big science

Big Data, Big machines, Big Science : vers une société sans

sujet et sans causalité ?

Fidelia Ibekwe-SanJuan

Page 2: Sfsic14 140605-ibekwe-san juan-big science

1. Big Data

Page 3: Sfsic14 140605-ibekwe-san juan-big science

Just how big is BIG??

Page 4: Sfsic14 140605-ibekwe-san juan-big science

Just how big is BIG?? En 2011: 1,8 zetta-octets de données numériques disponibles

Page 5: Sfsic14 140605-ibekwe-san juan-big science

Just how big is BIG??

Page 6: Sfsic14 140605-ibekwe-san juan-big science

Just how big is BIG??

Page 7: Sfsic14 140605-ibekwe-san juan-big science

Les 4 ‘V’ du Big Data

http://www.datasciencecentral.com/profiles/blogs/data-veracity

Page 8: Sfsic14 140605-ibekwe-san juan-big science

Bref retour terminologique

Big Data

Linked Data

Open Data

Vers BOLD (Big Open Linked Data)

Page 9: Sfsic14 140605-ibekwe-san juan-big science

2. Big machines

Big Science ?

Page 10: Sfsic14 140605-ibekwe-san juan-big science

- Jim Gray, Microsoft Corporation, 2007

Big Data : 4ème paradigme scientifique ?

Page 11: Sfsic14 140605-ibekwe-san juan-big science

- Jim Gray on eScience, The Fourth Paradigm, Microsoft Corporation, 2009

Page 12: Sfsic14 140605-ibekwe-san juan-big science

La science du 21ème siècle n’est plus “science as usual”

Page 13: Sfsic14 140605-ibekwe-san juan-big science

 e-Science   Architecture de grille informatique en réseau   Collaboration à l’échelle mondiale   Génération et traitement de données massives   Outils sophistiqués d’exploration des données

« e-Science n’est pas une nouvelle discipline scientifique à proprement parler : e-Science est un raccourci pour désigner l’ensemble d’outils et de technologies nécessaires pour soutenir une science dans un environnement collaboratif et réseauté. L’infrastructure de e-Science a pour but de permettre aux scientifiques de faire leurs recherches, plus vite et mieux. » - Jessie Hey (2006)

Page 14: Sfsic14 140605-ibekwe-san juan-big science

Accélérateur de particles : The Large Hadron Collider

• Construit par 10 000 scientifiques • De plus de 100 pays • Questions les lois basiques qui gouvernent les interactions et les forces entre objets élémentaires ? la structure profonde du temps et de l’espace ? l’intersection de la mécanique quantique et la théorie de la relativité générale ?

150 millions de senseurs qui délivrent des données 40 million de fois per seconde. 150 millions de péta-octets de données par an ou 500 exa-octets par jour 500 quintillions (5×1020) octets par jour, soit près de 200 fois plus que toutes les sources de données combinées au monde - http://en.wikipedia.org/wiki/Big_data

Page 15: Sfsic14 140605-ibekwe-san juan-big science

Astronomie Sloan Digital Sky Survey (SDSS)

•  Début 2000 •  Données récoltées : 200 GB par nuit, soit 140 téra-octets depuis le début •  Large Synoptic Survey Telescope (2016) devrait acquérir ce volume de données tous les 5 jours

Page 16: Sfsic14 140605-ibekwe-san juan-big science

Astronomie Sloan Digital Sky Survey (SDSS)

http://www.ascensionnow.co.uk/is-the-universe-a-fractal.html

Page 17: Sfsic14 140605-ibekwe-san juan-big science

Le Big Data et Big Science dans les Humanités (SHS)

Page 18: Sfsic14 140605-ibekwe-san juan-big science

  Défi : « Que feriez-vous avec un million de livres ou un million de pages de journaux ou de photographies ? » étant donné que vous ne pouvez pas les lire même si vous deviez y passer toute une vie ?

  « investiguer comment des techniques informatiques peuvent être appliquées au “big data” afin de changer la nature des recherches en SHS »

http://www.diggingintodata.org/

Page 19: Sfsic14 140605-ibekwe-san juan-big science

3. Les paradoxes du Big Data

Page 20: Sfsic14 140605-ibekwe-san juan-big science

#1 L’industrialisation de la personnalisation

Le Big Data permet de faire du très “small”

Page 21: Sfsic14 140605-ibekwe-san juan-big science

Quand le

rentre en politique

Page 22: Sfsic14 140605-ibekwe-san juan-big science

Présidentielle américaine de 2012

vs

Orca

Narwhal

"The real innovation in 2012 is that we had world-class technologists inside a campaign’’ - Reed (Obama chief Tech)

Page 23: Sfsic14 140605-ibekwe-san juan-big science

Big Data permet de faire de la personnalisation extrême : “Les très grandes données vous permettent d’être très fin. Elles vous permettent de faire des interventions très précises et ciblées. (...) Vous voulez que votre équipe d’analyse des données soit capable de dire aux militants : “Appelez ces numéros, frappez sur ces portes, aller dans ces quartiers.” Le militant n’a pas besoin de savoir pourquoi; ils ont juste besoin de savoir qu’ils frappent sur les bonnes portes.”

Alexis C. Madrigal, When the Nerds Go Marching In, The Atlantic, 16 nov. 2012.

La présidentielle américaine 2012

Page 24: Sfsic14 140605-ibekwe-san juan-big science

#2 L’ère de la “gouvernementalité

algorithmique’’ Rouvroy et Thomas Berns (2013)

Vers une gouvernance sans gouvernés

Page 25: Sfsic14 140605-ibekwe-san juan-big science

"   Big Data or Big Brother?

Page 26: Sfsic14 140605-ibekwe-san juan-big science

http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles.html

« Beware of filter bubbles! » - Eli Pariser

Page 27: Sfsic14 140605-ibekwe-san juan-big science

#3 Vers des savoirs immanents aux données, sans causalité et sans sujets connaissants ?

Page 28: Sfsic14 140605-ibekwe-san juan-big science

« un nouveau rapport au savoir, qui donne “l’impression d’avoir abandonné un petit peu les ambitions de la rationalité moderne, qui visait à comprendre les phénomènes en les reliant à leur cause, au profit d’une rationalité post-moderne, qui est fondée sur une logique purement statistique, donc sur la découverte de corrélations entre des données recueillies dans des contextes extrêmement divers, hétérogènes les uns aux autres, et qui sont reliés entre eux par aucun lien de causalité (...) C’est l’abandon du « savoir causal, la dévaluation de l’expérience sensible elle-même au profit du calcul.»

Rouvroy, Du rôle prédictif des données à la gouvernementalité algorithmique, 16/12/2010. http://www.internetactu.net/2010/12/16/du-role-predictif-des-donnees-a-la-gouvernementalite-algorithmique/

Page 29: Sfsic14 140605-ibekwe-san juan-big science

« la donnée brute est un oxymore et une mauvaise idée. Au contraire, les données doivent être cuisinées avec beaucoup de soin» - Jeffrey Bowker (2005)

  les données sont toujours insérées dans un contexte qu’il faut comprendre pour identifier les limites et les biais   des jeux de données sociales manquent de profondeur et de contexte

Page 30: Sfsic14 140605-ibekwe-san juan-big science

#4 Vers des connaissances scientifiques infalsifiables ?

Page 31: Sfsic14 140605-ibekwe-san juan-big science

Science avant 21ème siècle

Page 32: Sfsic14 140605-ibekwe-san juan-big science

Science du 21ème siècle: une science expérimentale et “ad-hoc”

Page 33: Sfsic14 140605-ibekwe-san juan-big science

#5

La fin des théories scientifiques ?

-  Problème de sur-ajustement important (over-fitting) -  L’exigence de la reproductibilité conduit à la simplification -  de réalités complexes et multidimensionnelles

Page 34: Sfsic14 140605-ibekwe-san juan-big science

Mais c’est ignorer la dimension physique et sociale des savoirs scientifiques. « Je peux encoder une belle simulation sur mon écran dans laquelle il n’y a aucune théorie de la gravité, mais si je tente de conduire ma voiture au-delà du bord d’une falaise, l’empirisme va mordre mon derrière dans ma chute.’’ - John Wilbanks (2009)

Page 35: Sfsic14 140605-ibekwe-san juan-big science

« Si l’idéal de l'apprentissage automatique est de réussir le test de Turing, c'est-à-dire qu’on n’arrive

plus à faire la différence entre le comportement d’une machine et d’un humain, alors la science a

perdu ». - Christophe Prieur (2014) Dominique Boullier, Christophe Prieur, Milad Doueihi, in Atelier Data science ? Colloque pour les 30 ans de la revue : Paris INHA 8 au 10 janvier 2014 http://revue-reseaux.univ-paris-est.fr/fr/actualites-colloque-pour-les-30-ans-de-la-revue-reseaux/document-1775.html

La science a besoin de théories !

Page 36: Sfsic14 140605-ibekwe-san juan-big science

#6 Le mythe des algorithmes

infallibles

Illusions algorithmiques

Page 37: Sfsic14 140605-ibekwe-san juan-big science

 Problème de BIAIS  Données collectées représentent-elles le

phénomène mesuré ?  Ex. analyse des tweets durant l’ouragan Sandy

(octobre 2012) sur la côte est américaine

« Des biais cachés du Big Data » - Kate Crawford (2012)

Page 38: Sfsic14 140605-ibekwe-san juan-big science

 Problème de SIGNAL

 “La carte n’est pas le territoire” Alfred Korzybski (1956)

 Même les cartes ne sont pas neutres, elles peuvent être partisanes !

« Des biais cachés du Big Data » - Kate Crawford

Page 39: Sfsic14 140605-ibekwe-san juan-big science

  Problème d’ECHELLE -  Vision panoramique d’un phénomène -  Il y a des illusions de perspective -  Manque de profondeur “Travailler avec le big data, c’est voir le monde à 30 000m d’altitude.”

« Des biais cachés du Big Data » - Kate Crawford

Page 40: Sfsic14 140605-ibekwe-san juan-big science

  Problème d’ECHELLE

« Des biais cachés du Big Data » - Kate Crawford

Un vieux problème qui oppose sciences physiques et sciences sociales depuis le 19ème siècle - Gabriel Tarde, criminologiste.

Page 41: Sfsic14 140605-ibekwe-san juan-big science

  Problème d’ECHELLE

« Des biais cachés du Big Data » - Kate Crawford

“C’est toujours la même erreur qui se fait jour : celle de croire que, pour voir peu à peu apparaître la régularité, l’ordre, la marche logique, dans les faits sociaux, il faut sortir de leur détail, essentiellement irrégulier, et s’élever très haut jusqu’à embrasser d’une vue panoramique de vastes ensembles » - Gabriel Tarde, Les lois sociales, 1898 »

Page 42: Sfsic14 140605-ibekwe-san juan-big science

  Problème d’ECHELLE : en langage Latour…

« Des biais cachés du Big Data »

“To be a good sociologist one should refuse to go up, to take a larger view, to compile huge vistas! Look down, you sociologists. Be even more blind, even more narrow, even more down to earth, even more myopic » http://bruno-latour.fr/sites/default/files/82-TARDE-JOYCE-SOCIAL-GB.pdf (p. 9) »

  Nécessité de demander le “pourquoi” ou le “comment” et non seulement le “combien”.

Page 43: Sfsic14 140605-ibekwe-san juan-big science

  Le deuil de l’exhaustivité   Le deuil de la représentativité   Le deuil de l’objectivité

« 3 Deuils du Big Data » - Dominique Bouiller (2014)

Page 44: Sfsic14 140605-ibekwe-san juan-big science

  Attention au data fundamentalism   Attention au data mythology

  Conjuguer Big Data et Small Data

  Conjuguer la science du Big data et méthodes qualtiatives traditionnelles en sciences sociales  Tiny data can be cute!

Des illusions algorithmiques - Kate Crawford

Page 45: Sfsic14 140605-ibekwe-san juan-big science

« J’ai vu le 4ème paradigme, et c’est nous ! »

- John Wilbanks (2009)

Page 46: Sfsic14 140605-ibekwe-san juan-big science

Merci de votre attention !

Page 47: Sfsic14 140605-ibekwe-san juan-big science

Des alternatifs ?

Page 48: Sfsic14 140605-ibekwe-san juan-big science

Infant science

Page 49: Sfsic14 140605-ibekwe-san juan-big science

Kid science

http://old.richarddawkins.net/articles/646693-17-year-old-girl-builds-artificial-brain-to-detect-breast-cancer

Page 50: Sfsic14 140605-ibekwe-san juan-big science

Citizen Science

http://www.galaxyzoo.org/

We are trying something new! Come help us understand a very specific type of galaxy and experience science from start to end. Take part

Page 51: Sfsic14 140605-ibekwe-san juan-big science

Citizen Science

Universit of Cornel Lab of Ornithology - http://ebird.org/content/ebird/

Page 52: Sfsic14 140605-ibekwe-san juan-big science

Citizen Science

www.tela-botanica.org

Créer et diffuser des biens communs au service de la connaissance et de la protection de l’environnement

Page 53: Sfsic14 140605-ibekwe-san juan-big science

Crowdsourcing culturel

Flickr Commons : espace de co-construction d’artefacts culturels numériques entre musées, bibliothèques & archives et le public