la nature des données numériques sous-groupe de travail sur les fichiers de données numériques...
TRANSCRIPT
La nature des données numériques
Sous-groupe de travail sur lesfichiers de données numériques
Richard BoilyAtelier IDD/CREPUQ
Québec, le 5 février 1998: Montréal, le 6 février 1998
Sous-groupe de travail sur les fichiers de données numériques
2
Nature des données numériques :de quoi va-t-on parler?
Sous-groupe de travail sur les fichiers de données numériques
3
Sous-groupe de travail sur les fichiers de données numériques
4
Allez, va !, et ne discute plus!
Sous-groupe de travail sur les fichiers de données numériques
5
Snif! Snif!
Sous-groupe de travail sur les fichiers de données numériques
6
Sous-groupe de travail sur les fichiers de données numériques
7
Sous-groupe de travail sur les fichiers de données numériques
8
Sous-groupe de travail sur les fichiers de données numériques
9
65467646767649687
Calculs etméthodes statistiques
Formules
Sous-groupe de travail sur les fichiers de données numériques
10
Sous-groupe de travail sur les fichiers de données numériques
11
Sous-groupe de travail sur les fichiers de données numériques
12
Nature des données numériques :de quoi va-t-on parler?
Sous-groupe de travail sur les fichiers de données numériques
13
Nature des données numériques
• Ce que sont les données numériques
• La collecte des données
• Les formes et les caractéristiques
• La documentation
• L’Initiative de démocratisation des données (IDD) - Statistique Canada
Sous-groupe de travail sur les fichiers de données numériques
14
Les données numériques se situent au cœur du processus d’information.
Nature des données numériques :de quoi parle-t-on?
Information
Production Utilisation
Sous-groupe de travail sur les fichiers de données numériques
15
Nature des données numériques :de quoi parle-t-on?
Peu importe le sujet, les données numériques peuvent être associées à différents points de vue ou à diverses approches.
Avortement :• éthique ou religieux• littéraire• médical• scientifique• social
Sous-groupe de travail sur les fichiers de données numériques
16
Nature des données numériques :de quoi parle-t-on?
• Les changements climatiques, le tourisme et … le développement régional
• Les médias et le développement social
• Les phénomènes religieux
• La qualification et l’emploi
• La consommation de drogue
• L’union libre
Sous-groupe de travail sur les fichiers de données numériques
17
Nature des données numériques :de quoi parle-t-on?
• Une association de protection des consommateurs évalue la durabilité de différentes marques d’ampoules électriques.
• Dans une étude sociologique, on s’intéresse à l’effet des programmes d’information et de sensibilisation aux méthodes de contraception. Pour établir un portrait de la situation, un sondage d’opinion est réalisé parmi les étudiants de l’université sur la question de l’avortement.
• La vie de couple s’est considérablement modifiée au Canada au cours des dernières décennies. Comment le phénomène de l’union libre modifie-t-il les comportements?
Sous-groupe de travail sur les fichiers de données numériques
18
Nature des données numériques :de quoi parle-t-on?
Définition :• « La statistique est l’étude des variations observables.
Sans variations, il n’y a pas de statistique et sans observations, encore moins.– Observations :
• de la durée de vie des ampoules (du mouvement des planètes, des espèces vivantes)
• des opinions (sur l’avortement)• des phénomènes sociaux (vie de couple)
Sous-groupe de travail sur les fichiers de données numériques
19
Nature des données numériques :de quoi parle-t-on?
Définition :• « La statistique est l’étude des variations observables. Sans
variations, il n’y a pas de statistique et sans observations, encore moins.
• C’est à l’aide d’observations qu’on appréhende le monde qui nous entoure, autant physique et biologique qu’économique et social.
• Et c’est à partir d’observations de phénomènes et de relations entre ces observations que s’élaborent des hypothèses explicatives qui se transforment éventuellement en théories. Le mot théorie ne nous vient-il pas du grec theôrein qui signifie précisément « observer » ».
Sous-groupe de travail sur les fichiers de données numériques
20
Nature des données numériques :de quoi parle-t-on?
• « La statistique est l’étude des variations observables. Sans variations, il n’y a pas de statistique et sans observations, encore moins ».
• Le but de toute étude statistique est d’obtenir une information significative à partir de données qui, au premier abord, peuvent sembler disparates.
• La première étape de la recherche d’information est donc la cueillette de données.
Sous-groupe de travail sur les fichiers de données numériques
21
La collecte de données
On recueille généralement ces données par le biais :
• d’observations des phénomènes naturels :
– enregistrement quotidien et en plusieurs endroits des données météorologiques.
Sous-groupe de travail sur les fichiers de données numériques
22
La collecte de données
On recueille généralement ces données par le biais :
– d’observations des phénomènes naturels
– d’expériences scientifiques :
• en agriculture, évaluation de nouveaux fertilisants
• test de qualité des produits industriels (ampoules électriques)
Sous-groupe de travail sur les fichiers de données numériques
23
La collecte de données
On recueille généralement ces données par le biais :• d’observations des phénomènes naturels• d’expériences scientifiques• d’enquêtes et de sondages
– recensements– procédures d’admission– indices boursiers et autres statistiques financières– bilans financiers annuels des entreprises– comptes nationaux des gouvernements– sondages d’opinion (politiques, comportements
personnels, consommation, habitudes sexuelles, physiques, culturelles)
Sous-groupe de travail sur les fichiers de données numériques
24
La collecte de données :notion de variable statistique
À chaque mesure que l’on veut prendre, ou à chaque question spécifique que l’on pose, correspond une variable statistique s’il y a effectivement moyen de prendre des mesures ou d’obtenir des réponses, c’est-à-dire de faire des observations.
Sous-groupe de travail sur les fichiers de données numériques
25
La collecte de données :notion de variable statistique
Définition :« Une variable statistique est une caractéristique susceptible de
variations observables. »
La mesure d’une caractéristique peut varier :• d’un moment à l’autre;• d’un lieu à l’autre;• d’un objet à l’autre (ampoules).La réponse à une question concernant une caractéristique peut
varier :• d’une personne à une autre (étudiants et étudiantes);• d’un organisme à un autre.
Sous-groupe de travail sur les fichiers de données numériques
26
La collecte de données :notion de variable statistique
• S’il y a variations, cela signifie qu’une variable peut prendre plusieurs valeurs.
• On entend explicitement par valeurs les mesures distinctes d’une caractéristique donnée.
• On distingue :– les valeurs possibles d’une variable, i.e. les
résultats possibles a priori, et– les valeurs observées, i.e. les résultats observés
a posteriori.
Sous-groupe de travail sur les fichiers de données numériques
27
La collecte de données :notion de variable statistique
Valeurs possibles :• Durées des ampoules électriques : un nombre positif
quelconque.• Opinions sur l’avortement : pour, contre, abstention.• Mode de vie familiale :
– marié, sans enfant– marié, avec enfant(s)– en union libre, sans enfant– en union libre, avec enfant(s)– divorcé et remarié, sans enfant– etc...
Sous-groupe de travail sur les fichiers de données numériques
28
La collecte de données :notion de population
Nous avons établi précédemment qu’une variable statistique peut varier d’une personne à une autre, d’un objet à un autre, d’une entreprise à une autre, d’un lieu à un autre, d’un moment à un autre. On dira simplement d’un individu à un autre et, dans nos exemples, un individu sera :
– une ampoule électrique
– un étudiant
– une personne (susceptible de vivre en union)
Sous-groupe de travail sur les fichiers de données numériques
29
La collecte de données :notion de population
Dans la définition complète d’une variable statistique, on doit préciser non seulement pour quel type d’individu, mais aussi pour quel groupe d’individus on considère cette variable. L’ensemble des individus considérés pour fins d’observations est appelé une population.– Les ampoules électriques de marque x, y, z ...– Les étudiants de l’Université ...– Les personnes (susceptibles de vivre en union) au
Canada
Sous-groupe de travail sur les fichiers de données numériques
30
Formes et caractéristiquesdes données : microdonnées
Données brutes ou microdonnées :
résultats immédiats d’observations de variables statistiques qui n’ont été soumis à aucun traitement, ni à aucune modification.
L’unité d’analyse est alors l’individu.
Sous-groupe de travail sur les fichiers de données numériques
31
Formes et caractéristiquesdes données : microdonnées
Durabilité des ampoules électriques (heures)Marque X Marque Y Marque Z
850 1 000 8951 500 1 510 9001 200 1 415 1 500
900 1 100 825825 1 050 950
1 490 1 050 1 0101 000 995 1 3001 510 1 300 1 410
895 1 100 990875 1 200 890
Sous-groupe de travail sur les fichiers de données numériques
32
Formes et caractéristiquesdes données : microdonnées
Opinions des étudiants de l’Université …sur la question de l’avortement
Pour, contre, contre, pour, abstention, abstention, abstention, pour, pour,abstention, contre, pour, pour, abstention, contre, abstention, pour, contre,pour, pour, pour, contre, pour, contre, abstention, pour, contre, pour,abstention, contre, pour, pour, pour, contre, abstention, contre, abstention,pour, pour, pour, contre, pour, contre, abstention, pour, contre, pour,abstention, contre, pour, pour, pour, contre, abstention, contre, abstention,abstention, pour, pour, pour, abstention, contre, abstention, pour, contre,pour, pour, pour, contre, pour, contre, abstention, pour, contre, pour,pour, contre, contre, pour, abstention, abstention, abstention, pour, pour, …
Sous-groupe de travail sur les fichiers de données numériques
33
Formes et caractéristiquesdes données : microdonnées
000000000111111111122222222223333333333444444444455123456789012345678901234567890123456789012345678901000011111912224442147224069979979979979979979979979000021113011219442077219069979979979979979979979979000031123712293442147293069979979979979979979979979000051112352209442107209069979979979979979979979979000061133862280441047280019999973601999997080080080000071112352209442107209069979979979979979979979979000081143011219442077219069979979979979979979979979000091134862280441047280019999973601999997080080080000101133862280441047280019999973601999997080080080000111113011219442077219069979979979979979979979979000121169712293442147293069979979979979979979979979000131112352209442107209069979979979979979979979979
Source : Enquête sociale générale, 1995, fichier des unions
cliché d'enregistrement
Sous-groupe de travail sur les fichiers de données numériques
34
Formes et caractéristiquesmicrodonnées
Question 8. État matrimonialdu répondant avant l’union
Valeurs CodeVEUF (VE) 1DIVORCÉ (E) 2SÉPARÉ (E) 3CÉLIBATAIRE 4UNION LIBRE 5NON DÉCLARÉ 9
Question 9. État matrimonial du (de la)conjoint (e)du répondant avant l’union
Valeurs CodeVEUF (VE) 1DIVORCÉ (E) 2SÉPARÉ (E) 3CÉLIBATAIRE 4UNION LIBRE 5NON DÉCLARÉ 9
000000000123456789000011111000021153000031123000051112000061133000071112000081143000091134000101135000111113000121169000131112
cliché d'enregistrement
Sous-groupe de travail sur les fichiers de données numériques
35
La nature des données numériques (rappel et précision)
• La statistique est l’étude des variations observables et mesurables;
• les données représentent des mesures (observations) d’attributs ou de variables (de nature sociale ou économique);
• les données sont codées numériquement, et
• elles sont stockées dans une structure de fichier.
Sous-groupe de travail sur les fichiers de données numériques
36
Formes et caractéristiquesmicrodonnées
Question 8. État matrimonialdu répondant avant l’union
Valeurs CodeVEUF (VE) 1DIVORCÉ (E) 2SÉPARÉ (E) 3CÉLIBATAIRE 4UNION LIBRE 5NON DÉCLARÉ 9
Question 9. État matrimonial du (de la)conjoint (e)du répondant avant l’union
Valeurs CodeVEUF (VE) 1DIVORCÉ (E) 2SÉPARÉ (E) 3CÉLIBATAIRE 4UNION LIBRE 5NON DÉCLARÉ 9
000000000123456789000011111000021153000031123000051112000061133000071112000081143000091134000101135000111113000121169000131112
Codage numérique
Structure de fichier
Sous-groupe de travail sur les fichiers de données numériques
37
Formes et caractéristiquesdes données : données agrégées
Contrairement aux données brutes, les données agrégées sont présentées après avoir fait l’objet d’un traitement statistique quelconque, du plus simple au plus complexe.
Sous-groupe de travail sur les fichiers de données numériques
38
Formes et caractéristiquesdes données : données agrégées
• Les données sont traitées pour permettre :– de repérer un chiffre (une valeur) ou un tableau
pré-généré;– de générer un nouveau tableau ou de procéder à
une analyse (i.e. voir la relation entre différentes variables).
Sous-groupe de travail sur les fichiers de données numériques
39
Formes et caractéristiques :données agrégées
Durabilité des ampoules électriques (heures)Marque X Marque Y Marque Z
850 1 000 8951 500 1 510 9001 200 1 415 1 500
900 1 100 825825 1 050 950
1 490 1 050 1 0101 000 995 1 3001 510 1 300 1 410
895 1 100 990875 1 200 890
Durée moyenne1 100 1 170 1 060
X = 1,00 $Y = 2,00 $Z = 1,10 $
Sous-groupe de travail sur les fichiers de données numériques
40
Formes et caractéristiques :données agrégées
Québec Rimouski-N. CUQ CUMPopulation 1991 6895963 51290 490271 1775871Tot. familles 1883235 14185 131270 456600Fam. époux-épouses 1614350 12255 110250 372740 Fam. Couple marié 1307445 9600 86905 305375 Fam. Coupe union libre 306910 2660 23345 67360Fam. monoparentales 268885 1925 21020 83865
Source : Recensement 1991
Aggrégation selon desparamètres géographiques
Aggrégationdes variables
Enquête transversale
Sous-groupe de travail sur les fichiers de données numériques
41
Formes et caractéristiques :données agrégées
Année Canada Québec1970 29775 48651971 29685 52031972 32389 64261973 36704 80911974 45019 122721975 50611 140931976 54207 151861977 55370 145011978 57155 148651979 59474 143791980 62019 138991981 67671 191931982 70436 185791983 68567 173651984 65172 168451985 61976 158141986 78304 190261987 96200 220981988 83507 203401989 80998 198291990 78463 204741991 77020 202741992 79034 196951993 78226 196621994 78880 182241995 77636 20133
Données sur les divorcesau Canada et au QuébecSource :base de données CANSIM
Séries chronologiques
Sous-groupe de travail sur les fichiers de données numériques
42
Évolution des divorcesau Canada et au Québec
Canada
Québec
0
20000
40000
60000
80000
100000
120000
1970
1972
1974
1976
1978
1980
1982
1984
1986
1988
1990
1992
1994
Canada Québec
Source : base de données CANSIM
Sous-groupe de travail sur les fichiers de données numériques
43
Typologie des données
• Type d’enquête– enquête transversale (ponctuelle)
– Ex. : enquête. Sur la famille de 1984
– enquête répétée• cyclique (sujet répété / échantillons différents)
– ex. : enquête Sociale générale
• rotative (sujet répété / remplacement partiel de l’échantillon)
• longitudinale (sujet répété sur le même échantillon)– ex. : enquête sur la dynamique du travail et du revenu
Sous-groupe de travail sur les fichiers de données numériques
44
Typologie des données
• Type d’enquête
• Format de diffusion– microdonnées– données agrégées
• par lieux géographiques
• par caractéristiques sociales
• dans le temps
Sous-groupe de travail sur les fichiers de données numériques
45
Source pour les conceptssur la statistique
Statistique : concepts et méthodes / Sabin Lessard et Monga. Montréal : Presses de l’Université de Montréal. 1993