le temps dans les analyses quantitatives de données ·

34
Le temps dans les analyses quantitatives de données Présentation pour le cours SOL6210, Analyse quantitative avancée © Claire Durand , 2018 © Claire Durand, 11/15/2018, 1

Upload: others

Post on 27-May-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Le temps dans les analyses quantitatives de données ·

Le temps dans les analysesquantitatives de donnéesPrésentation pour le cours SOL6210, Analyse

quantitative avancée

© Claire Durand, 2018

© Claire Durand, 11/15/2018, 1

Page 2: Le temps dans les analyses quantitatives de données ·

PTous les processus, accès à la jeunessecomme à l’âge adulte, modification desfonctions assumées, des perceptions, etc., se déroulent dans le temps.

P Il est donc primordial et fort pertinent d’entenir compte dans les analyses

PPrincipe fondamental: Le changements’explique par le changement

Le temps ... en soi

© Claire Durand, 11/15/2018, 2

Page 3: Le temps dans les analyses quantitatives de données ·

PLorsque l’on travaille avec le temps, il faut < Décider du “groupe à risque”, et par conséquent,

de la “période à risque”.< Donc, non seulement auprès de qui on recueille

les données mais à partir de quand et jusqu’àquand et... portant sur quelle période (donnéesrétrospectives)

Définir, recueillir, décider (1)Les décisions à prendre

© Claire Durand, 11/15/2018, 3

Page 4: Le temps dans les analyses quantitatives de données ·

PPlusieurs types de données:< Données de type panel: les mêmes personnes

interrogées à plusieurs reprises– Sur leur situation avant l’entrevue– Sur leur situation au moment de l’entrevue– Sur leur situation entre les moments d’entrevue

< Données de type longitudinal comprenantplusieurs échantillons– Qui peuvent avoir été recueillis indépendamment

(plusieurs sondages auprès d’échantillons différentsmais certaines questions identiques)

– Qui peuvent être recueillies sous forme de sondageroulant (rolling cross-section): on met sur le terrain unnouveau sous-échantillon à chaque jour (pendant unecampagne électorale par exemple).

Définir, recueillir, décider (2)Les types de données

© Claire Durand, 11/15/2018, 4

Page 5: Le temps dans les analyses quantitatives de données ·

< Données de type archive– Statistiques institutionnelles, – Données économiques, taux de chômage, évolution du

PIB, des salaires, etc.– Données sur les taux de criminalité, de mortalité, etc.

Définir, recueillir, décider (2)Les types de données (suite)

© Claire Durand, 11/15/2018, 5

Page 6: Le temps dans les analyses quantitatives de données ·

PDonnées manquantes à certains moments,censure et troncature< Personnes qui disparaissent, absence d’informations

pour certaines unités à certains moments: il fautconnaître les raisons de l’absence de données ets’assurer que cette absence est aléatoire, que ça nebiaise pas les analyses

PDépendance des données dans le temps,autocorrélation< Ce qui fait que le postulat de base des analyses de

régression ordinaire n’est pas respecté à sa facemême. Ceci biaise l’estimation de la variance.

Les problèmes associésDeux problèmes principaux

© Claire Durand, 11/15/2018, 6

Page 7: Le temps dans les analyses quantitatives de données ·

P Graphique des transitions (...) (DeGenne, LeBourdais,Renaud, etc. pour exemples)

P Tapis (ex: Degenne (site du CIQSS): description del’évolution de la situation des finissants)

P Tables de survie (Renaud, Durand,etc.)P Graphiques de séries chronologiques (Durand,

Larochelle et Blais, 2005; Durand, 2008, 2011)P Régressions locales (Durand, à partir de 2014).P Classifications de trajectoires (Durand et Lacourse;

Durand, Pelletier, Wutchiett)

Que faire? (1)D’abord et avant tout décrire...Visualiser aide à se

représenter la situation. A cette étape, on peutrepérer des problèmes

© Claire Durand, 11/15/2018, 7

Page 8: Le temps dans les analyses quantitatives de données ·

Activité post d.u.t (2 ans) De Genne (2003)

Rose = CDD; Rouge = CDI; Violet = alternance; Bleu = intérim; Orange = stage; Jaune = Service national;Noir = chômage; Blanc = autre situation;

Vert = études ; Cyan = non réponse ou inactivité© Claire Durand, 11/15/2018, 8

Page 9: Le temps dans les analyses quantitatives de données ·

PQuel est, quels sont, les événementsd’intérêt?

PQu’est-ce qui donne la mesure du temps?(jours, mois, années, essais)

PLe temps est-il discret ou continu?PLes événements qui prédisent ou expliquent

la variable dépendante se modifient-ils dansle temps?

PQuelle est la forme de l’évolution dans letemps?

Que faire (2)Quelques décisions importantes

© Claire Durand, 11/15/2018, 9

Page 10: Le temps dans les analyses quantitatives de données ·

PTables de survie et régressions de survie< S’utilisent quand on a des informations sur un

événement d’intérêt qui survient à un moment donné;on s’intéresse à ce qui explique la rapidité detransition à l’état d’intérêt

< Exemple: – Qu’est-ce qui explique la rapidité avec laquelle un immigrant

se trouve un travail en arrivant dans un pays? A peu prèstous les immigrants finissent par se trouver un travail (d’oùpeu d’intérêt à la régression logistique); ce qui nousintéresse donc, c’est la rapidité d’accession. On peut aussise poser la question de la rapidité d’accession à un travail detel type, dans telle langue, etc.

Que faire? (3)Multiples analyses disponibles selon la situation

© Claire Durand, 11/15/2018, 10

Page 11: Le temps dans les analyses quantitatives de données ·

Table de survie Renaud (1992)

© Claire Durand, 11/15/2018, 11

Page 12: Le temps dans les analyses quantitatives de données ·

Régression de survie, prédicteursrapidité d’accès à un emploi

Renaud(1992)(voir suite p. Suivante)

© Claire Durand, 11/15/2018, 12

Page 13: Le temps dans les analyses quantitatives de données ·

Suite du tableau précédent (3èmecolonne)

© Claire Durand, 11/15/2018, 13

Page 14: Le temps dans les analyses quantitatives de données ·

P Séries chronologiques simples ou croisées< Les données sont des informations habituellement

agrégées pour tous les moments de mesure. S’ilmanque des données à un moment, il y a desprocédures pour “intrapoler”.

< On peut voir si une série est influencée par desévénements qui surviennent ou par d’autres sériesd’événements, si les séries se distinguent d’une unité --pays, etc.-- à une autre

< Exemple: suite des taux de chômage pour chaquemois, suite des sondages pendant une campagneélectorale, suite de taux de chômage et de tauxd’inflation (relation entre les deux?), suite de taux devols dans les résidences, etc.

Que faire? (4)Multiples analyses disponibles selon la situation

© Claire Durand, 11/15/2018, 14

Page 15: Le temps dans les analyses quantitatives de données ·

Évolution de l’intention de vote (Canada2011 au Québec), sondages publiés

Séries chronologiques

© Claire Durand, 11/15/2018, 15

Page 16: Le temps dans les analyses quantitatives de données ·

Évolution de l’intention de voteRéférendum Écosse 2014

après répartition non proportionnelle des discrets

© Claire Durand, 11/15/2018, 16

Page 17: Le temps dans les analyses quantitatives de données ·

Évolution de l’intention de vote pourQuébec Solidaire, selon l’âge

© Claire Durand, 11/15/2018, 17

Page 18: Le temps dans les analyses quantitatives de données ·

Évolution de l’intention de vote pour laCoalition Avenir Québec, selon l’âge

© Claire Durand, 11/15/2018, 18

Page 19: Le temps dans les analyses quantitatives de données ·

Une vue synthétique de l’évolution dela confiance institutionnelle par

région du monde.

• En moyenne, la confiance est stable• Plus élevée en Asie et en Afrique qu’en Amérique latine.• A diminué beaucoup depuis 2011 en Afrique du Nord &

Asie de l’Ouest.© Claire Durand, 11/15/2018, 19

Page 20: Le temps dans les analyses quantitatives de données ·

Confiance dans lesinstitutions politiques.

• Trust lower inSouth/CentralAmerica &WANA.

• Political parties,lowest in South/CentralAmerica &WANA.

• Drop in trust ingvt in WANA, inState/President inAsia.

© Claire Durand, 11/15/2018, 20

Page 21: Le temps dans les analyses quantitatives de données ·

P Analyses multi-niveaux longitudinales< Dans ce cas, le temps est considéré comme un niveau: les

diverses mesures prises sont “nichées” dans les individus quipeuvent eux-mêmes être nichés dans des unités (classes,équipes de travail, familles,...).

< L’intérêt est la flexibilité de la méthode, entre autres parcequ’il n’est pas obligatoire d’avoir des mesures à chaquemoment et au même moment pour tous les sujets.

< Il faut que le niveau supérieur (2 ou 3) soit un échantillon (n>40).

< Exemple: évolution de l’emploi durant un certain temps,évolution de la confiance institutionnelle dans le temps pourun certain nombre de pays (échantillon de pays ou depériodes).

Que faire? (5)Multiples analyses disponibles selon la situation

© Claire Durand, 11/15/2018, 21

Page 22: Le temps dans les analyses quantitatives de données ·

Modèle multiniveaux longitudinal

P Le temps peut être au niveau 1, par exemple, personnes(niveau 2) avec mesures prises à divers moments (niveau 1)

poll 1, p2, p3 p1 p2 p1 p2 …..etc.

time t2

t3

t4

etc. Level 2 Level 1

poll 1, p2, p3

time t2

t3

t4

etc. Level 2 Level 1

time t2

t3

t4

etc. Level 2 Level 1

Pers1 Pers2

Pers3

Pers4

etc. Level 2 Level 1

T1 t2 t3 t1 t2 t1 t3

Le temps peut être au niveau 2, par exemple, mois(niveau 2) avec résultats de sondages faits à chaquemois (niveau 1)

© Claire Durand, 11/15/2018, 22

Page 23: Le temps dans les analyses quantitatives de données ·

Évolution de la confianceinstitutionnelle

© Claire Durand, 11/15/2018, 23

Page 24: Le temps dans les analyses quantitatives de données ·

Focus sur les niveaux 2 & 3• Individual level:

‚ Sex is not significant‚ Compared to middle age:

• being less than 30: +.009;• being 60+: +.094 .

‚ Prop. Non-response:+.003.

• Niveau pays-année: ‚ Le temps au carré est

significatif.• Variance explained:

minimal

© Claire Durand, 11/15/2018, 24

Page 25: Le temps dans les analyses quantitatives de données ·

PAnalyse des trajectoires< Il s’agit de faire une classification des trajectoires

individuelles pour en arriver à des regroupementsde parcours.

< Méthode en développement, relativement récentemais en voie d’être intégrée dans les principauxlogiciels.

< Exemple: Les trajectoires de délinquance entrel’âge de 5 ans et 18 ans, au moyen de mesuressimilaires prises à divers moments durant cettepériode.

< Problème: prédire le passé avec le futur.

Que faire? (6)Multiples analyses disponibles selon la situation

© Claire Durand, 11/15/2018, 25

Page 26: Le temps dans les analyses quantitatives de données ·

Analyses de trajectoires,avant et après formation, avec

groupe contrôle (bleu)

Trajectoires deperformance (NCPI)des interviewers. Groupe rouge: bonneperformance, nonformésGroupe bleu: faibleperformance, nonformésGroupe gris: faibleperformance, formés

© Claire Durand, 11/15/2018, 26

Page 27: Le temps dans les analyses quantitatives de données ·

Analyse de trajectoires demesures

L’évolution de certaines mesures dans le temps:http://www.mapageweb.umontreal.ca/durandc/Reche

rche/Publications/confiance/WAPOR2018_CD.pdf

© Claire Durand, 11/15/2018, 27

Page 28: Le temps dans les analyses quantitatives de données ·

PAnalyse de variance pour mesures répétées< Analyse relativement traditionnelle en psychologie.

D’une certaine manière, c’est la base.< L’idée est de faire une intervention et de mesurer la

variable dépendante à divers moments fixés pouranalyser l’évolution entre les moments.

< Exemple : – Mesure de la dépression à divers moments durant un

processus thérapeutique, évolution de la performance enmathématique avant et après une intervention deremédiation, etc.

< Problème: On ne peut garder que les cas pourlesquels on a de l’information à tous les temps demesure.

Que faire? (7)Multiples analyses disponibles selon la situation

© Claire Durand, 11/15/2018, 28

Page 29: Le temps dans les analyses quantitatives de données ·

PPour la plupart des analyses, il est très importantde se demander quelle forme prend l’évolutiondans le temps en soi ou suite à un événement(voir Effet “Bouchard” pendant la campagneréférendaire de 1995 au Québec, Durand, 2008)

PL’évolution peut être simplement linéaire mais ellepeut aussi être quadratique en “U”, cubique (enforme de dos de poisson), ...

PL’effet d’un événement peut être de provoquer unsaut. Il peut aussi provoquer une modification del’évolution: accélération, plafonnement, etc.

Quelle forme prend l’évolutiondans le temps?

© Claire Durand, 11/15/2018, 29

Page 30: Le temps dans les analyses quantitatives de données ·

PPour toutes ces procédures, plus ou moinsfacilement selon les logiciels utilisés, lesvariables indépendantes et dépendantespeuvent être de différents types.

PLes variables indépendantes peuvent êtrefixes ou varier dans le temps.

PPour toutes ces procédures, les variablesindépendantes peuvent être entréesensemble (régression standard) ou de façonhiérarchique/ séquencielle.

Les types d’analyses de prédictionTypes de variables et modes d’entrée

© Claire Durand, 11/15/2018, 30

Page 31: Le temps dans les analyses quantitatives de données ·

PLe choix de l’analyse dépend de plusieursfacteurs, dont la question de recherche, letype de données, les finalités de l’analyse.

PLa plupart du temps, le choix du typed’analyse est évident. Dans certains cas,plusieurs analyses sont possibles. Desinformations différentes seront mises enévidence selon le type d’analyse mais lesconclusions statistiques seront rarementdifférentes.

Avantages et inconvénientsQuel type d’analyse choisir?

© Claire Durand, 11/15/2018, 31

Page 32: Le temps dans les analyses quantitatives de données ·

PDans les analyses de ce type, il est souventnécessaire de faire des interventions sur lesfichiers< Pour les analyses de survie (tables, régressions de survie),

il faut “rectangulariser” le fichier (voir procédure restructurerde SPSS) (voir travail sur les fichiershttp://www.mapageweb.umontreal.ca/durandc/menuMethodesQuantitatives.html#travail_fichier).

< Il faut parfois créer des variables qui indiquent le momentoù un événement survient.

< Pour les analyses multi-niveaux avec HLM, il faut faire unfichier par niveau (procédures Agréger ou Restructurerdans SPSS)

Avantages et inconvénientsInterventions sur les données

© Claire Durand, 11/15/2018, 32

Page 33: Le temps dans les analyses quantitatives de données ·

PLe logiciel STATA est probablement le plusapproprié pour les régressions de survie mais SPSSréussit généralement à faire la même chose. Stata ades modèles de risques simultanés (competingrisks): équivalent à logistique multinomiale de survie.

PPour les analyses multi-niveaux, les logicielsspécifiques sont HLM, MLWin, et dans une moindremesure Lisrel, Stata, SPSS, SAS, M+ et R.

PLe transfert de bases de données d’un logiciel à unautre est habituellement facile. Les logicielsspécifiques lisent les fichiers de SPSS, STATA, R ouSAS.

Choix des logiciels

© Claire Durand, 11/15/2018, 33

Page 34: Le temps dans les analyses quantitatives de données ·

PAu départ, il peut être plus difficile detravailler sur les fichiers pour pouvoir faire lesanalyses appropriées, MAIS

PLe jeu en vaut la chandelle. Une fois la basede données créée, tout devient nettementplus simple.

PNe pas oublier que la première étape est dedécrire...

Conclusion

© Claire Durand, 11/15/2018, 34