modèles structurels cnam 1

Upload: siach90

Post on 19-Jul-2015

224 views

Category:

Documents


0 download

TRANSCRIPT

Lesmodlesdquationsstructurellesvariables latentes

EmmanuelJakobowiczAddinsoft jakobowicz(@)xlstat.com 25janvier2012Cours deStatistique Multivarie Approfondie

1

PlanducoursAujourdhui: Lathoriedesmodlesstructurelsvariableslatentes Lasemaineprochaine: Desdmonstrationsetdepetitsexercices

Cours deStatistique Multivarie Approfondie

2

Planducoursdaujourdhui 11.Introduction Lesconceptsdebasepourlamodlisationparquationsstructurelles 2. Modlisationdquationsstructurellesparlemaximumdevraisemblance (LISREL) LemodleLISREL Estimationdumodle Indicesdevalidation Unexemple Indicesdemodification

CoursdeStatistiqueMultivarieApprofondie

3

Planducoursdaujourdhui 23. ModlisationdquationsstructurellesparlapprochePLS(PartialLeast SquaresPathModeling) LemodlePLS Leprincipe LalgorithmePLSetsesvariantes Linitialisationdespoids Lesindicesdequalitdajustement Unexemple 4.Comparaisonsdes2approches Aspectsthoriques Aspectspratiques UnpetitexempleCours deStatistique Multivarie Approfondie4

Lesconceptsdebase 1

Mthodesappartenantlacatgoriedesmodlesstructurels variableslatentes(VL) p variablesobservessurn individus,rpartiesenJblocsdekj variables Lensembledesvariablessontcontinues Blocsrelisentreeuxparunmodlederelationsstructurellesentre variableslatentes

Cours deStatistique Multivarie Approfondie

5

Lesconceptsdebase 2Variablesobserves=variablesmanifestes (VM) Lesvariableslatentes (VL)nonobserves,existentautraversdesvariablesmanifestesavec lesquellesellessontenrelation AchaqueblocXj onassocie uneseulevariablelatentej

x11 x12 x13 3 x21 2 x22 1

x31 x32 x33 x34 x35 x36

CoursdeStatistiqueMultivarieApprofondie

6

Lesconceptsdebase 3

2sousmodles: Modleexterneoudemesure lielesVMetleursVL; Modleinterneoustructurel connectelesVL.

Cours deStatistique Multivarie Approfondie

7

Lemodle

x11 x12 x13 3 x21 2 x22 1

x31 x32 x33 x34 x35 x36

Modlestructurel(interne) Modledemesure(externe)Cours deStatistique Multivarie Approfondie8

Lemodledemesure 1LemodleexterneTyperflectif Lesvariablesmanifestessontle refletde leurvariablelatentex11 x12 x13 3 x21 x22 x36 1

Typeformatif Lavariablelatentej estle refletdes variablesmanifestesdublocXj

x31 x32 x33 x34 2 x35

Cours deStatistique Multivarie Approfondie

9

Lemodledemesure 2

Variable latente

Construit latent

Indicateursrflectifs p.ex.SatisfactiondesclientsCoursdeStatistiqueMultivarieApprofondie

Indicateursformatifs p.ex.Indicateurssocioculturels10

LemodlestructurelLemodleinterne liaisonsentrevariableslatentes

x11 x12

latenteexognex31

1

x32 x33

x13

3x34 x21

2x22

x35

Latente endogne latenteendogne

x36

Cours deStatistique Multivarie Approfondie

11

Lestimationdumodle Lestimationdesparamtresdecemodlepeutsefaire soit: ParlapprocheLISREL (linearstructuralrelationships). ParlapprochePLS (partialleastsquarespathmodeling)

CoursdeStatistiqueMultivarieApprofondie

12

LamthodeLISRELAnalysedelastructuredecovariance StructuralEquationModeling(SEM) CovarianceStructureAnalysis ...13

Lemodlestructureldelacovariance(LISREL) 11 12 13

x11 x12 x13 3 13

y31 y32 y33 y34

31 32 33 34 35 36

21 22

y21 y22

22

y35 y36

Eq.dumodle structurel Eq.dumodlede mesureCoursdeStatistiqueMultivarieApprofondie14

CaractristiquesUneapprochestatistiquepourtesterdeshypothsessurlesrelations entrevariablesobservesetlatentes(Hoyle,1995) LefondementstatistiquedelamthodeLISRELestlacovariance Lesprrequis: Modlesstatistiqueslinaires Valideseulementsouscertainesconditions: Indpendancedesobservations(multiniveauxpossible) Normalitmultivariedesdonnes Unidimensionnalitdesblocsdevariables LamthodeLISRELestunemthodeapriori etncessitequeles chercheurspensententermesdemodlesetdhypothsesCoursdeStatistiqueMultivarieApprofondie15

Leslogiciels

Lesprincipaux: LISREL (Jreskog &Srbom,1996):misaupointparle crateurdelamthode,trscomplet AMOS (Arbuckle,1999,SPSS):trscompletetconvivial CALIS(SAS):procdureintgreSAS

CoursdeStatistiqueMultivarieApprofondie

16

LeprincipeUnemthodologiegnralepourspcifier,estimer,comparer etvaluer desmodlesderelationsentrevariables. Onvachercherconfirmer unethorie Procdure: Constructiondunmodle Collecterlesdonnespourtesterlemodle Lemodleestcomparauxdonnesetvalu Sincessaire,lemodleestmodifiettestavecde nouvellesdonnes

CoursdeStatistiqueMultivarieApprofondie

17

Estimationdesparamtresdumodle 1

Notations p+q=Nombredevariablesmanifestes n=Nombredobservations =Matricedecovarianceauniveaudelapopulation S=Matricedescovariancesobserves C=Matricedescovariancesobtenuegrceaumodle =Matricedecovariancede =Matricedecovariancede

CoursdeStatistiqueMultivarieApprofondie

18

Estimationdesparamtresdumodle 2

Onvatenterdobtenirunematricedecovariancepartirdece modle.Cettematriceauradonclaforme:

cov( x) cov( x, y) C = cov( y, x) cov( y) ( I B)1 ( + ) ( I B)1 = 1 ( I B) CoursdeStatistiqueMultivarieApprofondie19

Estimationdesparamtresdumodle 3LamthodeLISRELconsisteenlutilisationdunestimateurafin derendrelamatricedecovariancecalculepartirdumodle (C)leplusprochepossibledelamatricedecovariance observe(S)entermedemaximumdevraisemblance.

Onvadoncestimerlesparamtresdumodle(leslmentsde lamatriceC)defaonminimisercettediffrence.

CoursdeStatistiqueMultivarieApprofondie

20

Estimationdesparamtresdumodle 4Utilisationdumaximumdevraisemblance(MLE): Sionsupposequelesdonnessont normalesmultivaries, lestimateurMLrevientlaminimisationde:

FML = log C + tr ( SC1 ) log S ( p + q )Autresfonctions: GeneralisedLeastSquares1 1 2 tr S ( S - C ) 2 UnweightedLeastSquares 1 2 F = tr ( S-C) ULS 2 FGLS =

AsymptoticallyDistributionFreeCoursdeStatistiqueMultivarieApprofondie

FADF /WLS = ( s c ) W1 ( s c )T

21

ValidationsimpledumodleTestsdevalidationglobaledumodle: Silemodletudiest exact alors

(n 1) F = 2 ( DF ) Lesdegrsdelibert(DF)=nbdecovariances nbdeparamtres

2 Lemodleestacceptsi 3(seuilsgnralementutiliss)

DF

oupvaleur>0,05

IlexistedautresindicesdevalidationquiserontplusperformantsCoursdeStatistiqueMultivarieApprofondie

22

Unindiceplus volu :RMSEALeRMSEA(RootMeanSquareErrorofApproximation): (SteigeretLind) Cetindicecalculeladiffrenceentrelamatricedecovarianceobtenue etcelledelapopulationglobale:

RMSEA =O FML = log C + tr ( C1 ) log ( p + q ) Enpratique,onlestimeavec:RMSEAestimated =

F0 DF

F 1 DF n 1

Onlaccepteendessousde0.08engnral,unintervalledeconfiancepeut treobtenu.Cours deStatistique Multivarie Approfondie23

Unexemple:LengagementamoureuxDonnes: C.E.Rusbult, Commitmentandsatisfactioninromantic associations ,JournalofExperimentalSocialPsychology,1980 (ExempletirdelaprsentationSEMassesment parV.EspositoVinzi) 6blocsdevariablesmanifestes: Lengagement Lasatisfaction Lesrcompenses Lecot Latailledelinvestissement LesalternativesCoursdeStatistiqueMultivarieApprofondie24

Unexemple:Lemodlee8 e9 1 1 v8 v9 e10 1 v10 1 e5 1 v5 e6 e7 1 1 v6 v7 1 e1 1 v1 e2 1 v2 e3 1 v3 1

F3e11 1

Rcompensee12 e13 1 1 v12 1 v13

v11

F4

Cote14 e15 e16 1 1 1 v14 v15 v16 1

Satisfaction

F2

1 d2

Engagement1 d1

F1

F5

Investissement

e17 1 v17

e18 1 v18 1

e19 1 v19

CoursdeStatistiqueMultivarieApprofondie

F6

Alternatives

25

Unexemple:LesblocsEngagementintentiondepoursuivreunerelation(F1) Satisfaction rponsemotionnelleunerelation(F2) Tailledelinvestissement tempseteffortncessaireaumaintiendela relation(F5) Solutionsalternatives (F6) Rcompenses quantitdebonneschosesassociescetterelation(F3) Cot quantitdemauvaiseschosesassociescetterelation(F4)

CoursdeStatistiqueMultivarieApprofondie

26

Unexemple:LesquestionsDonnerunenotede17enfonctiondevotredegrdagrmentavec laffirmation Satisfaction: 1.Jesuissatisfaitdemarelation 2.Marelationactuelleestprochedelarelationidale 3.Jesuisplussatisfaitquelamoyenneparmarelationactuelle Tailledelinvestissement: 1.Jaiinvestibeaucoupdetempsdansmarelationactuelle 2.Jaiinvestibeaucoupdnergiedansmarelationactuelle 3.Jaiinvestibeaucoupderessourcesafindedvelopperma relationactuelleCoursdeStatistiqueMultivarieApprofondie27

Unepropritimportante:lunidimensionnalit Danslecadredestechniquesdemodlesstructurelsvariables latentesunepropritimportanteestsouventexige: lunidimensionnalitdesblocsdevariablesmanifestes. SilapremirevaleurpropreobtenueparACPestlaseule>1alorsle blocestunidimensionnel OnpeututiliserlalphadeCronbachoulerhodeDillonGoldstein(on considrequunblocsestunidimensionnelsi>0,7)

1 cor ( xij , xkj ) p j ( p j 1) i k pj j = 1 1 + cor ( xij , xkj ) p j 1 p j 1 p j ( p j 1) i k

j

( ) var ( ) = ( ) var ( ) + var ( )2 i ij j 2 i ij j i ij28

CoursdeStatistiqueMultivarieApprofondie

Unexemple:Estimationparmaximumde vraisemblancee8 .41 v8 v9 .64 e9 .38 e10 .47 v10

F3Chisquare=216.75 DF=124 Chisquare/DF=1.748 RMSEA=.056.64

.62 .69

Rewardse5 e11 -.10 e12 .67 v11 .76 e13 .64 .21 v5 .68 .82 e6 .76 v6 .87.88 .45 e7 .77 v7 e1 .77 v1 .33 d2 e2 .67 e3 .87

F4.01 v14

v13 v12 .46 .82 .87 -.16

Costse14 .74 e15 .48 .55 e16 .30 v16

Satisfaction

F2.55

v3 v2 .88 .82 .93 .53

Commitment

-.47

Lescoefficientssurles arcssontdescorrlations

v15 .86 .69

F1.06

d1

Investments.26 e17 .46 e18

F5e19

-.30

.53 .57 v19 v18 v17 .76 .73 .68

CoursdeStatistiqueMultivarieApprofondie

Alternatives

F6

29

Unexemple:LesquationsstructurellesLescoefficientsdesquationsstructurellessontobtenuslorsdelestimationparmaximum devraisemblanceLatent Variable Equations with Estimates f1 = Std Err t Value 0.4608*f2 0.0910 pf1f2 5.0618 + 0.7580*f5 0.1037 pf1f5 7.3127 + 0.1000*f6 0.1094 pf1f6 0.9136 + 1.0000 d1

f2 = Std Err t Value

0.9737*f3 0.1321 pf2f3 7.3690

+ -0.1213*f4 0.0510 pf2f4 -2.3777

+

1.0000 d2

LengagementnedpenddoncpassignificativementdesalternativesCours deStatistique Multivarie Approfondie30

ValidationcroisedumodleLemodleobtenusadaptebienauxdonnes,maiscecineprouvepasque cemodleest lemeilleur ,nouspouvonsdireuniquementque: Lemodlesajustebienauxdonnestraites.Pourallerplusloindansles conclusions,ilfautvaliderlemodleenutilisantdelavalidationcroise Lindicedevalidationcroise(CVI): Ilmesureladistanceentrelamatricedecovarianceestimesurlchantillon dapprentissageetlamatricedecovariancecalculesurlesdonnesde validation.LemodleavecleCVIlepluspetitestleplusstable.

CoursdeStatistiqueMultivarieApprofondie

31

LesindicesdemodificationdumodleUnindicedemodificationmesurelabaisseduChi2 lorsquunlienest ajoutaumodle(Univariate LagrangeMultiplierTest)Rank Order of the 5 Largest Modification Indices Row f2 v2 v1 v10 v18 Column f5 f5 f3 f5 f3 Chi-Square 34.34669 7.97159 7.65396 5.64619 4.69157 Pr > ChiSq 50%) RENT: %fermierslocataires

DveloppementindustrielGNPR: PNBparhabitant($1955) LABO: %d actifsdanslagricultureCoursdeStatistiqueMultivarieApprofondie46

Unexemple:Linstabilitpolitique

InstabilitpolitiqueINST: Instabilitdel excutif (4561) ECKS: Nbdeconflitsviolentsentrecommunauts(4661) DEAT: Nbdemortsdansdesmanifestations(5062) DSTAB: Dmocratiestable DINS: Dmocratieinstable DICT: Dictature

CoursdeStatistiqueMultivarieApprofondie

47

Unexemple:Lemodle

CoursdeStatistiqueMultivarieApprofondie

48

Unexemple:EstimationavecPLS

CoursdeStatistiqueMultivarieApprofondie

49

Unexemple:Lesestimations(1) EstimationexternedeYi: Y1 =w11Gini+w12Farm+w13Rent Y2 =X2w2 Y3 =X3w3 (2)EstimationinternedeZi: Z1 =sign(cor(1,3)Y3 =(+1)Y3 Z2 =sign(cor(2,3)Y3 =(1)Y3 Z3 =sign(cor(3,1)Y1 +sign(cor(3,2)Y2 =(+1)Y1 +(1)Y2CoursdeStatistiqueMultivarieApprofondie50

Unexemple:LemodleexterneVariable latente Ingalit agricole Variables manifestes gini farm rent Dvpt industriel gnpr labo inst ecks Instabilit politique deat demostab demoinst dictaturCoursdeStatistiqueMultivarieApprofondie

Poids externe 0,032 0,077 0,085 0,573 -0,766 0,424 0,198 0,130 -0,714 0,084 0,569

Corrlations 0,977 0,986 0,516 0,950 -0,955 0,352 0,816 0,794 -0,866 0,094 0,73351

Unexemple:LemodleinterneR (Instabilit politique / 1) :

R0,622

R(Bootstrap)0,657

Ecart-type0,076

Ratio critique (CR)8,167

Path coefficients (Instabilit politique / 1) :

Variable latenteIngalit agricole Dvpt industriel

Valeur0,215 -0,695

Ecart-type0,097 0,097

t2,206 -7,128

Pr > |t|0,033 0,000

Equation du modle :Instabilit politique = 0,215*Ingalit agricole-0,695*Dvpt industriel

CoursdeStatistiqueMultivarieApprofondie

52

Unexemple:LesvariableslatentesIngalit agricolearg aus aut bel bol bre can chi .. sv esp sue sui tai ru eu uru ven rfa you 0,953 1,265 0,404 -0,848 1,115 0,789 -1,539 1,239 0,013 0,811 -0,870 -1,568 -0,030 0,112 0,187 0,685 1,149 -0,199 -2,153

Dvpt industriel-0,238 -1,371 -0,253 -1,530 1,584 0,654 -1,680 0,324 1,094 0,516 -1,410 -1,640 0,898 -2,059 -2,016 -0,179 -0,252 -1,104 0,654

Instabilit politique-0,751 1,601 0,464 0,881 -1,503 -0,268 0,972 -0,016 -1,386 -0,411 1,605 1,605 0,030 1,063 0,964 1,299 -1,142 0,477 -0,152 53

CoursdeStatistiqueMultivarieApprofondie

Unexemple:Rpartitiondespays2 ind bol hon egy nic 0,5 pan

1,5 lib 1 phi sv tai

perguaira

you

Dvpt industriel

pol -3 -2,5 -2

jap irl -1 fin

dom equ sal bre gre esp colcos cub

chi

0 -0,5 -0,5 0 0,5 aut uru 1arg ven 1,5 ita 2

-1,5

dan

fra pb sue bel

nor lux -1 rfa nz -1,5 aus

sui can

-2

eu ru

-2,5

Ingalit agricole

CoursdeStatistiqueMultivarieApprofondie

54

Unexemple:Lesindicesglobaux

1 GoF = Communauti R 2 ( Inst.Pol.) = 0.611 0.622 = 0.610 3CoursdeStatistiqueMultivarieApprofondie55

Comparaisondesapproches LISRELetPLS

56

Diffrencesthoriques 1

Critre Objectif Mthodologie Variableslatentes (VL) Relationsentreles VLetlesVM Optimalit Qualitdessous modles

ApprochePLS Orienteverslaralisationdes prvisions Basesurvariance CombinaisonlinairedesesVM Typerflectifouformatif Pourlaprcisiondesprvisions

LISREL(LinearStructural Relationship) Orienteverslestimationdes paramtres Basesurcovariance Combinaisonlinairedetoutesles VM Typerflectif Pourlaprcisiondesparamtres

ModleexternemeilleurcarlesVL ModleinternemeilleurcarlesVL sontcontenuesdanslespacede sontestimedansunespacenon leursVM restreint57

CoursdeStatistiqueMultivarieApprofondie

Diffrencesthoriques 2Critre Hypothses Complexit modle Taillechantillon Donnes manquantes Identification Consistance Domaines ApprochePLS Unidimensionnalit(rflectif) Grande(ex:100VL,1000VM) 30100cas NIPALS Danslecadredumodle rcursif,toujoursidentifie Consistance ausenslarge Marketing,analysesensorielle LISREL(LinearStructural Relationship) Multinormalitdesdonnes+ unidimensionnalit Rduiteoumodr(