imputation équilibrée pour la non-réponse en fromage suisse
Post on 22-Jun-2022
3 Views
Preview:
TRANSCRIPT
Imputation equilibree pour la non-reponse enfromage suisse
Audrey-Anne Valleeet
Yves Tille
Universite de Neuchatel
Journees de methodologie statistique de l’Insee14 juin 2018
Paris
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse partielleNon-reponse en fromage suisse
Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse
ContexteNon-reponse en fromage suisseExigences
Matrice de probabilites d’imputation
Matrice d’imputation
Imputation
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 1 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse partielleNon-reponse en fromage suisse
Non-reponse partielle
I Une seule variable est sujette a la non-reponse.
Sexe Taille PoidsH 175 68F 160 55H 180 ?F 165 ?
I Toutes les variables de l’enquete sont sujettes a la non-reponse.
Sexe Taille Pt=1 Pt=2 Pt=3
H 175 68 67 68F 160 55 58 ?H 180 70 ? ?F 165 ? ? ?
Monotone
Sexe Taille PoidsH 175 68F 160 ?H ? 70? 165 ?
Non-Monotone
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 2 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse partielleNon-reponse en fromage suisse
Non-reponse partielle
I Une seule variable est sujette a la non-reponse.
Sexe Taille PoidsH 175 68F 160 55H 180 ?F 165 ?
I Toutes les variables de l’enquete sont sujettes a la non-reponse.
Sexe Taille Pt=1 Pt=2 Pt=3
H 175 68 67 68F 160 55 58 ?H 180 70 ? ?F 165 ? ? ?
Monotone
Sexe Taille PoidsH 175 68F 160 ?H ? 70? 165 ?
Non-Monotone
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 2 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse partielleNon-reponse en fromage suisse
Non-reponse en fromage suisse
Non-reponse en fromage suisse (non-monotone)
Toutes les variables d’une enquete contiennent des valeursmanquantes sans schema particulier.
Traitements
I Methodes d’imputation par donneur (Andridge et Little, 2010;Judkins, 1997).
I Methodes d’imputation iteratives: une sequence de modeles deregression entre les variables (Raghunathan et coll., 2001).
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 3 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse partielleNon-reponse en fromage suisse
Non-reponse en fromage suisse
Proprietes souhaitees d’une methode d’imputationI Preserver les distributions des variables;I Preserver les relations entre les variables;I Imputer par des valeurs realistes.
Imputation equilibree par les K plus proches voisins (Hasler et Tille, 2016)
I Imputation pour une variable;I Methode par donneur (aleatoire);
– Variables continues et categorielles;– Qu’un donneur par non-repondant;
I Imputation par donneurs proches (voisins);I Echantillonnage equilibre;I Si les valeurs observees etaient imputees, les estimations des totaux imputes
et des totaux des valeurs connues devraient etre les memes.
→ Developpons cette methode pour la non-reponse en fromage suisse !
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 4 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse partielleNon-reponse en fromage suisse
Non-reponse en fromage suisse
Proprietes souhaitees d’une methode d’imputationI Preserver les distributions des variables;I Preserver les relations entre les variables;I Imputer par des valeurs realistes.
Imputation equilibree par les K plus proches voisins (Hasler et Tille, 2016)
I Imputation pour une variable;I Methode par donneur (aleatoire);
– Variables continues et categorielles;– Qu’un donneur par non-repondant;
I Imputation par donneurs proches (voisins);I Echantillonnage equilibre;I Si les valeurs observees etaient imputees, les estimations des totaux imputes
et des totaux des valeurs connues devraient etre les memes.
→ Developpons cette methode pour la non-reponse en fromage suisse !
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 4 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse partielleNon-reponse en fromage suisse
Non-reponse en fromage suisse
Proprietes souhaitees d’une methode d’imputationI Preserver les distributions des variables;I Preserver les relations entre les variables;I Imputer par des valeurs realistes.
Imputation equilibree par les K plus proches voisins (Hasler et Tille, 2016)
I Imputation pour une variable;I Methode par donneur (aleatoire);
– Variables continues et categorielles;– Qu’un donneur par non-repondant;
I Imputation par donneurs proches (voisins);I Echantillonnage equilibre;I Si les valeurs observees etaient imputees, les estimations des totaux imputes
et des totaux des valeurs connues devraient etre les memes.
→ Developpons cette methode pour la non-reponse en fromage suisse !
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 4 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse en fromage suisseExigences
Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse
ContexteNon-reponse en fromage suisseExigences
Matrice de probabilites d’imputation
Matrice d’imputation
Imputation
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 5 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse en fromage suisseExigences
Non-reponse en fromage suisse
I Population U de taille N.
I J variables d’interet,xk = (xk1, . . . , xkj , . . . , xkJ)>.
I Echantillon s de taille n.
I πk , probabilite d’inclusion de l’unite k .
I sr ⊂ s, nr unites completement observees.
I sm = s − sr , nm = n− nr unites avec valeursmanquantes.
I Non-reponse non monotone.
} nm
} nr
Variables1 2 3
1
...
k
...
n
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 6 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Non-reponse en fromage suisseExigences
Exigences de la methode d’imputation
(i) Methode par donneur: choisir les donneurs parmi sr .
(ii) Un seul donneur par unite.
(iii) Donneur selectionne parmi les K plus proches voisins de l’unite avecdes valeurs manquantes.
(iv) Si les valeurs observees des non-repondants etaient imputees,l’estimateur du total de toutes les valeurs observees devraient resterinchanges.
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 7 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse
ContexteNon-reponse en fromage suisseExigences
Matrice de probabilites d’imputation
Matrice d’imputation
Imputation
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 8 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Matrice de probabilites d’imputation(i) Methode par donneur: choisir les donneurs parmi sr :
Matrice de probabilites d’imputation ψ = (ψik), ou (i , k) ∈ sr × sm.I ψik : probabilite que le repondant i donne ses valeurs au non-repondant
k;I ψik ≥ 0.
ψ =
ψ11 ψ12 ψ13
ψ21 ψ22 ψ23
ψ31 ψ32 ψ33
=
0 0.5 0.50.5 0.5 00.5 0 0.5
(ii) Un seul donneur par unite non-repondante:∑i∈sr
ψik = 1.
(iii) Donneur selectionne parmi les K plus proches voisins de l’unite avecdes valeurs manquantes:
ψik = 0 si i /∈ kpp(k)
ou kpp(`) = {j ∈ sr | rang(d(j , `)) ≤ K} et d(., .) est une fonction de distance.
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 9 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Matrice de probabilites d’imputation
(i) Methode par donneur: choisir les donneurs parmi sr :Matrice de probabilites d’imputation ψ = (ψik), ou (i , k) ∈ sr × sm.
I ψik : probabilite que le repondant i donne ses valeurs au non-repondantk;
I ψik ≥ 0.
(ii) Un seul donneur par unite non-repondante:∑i∈sr
ψik = 1.
(iii) Donneur selectionne parmi les K plus proches voisins de l’unite avecdes valeurs manquantes:
ψik = 0 si i /∈ kpp(k)
ou kpp(`) = {j ∈ sr | rang(d(j , `)) ≤ K} et d(., .) est une fonction de distance.
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 9 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Matrice de probabilites d’imputation
(i) Methode par donneur: choisir les donneurs parmi sr :Matrice de probabilites d’imputation ψ = (ψik), ou (i , k) ∈ sr × sm.
I ψik : probabilite que le repondant i donne ses valeurs au non-repondantk;
I ψik ≥ 0.
(ii) Un seul donneur par unite non-repondante:∑i∈sr
ψik = 1.
(iii) Donneur selectionne parmi les K plus proches voisins de l’unite avecdes valeurs manquantes:
ψik = 0 si i /∈ kpp(k)
ou kpp(`) = {j ∈ sr | rang(d(j , `)) ≤ K} et d(., .) est une fonction de distance.
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 9 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Matrice de probabilites d’imputation
(iv) Si les valeurs observees des non-repondants etaient imputees,l’estimateur du total de toutes les valeurs observees devraient resterinchanges:Pour j = 1, . . . , J, ∑
k∈smdk rkj
∑i∈sr
ψikxij︸ ︷︷ ︸x∗kj
=∑k∈sm
dk rkjxkj ,
ou d` = 1/π` et r`j vaut 1 si l’unite ` a repondu a la variable j , 0 sinon.
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 10 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Matrice de probabilites d’imputation
(iv) Pour j = 1, . . . , J,∑k∈sm
dk rkj∑i∈sr
ψikxij =∑k∈sm
dk rkjxkj .
Sexe Taille0 1751 1600 ?? 165
0 165
Sexe Taille0 1751 1600 1751 160
0 160
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 11 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Matrice de probabilites d’imputation
(iv) Pour j = 1, . . . , J, ∑k∈sm
dk rkj∑i∈sr
ψikxij =∑k∈sm
dk rkjxkj
∑i∈sr
( ∑k∈sm
dk rkjψik
)rijxij =
∑k∈sm
dk rkjxkj .
Algorithme: ψik calcules par calage:
Poids initiaux ψ0ik =
{1K si i ∈ kpp(k),
0 sinon.
Itererations : Caler, normaliser.
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 12 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse
ContexteNon-reponse en fromage suisseExigences
Matrice de probabilites d’imputation
Matrice d’imputation
Imputation
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 13 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Matrice d’imputation
Matrice de probabilites d’imputation
ψ =
0 0.5 0.50.5 0.5 00.5 0 0.5
Matrice d’imputation
φ =
0 1 11 0 00 0 0
I φik : 1 si l’unite i est choisie comme donneur pour l’unite k, 0 sinon.I Un seul donneur est par non-repondant,
∑i∈sr
φik = 1.
I Exigence (iv): donneurs doivent etre choisis de facon a respecter
∑k∈sm
∑i∈sr
φik dk rkjxij =∑k∈sm
∑i∈sr
ψik dk rkjxij
(=∑k∈sm
dk rkjxkj
).
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 14 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Matrice d’imputation
Exigence (iv): donneurs doivent etre choisis de facon a respecter∑k∈sm
∑i∈sr
φik dk rkjxij =∑k∈sm
∑i∈sr
ψik dk rkjxij .
I Echantillonnage stratifie equilibre (Chauvet, 2009; Hasler et Tille, 2014);I nm strates (non-repondants) formees;I Un donneur est choisi par strate.I Probabilite d’inclusion utilisee dans l’echantillonnage stratifie equilibre estψik ;
I Variable d’equilibrage associee est ψik dk rkjxij .
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 15 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse
ContexteNon-reponse en fromage suisseExigences
Matrice de probabilites d’imputation
Matrice d’imputation
Imputation
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 16 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Imputation
Valeur imputee: x∗kj =∑i∈sr
φikxij
Total impute: Xj =∑k∈sr
dkxkj +∑k∈sm
rkjdkxkj +∑k∈sm
(1− rkj)dkx∗kj
Variante deterministe: x∗kj =∑i∈sr
ψikxij .
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 17 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Discussion
I Determination de K (pas trop grand).
I Methode pour variables qualitative/quantitatives.
I Possibilite de forcer ψik = 0 pour une raison quelconque.
I Modeles et principes.
I Programme en R.
I Estimation de la variance.
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 18 / 19
Introduction - Non-reponse en fromage suisseContexte
Matrice de probabilites d’imputationMatrice d’imputation
Imputation
Andridge, R. R. et Little, R. J. A. (2010). A review of dot deck imputation for surveynon-response. International Statistical Review, 78, 40–64.
Chauvet, G. (2009). Stratified balanced sampling. Survey Methodology, 35, 115–119.
Hasler, C. et Tille, Y. (2014). Fast balanced sampling for highly stratified population.Computational Statistics and Data Analysis, 74, 81–94.
Hasler, C. et Tille, Y. (2016). Balanced k-nearest neighbor imputation. Statistics,105, 11–23.
Judkins, D. R. (1997). Imputing for Swiss cheese patterns of missing data. InProceedings of Statistics Canada Symposium, 97. Statistics Canada.
Raghunathan, T. E., Lepkowski, J. M., van Hoewyk, J. et Solenberger, P. W. (2001).A multivariate technique for multiply imputing missing values using a sequence ofregression models. Survey Methodology, 27, 85–95.
Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 19 / 19
top related