Análisis de muestras complejas con R.La Encuesta de Calidad de Vida en el Trabajo.
III Jornadas de Usuarios de R
Tania Iglesias, Patricia Díaz, Alexandra González
Unidad de Consultoría EstadísticaServicios Científico-Técnicos
Universidad de Oviedo
17 de noviembre de 2011
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 1 / 21
Índice
1 Introducción
2 Software disponible
3 El paquete survey de R
4 Ejemplo: ECVT 2010
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 2 / 21
Necesidad de muestras complejas
Representar adecuadamente la población en estudio.Utilización de ponderaciones, estratos o efectos de diseño.Diseño empleado en multitud de encuestas oficiales:
Encuesta de Calidad de Vida en el Trabajo (ECVT)Encuesta sobre la participación de la población adulta en lasactividades de aprendizaje (EADA)Encuesta sobre el gasto de los hogares en educación (módulopiloto asociado a EPF)
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 3 / 21
Necesidad del uso de ponderaciones
EjemploObjetivo: estimar los ingresos familiares en una poblaciónDos zonas: zona rica y zona pobreMuestra de 200 viviendas: 100 en zona rica y 100 en zona pobreDistribución población: 2.500 hogares zona pobre y 1.200 zonarica
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 4 / 21
Uso de ponderaciones
Frec. muestra Frec. población Prob. selección Ponderaciones
Zona Rica 100 1.200 100/1.200 1.200/100=12Zona Pobre 100 2.500 100/2.500 2.500/100=25
Ingreso medio en cada zonaIngreso familiar medio en zonas pobres: 12.000 eIngreso familiar medio en zonas ricas: 25.000 e
Estimación ingreso medioMedia sin ponderar:(12000 ∗ 100 + 25000 ∗ 100)/(100 + 100) = 18.500 eMedia ponderada:(12000 ∗100 ∗25+25000 ∗100 ∗12)/(100 ∗25+100 ∗12) = 16.216 e
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 5 / 21
Elección del software
StataSPSSSASEpi InfoSudaan
Nuestra elección
El paquete survey de R
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 6 / 21
El paquete survey
Definición diseño: upe, estratos, ponderaciones, deff,...Técnicas post-estratificación, calibración, muestro multietápicoDescriptivos: medias, totales, ratios,...Tablas de contingenciaModelos de regresión lineal y logísticaAnálisis de supervivenciaAnálisis de componentes principales
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 7 / 21
Encuesta de Calidad de Vida en el Trabajo
ECVTObjetivos:
Investigar la calidad de vida que tiene el ocupado en su trabajo
Periodicidad anualElaborada por el Ministerio de Trabajo e InmigraciónResultados:
Información acerca de la situación laboral del ocupado y de suentorno familiarCaracterísticas del puesto de trabajo, movilidad laboral,satisfacción en el trabajo, conciliación de la vida laboral y familiar..
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 8 / 21
ECVT: Metodología
Ámbito encuestaGeográfico: territorio nacional, con excepción de Ceuta y MelillaPoblacional: población ocupada mayor de 16 años que reside enviviendas familiares
CuestionarioDatos sociodemográficosSituación laboralCalidad de vida en el trabajo:
Satisfacción en el trabajoEntorno laboralTiempo de trabajoFormación académica y profesionalCompensación por el trabajoAsociacionismo
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 9 / 21
Diseño de la muestra
Encuesta dirigida a ocupados residentes en viviendas familiaresRelación de viviendas y habitantes: padrón
Tipo de muestreoMuestreo trietápico estratificadoEstratos: cruce Comunidad Autónoma y tramo de tamaño demunicipio
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 10 / 21
Etapas
1 Primera etapa: muestra de secciones censales conprobabilidades proporcionales al tamaño de cada sección
2 Segunda etapa: muestra de viviendas con probabilidad igual paracada vivienda de la sección
3 Tercera etapa: selección de un ocupado residente en cadavivienda
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 11 / 21
Etapas
1 Primera etapa: muestra de secciones censales conprobabilidades proporcionales al tamaño de cada sección
2 Segunda etapa: muestra de viviendas con probabilidad igual paracada vivienda de la sección
3 Tercera etapa: selección de un ocupado residente en cadavivienda
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 11 / 21
Etapas
1 Primera etapa: muestra de secciones censales conprobabilidades proporcionales al tamaño de cada sección
2 Segunda etapa: muestra de viviendas con probabilidad igual paracada vivienda de la sección
3 Tercera etapa: selección de un ocupado residente en cadavivienda
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 11 / 21
Ejemplo
Perfil de la Afiliación SindicalVariables ECVT:
CCAA y tramo municipioAntigüedadAmistades en el trabajoIngresos mensualesFrecuencia con la que trabaja horas de másConocimiento del convenio o de las actividades realizadas por elsindicatoParticipación de los beneficios de la empresaTrabajo a turnos o de nocheNivel riesgoSatisfacción trabajo, empleados, directivosSector
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 12 / 21
Análisis con R
Etapas1 Definición diseño muestral2 Análisis descriptivo3 Análisis bivariante4 Construcción de un modelo de regresión
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 13 / 21
Diseño de la muestra con R
Posibilidades svydesignunidad de muestreoestratotipo de ponderaciónfpcdeff,...
Ejemplosvydesign(id=~1, strata=~estrato,weights=~Factorelevacion, fpc=~fpc, data= datos)
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 14 / 21
Análisis descriptivo
Funcionessvytotalsvymean
Ingresos mensuales
Frec. %
0-600 1753844 0.09601-1000 4359882 0.231001-1200 4077647 0.221201-1600 4066564 0.221601-2100 2534963 0.132100-3000 1515205 0.083001 y más 530807 0.03
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 15 / 21
Análisis descriptivo
Ingresos mensuales
Porcentaje
0−600
601−1000
1001−1200
1201−1600
1601−2100
2100−3000
3001 y más
0 5 10 15 20
Nivel riesgo
Porcentaje
Bajo
Medio
Alto
Muy alto
0 10 20 30 40 50
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 16 / 21
Análisis bivariante: svytable
No % Sí %16-22 años 695729 3.78 30875 0.1723-29 años 2343458 12.73 250338 1.3630-36 años 3046445 16.55 518098 2.8137-43 años 3420021 18.58 699115 3.8044-50 años 2862149 15.55 712610 3.8751-57 años 1890968 10.27 575594 3.1358-64 años 1041460 5.66 232689 1.26Más de 65 años 82615 0.45 7460 0.04
Relación entre edad y afiliación sindicalSe ha realizado el análisis para estudiar la relación entre Edad yafiliacionsindical, obteniéndose que se rechaza la hipótesis deindependencia (test de Pearson, p-valor=0.00).
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 17 / 21
Análisis bivariante
Sta
ndar
dize
dR
esid
uals
:<
−4
−4:
−2
−2:
00:
22:
4>
4
afiliacionsindical
Eda
d
No Sí
16 −22 años
23−29 años
30−36 años
37−43 años
44−50 años
51−57 años
58−64 años
Más de 65 años
Sexo
Hombre
Mujer
0 10 20 30 40 50
No Sí
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 18 / 21
Modelo de regresión: svyglm family binomial
Coeficientes Odds Error estándar Estadístico t p valor
(Intercept) -1.63 0.20 0.72 -2.26 0.02AntigüedadEntre3y10años -0.32 0.72 0.13 -2.45 0.01AntigüedadMenosde3años -0.79 0.45 0.15 -5.35 0.00EdadIntervalos3036años 1.09 2.98 0.51 2.15 0.03EdadIntervalos3743años 1.18 3.25 0.51 2.30 0.02EdadIntervalos4450años 1.38 3.97 0.51 2.69 0.01EdadIntervalos5157años 1.33 3.79 0.52 2.57 0.01FrecuenciatrabajadeMAS -0.27 0.76 0.13 -2.09 0.04Ingresos.Bajo -0.65 0.52 0.22 -2.96 0.00NivelRiesgo.Alto 0.54 1.71 0.11 4.79 0.00ProvinciaNacimientoAsturias 0.65 1.92 0.27 2.38 0.02ProvinciaNacimientoBarcelona -0.31 0.73 0.15 -2.08 0.04ProvinciaNacimientoCádiz -0.82 0.44 0.33 -2.46 0.01ProvinciaNacimientoSta.CruzdeTenerife 0.87 2.40 0.36 2.40 0.02RealizacionJornadaPartida -0.25 0.78 0.11 -2.28 0.02SectoresAgricult.ganad.silvicult.ypesca -1.39 0.25 0.54 -2.55 0.01SectoresConstrucción -0.76 0.47 0.20 -3.75 0.00SectoresIndustriamanufacturera -0.53 0.59 0.16 -3.30 0.00TipoPuestoMandoIntermedio 0.96 2.61 0.47 2.02 0.04TrabajaTurnos.Sí 0.30 1.35 0.12 2.49 0.01
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 19 / 21
Análisis de muestras complejas con R
Paquete surveyThomas Lumleyhttp://faculty.washington.edu/tlumley/survey
Bibliografía: Complex Surveys: a guide to analysis using R
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 20 / 21
Unidad de Consultoría EstadísticaUniversidad de Oviedo
¡Gracias por vuestra atención!
UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 21 / 21