pasw bootstrapping 18

i

PASW® Bootstrapping 18

Si desea obtener más información sobre los productos de software de SPSS Inc., visite nuestro sitio Web en http://www.spss.como póngase en contacto con

SPSS Inc.233 South Wacker Drive, 11th FloorChicago, IL 60606-6412Tel: (312) 651-3000Fax: (312) 651-3668

SPSS es una marca comercial registrada.

PASW es una marca comercial registrada de SPSS Inc.

El SOFTWARE y la documentación se proporcionan con DERECHOS LIMITADOS. Su uso, duplicación o revelación porparte del Gobierno están sujetos a las restricciones establecidas en la subdivisión (c)(1)(ii) de la cláusula Rights in TechnicalData and Computer Software en 52.227-7013. El fabricante es SPSS Inc., 233 South Wacker Drive, 11th Floor, Chicago, IL60606-6412, EE.UU.Nº de patente 7,023,453

Aviso general: El resto de los nombres de productos mencionados en este documento se utilizan sólo con fines identificativos ypueden ser marcas comerciales de sus respectivas empresas.

Windows es una marca comercial registrada de Microsoft Corporation.

Apple, Mac y el logotipo de Mac son marcas comerciales de Apple Computer, Inc., registradas en Estados Unidos y en otrospaíses.

Este producto utiliza WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com.

Queda prohibida la reproducción, el almacenamiento en sistemas de recuperación o la transmisión de cualquier parte de estapublicación en cualquier forma y por cualquier medio (electrónico o mecánico, fotocopia, grabación o cualquier otro) sinprevia autorización expresa y por escrito de parte del editor.

Prefacio

PASW Statistics 18 es un sistema global para el análisis de datos. El módulo adicional opcionalMuestreo autodocimante proporciona las técnicas de análisis adicionales que se describen en estemanual. El módulo adicional Muestreo autodocimante se debe utilizar con el sistema básico dePASW Statistics 18 y está completamente integrado en dicho sistema.

Instalación

Para instalar Muestreo autodocimante módulo adicional, ejecute el Asistente para autorizaciónde licencia utilizando el código de autorización que le envió SPSS Inc.. Para obtenermás información, consulte las instrucciones de instalación proporcionadas con Muestreoautodocimante módulo adicional.

Compatibilidad

PASW Statistics está diseñado para ejecutarse en gran cantidad de sistemas de ordenadores.Consulte las instrucciones de instalación entregadas con su sistema para obtener informaciónespecífica acerca de los requisitos mínimos y los recomendados.

Números de serie

El número de serie es su número de identificación con SPSS Inc.. Necesitará este número cuandose ponga en contacto con SPSS Inc. para recibir información sobre asistencia, formas de pago oactualización del sistema. El número de serie se incluye en el sistema básico.

Servicio al cliente

Si tiene cualquier duda referente a la forma de envío o pago, póngase en contacto con su oficinalocal, que encontrará en el sitio Web en http://www.spss.com/worldwide. Tenga preparado sunúmero de serie para identificarse.

Cursos de preparación

SPSS Inc. ofrece cursos de preparación, tanto públicos como in situ. En todos los cursos habrátalleres prácticos. Estos cursos tendrán lugar periódicamente en las principales capitales. Sidesea obtener más información sobre estos cursos, póngase en contacto con su oficina local queencontrará en el sitio Web en http://www.spss.com/worldwide.

iii

Asistencia técnica

El servicio de asistencia técnica está a disposición de todos los clientes de mantenimiento. Losclientes podrán ponerse en contacto con este servicio de asistencia técnica si desean recibir ayudasobre el uso de PASW Statistics o sobre la instalación en alguno de los entornos de hardwareadmitidos. Para ponerse en contacto con el servicio de asistencia técnica, consulte el sitio Weben http://www.spss.com, o póngase en contacto con la oficina más cercana, que encontrará en elsitio Web en http://www.spss.com/worldwide. Tenga preparada la información necesaria paraidentificarse personalmente, a su organización y el número de serie de su sistema.

Publicaciones adicionalesSPSS Statistics Statistical Procedures Companion, por Marija Norušis, ha sido publicado por

Prentice Hall. Se prevé una nueva versión de este libro, actualizado para PASW Statistics 18. Ellibro SPSS Statistics Advanced Statistical Procedures Companion, que también se basa en PASWStatistics 18, se publicará muy pronto. El libro SPSS Statistics Guide to Data Analysis para PASWStatistics 18 también está en proceso de desarrollo. Las publicaciones anunciadas de formaexclusiva por Prentice Hall estarán disponibles en el sitio Web en http://www.spss.com/estore(seleccione su país de origen y pulse en Books).

iv

Contenido

Parte I: Manual del usuario

1 Introducción al muestreo autodocimante 1

2 Muestreo autodocimante 3

Procedimientos que admiten el muestreo autodocimante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Funciones adicionales del comando BOOTSTRAP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Parte II: Ejemplos

3 Muestreo autodocimante 10

Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones . . . . . . 10Preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10Ejecución del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11Especificaciones de muestreo autodocimante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Tabla de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Uso de muestreo autodocimante para obtener intervalos de confianza de medianas . . . . . . . . . . 16Ejecución del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Uso de muestreo autodocimante para seleccionar mejores predictores . . . . . . . . . . . . . . . . . . . . 20Preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Ejecución del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Estimaciones de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

v

Apéndice

A Archivos muestrales 31

Bibliografía 42

Índice 44

vi

Parte I:Manual del usuario

Capítulo

1Introducción al muestreoautodocimante

Cuando recopila datos suele estar interesado en las propiedades de la población de la que hatomado la muestra. Hace inferencias acerca de los parámetros de la población con estimacionescalculadas de la muestra. Por ejemplo, si el conjunto de datos Employee data.sav que se incluyecon el producto es una muestra aleatoria de una población mayor de empleados, la media de lamuestra de 34.419,57 dólares como Salario actual es una estimación de la media del salario actualde la población de los empleados. Además, esta estimación tiene un error típico de 784,311dólares para una muestra de un tamaño de 474; y un intervalo de confianza del 95% para la mediadel salario actual de la población de los empleados es de 32.878,40 dólares a 35.960,73 dólares.Pero, ¿cuál es el nivel de fiabilidad de estos estimadores? Para algunas poblaciones “conocidas” yparámetros de buen comportamiento, sabemos algo acerca de las propiedades de las estimacionesde la muestra y podemos confiar en estos resultados. El muestreo autodocimante busca másinformación acerca de las propiedades de los estimadores de poblaciones “desconocidas” yparámetros de mal comportamiento.

Figura 1-1Realización de inferencias paramétricas acerca de la media de la población

Funcionamiento del muestreo autodocimante

En su forma más simple, para un conjunto de datos con un tamaño de muestra de N, tomará Bmuestras “autodocimantes” de un tamaño N sustituyendo del conjunto de datos original y calcularel estimador de cada uno de estas B muestras autodocimantes. Estas B estimaciones de muestrasautodocimantes son una muestra de un tamaño B de la que podrá realizar inferencias acerca delestimador. Por ejemplo, si toma 1.000 muestras autodocimantes del conjunto de datos Employeedata.sav , el error típico de muestras autodocimantes estimado de 776,91 dólares para la media dela muestra de Salario actual es una alternativa a la estimación de 784,311 dólares.

Además, el muestreo autodocimante proporciona un error estándar y un intervalo de confianzapara la mediana, cuyas estimaciones paramétricas no están disponibles.

1

2

Capítulo 1

Figura 1-2Realización de inferencias autodocimantes acerca de la media de muestra

Compatibilidad del muestreo autodocimante en el producto

El muestreo autodocimante se incorpora como un cuadro de diálogo subordinado enprocedimientos que admiten el muestreo autodocimante. Consulte Procedimientos que admiten elmuestreo autodocimante si desea obtener información acerca de los procedimientos que admitenel muestreo autodocimante.

Si se requiere muestreo autodocimante en los cuadros de diálogo, se pega un nuevo comandoBOOTSTRAP independiente, además de la sintaxis normal que genera el cuadro de diálogo. Elcomando BOOTSTRAP crea las muestras autodocimantes en función de sus especificaciones.Internamente, el producto trata estas muestras autodocimantes como segmentaciones, incluso sino se muestran de forma explícita en el Editor de datos. Significa que, de forma interna, sonefectivamente B*N casos, de forma que el recuento de casos en la barra de estado contará desde 1a B*N cuando se procesen los datos durante el muestreo autodocimante. El Sistema de gestiónde resultados (OMS) se utiliza para recopilar los resultados de la ejecución del análisis en cada“segmentación autodocimante”. Estos resultados se combinan y los resultados autodocimantescombinados se muestran en el Visor con el resto del resultado normal que genera el procedimiento.En algunos casos, podrá ver una referencia a “segmentación autodocimante 0”; es el conjunto dedatos original.

Capítulo

2Muestreo autodocimante

Bootstrapping es un método para derivar estimaciones robustas de errores típicos e intervalosde confianza para estimaciones como la media, mediana, proporción, razón de las ventajas,coeficientes de correlación o coeficientes de regresión. También se puede utilizar para crearpruebas hipotéticas. Bootstrapping es más útil como alternativa a estimaciones paramétricas encaso de que los supuestos de esos métodos sean dudosos (como en el caso de modelos de regresióncon residuos heteroscedástico se ajusten a muestras pequeñas), o si la inferencia paramétrica no esposible o requiere fórmulas muy complicadas para el cálculo de errores típicos (como en el casode cálculo de intervalos de confianza de mediana, cuartiles y otros percentiles).

Ejemplos. Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes porabandono cada mes. Para reducir el porcentaje de abandono, los directivos quieren sabersi este porcentaje varía en diferentes grupos de clientes predefinidos. Mediante el muestreoautodocimante, puede determinar si un porcentaje concreto de abandonos describe de formaadecuada los cuatro tipos principales de clientes. Si desea obtener más información, consulte Usode muestreo autodocimante para obtener intervalos de confianza para proporciones en Capítulo 3en PASW® Bootstrapping 18.

En una revisión de los registros de empleados, los directivos están interesados en las experienciasanteriores de los empleados. La experiencia laboral es asimétrica, lo que hace que la media seauna estimación menos deseable de la experiencia laboral “habitual” entre los empleados que lamediana. Sin embargo, los intervalos de confianza no están disponibles para la mediana en elproducto. Si desea obtener más información, consulte Uso de muestreo autodocimante paraobtener intervalos de confianza de medianas en Capítulo 3 en PASW® Bootstrapping 18.

Los directivos también están interesados en determinar los factores que están asociados con losaumentos de salarios de los empleados mediante la definición de un modelo lineal de la diferenciaentre el salario inicial y el actual. Al realizar un muestreo autodocimante de un modelo lineal,puede utilizar métodos de muestreado sucesivo especiales (muestreo autodocimante residual ywild) para obtener resultados más precisos. Si desea obtener más información, consulte Usode muestreo autodocimante para seleccionar mejores predictores en Capítulo 3 en PASW®Bootstrapping 18.

Muchos procedimientos admiten el muestreo autodocimante y la combinación de resultadosa partir del análisis de muestras autodocimantes. Los controles para especificar análisisautodocimantes se integran directamente como un cuadro de diálogo subordinado común enprocedimientos que admiten el muestreo autodocimante. La configuración del cuadro de diálogode muestras autodocimantes permanece en los procedimientos de forma que, si ejecuta un análisisde frecuencias con muestreo autodocimante en los cuadros de diálogo, el muestreo autodocimantese activará por defecto para otros procedimientos que lo admitan.

3

4

Capítulo 2

Para obtener un análisis autodocimante

E En los menús seleccione un procedimiento que admita el muestreo autodocimante y pulse enAutodocimante.Figura 2-1Cuadro de diálogo Autodocimante

E Seleccione Ejecutar bootstrapping.

También puede controlar las siguientes opciones:

Número de muestras. Para los intervalos de percentil y BCa producidos, se recomienda utilizar almenos 1000 muestras autodocimantes. Especifique un número entero positivo.

Definir semilla para tornado de Mersenne. Si se establece una semilla es posible replicar análisis.El uso de este control es parecido a establecer el tornado de Mersenne como generador activo yespecificar un punto de inicio fijo en el cuadro de diálogo Generadores de números aleatorios, conla importante diferencia de que la definición de la semilla de este cuadro de diálogo mantendráel estado actual del generador de números aleatorios y restaurará dicho estado cuando hayaterminado el análisis.

Intervalos de confianza. Especifique un nivel de confianza mayor que 50 y menor que 100. Losintervalos de percentiles sólo utilizan los valores autodocimantes ordenados correspondientes alos percentiles de intervalo de confianza deseados. Por ejemplo, un intervalo de confianza depercentil del 95% utiliza los percentiles 2,5 y 97,5 de los valores autodocimantes como los límitesinferior y superior del intervalo (interpolando los valores autodocimantes si es necesario). Los

5

Muestreo autodocimante

intervalos de sesgo corregidos y acelerados (BCa) son intervalos ajustados que son más precisos,pero necesitan más tiempo de cálculo.

Muestreo. El método simple consiste en volver a muestrear los casos reemplazándolos del conjuntode datos original. El método estratificado consiste en volver a muestrear los casos sustituyendo elconjunto de datos original, en los estratos definidos por las variables de estratos de clasificacióncruzada. El muestreo autodocimante estratificado puede ser muy útil si las unidades de los estratosson relativamente homogéneas aunque las unidades para todos los estratos son muy diferentes.

Procedimientos que admiten el muestreo autodocimante

Los siguientes procedimientos admiten el muestreo autodocimante.

Nota:El muestreo autodocimante no funciona con conjuntos de datos de imputación múltiple. Sihay una variable Imputation_ en el conjunto de datos, el cuadro de diálogo Autodocimante sedesactiva.El muestreo autodocimante utiliza eliminación por lista para determinar los casos; es decir, loscasos con valores perdidos en cualquiera de las variables de análisis se eliminan del análisis,de forma que, cuando el muestreo autodocimante está en efecto, eliminación por lista se activaincluso si el procedimiento de análisis especifica otra forma de gestión de valores perdidos.

Opción Estadísticas básicas

Frecuencias

La tabla Estadísticos admite estimaciones autodocimantes de media, desviación típica,varianza, mediana, asimetría, curtosis y percentiles.La tabla Frecuencias admite estimaciones autodocimantes de porcentaje.

Descriptivos

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media, desviacióntípica, varianza, asimetría y curtosis.

Explorar

La tabla Descriptivos admite estimaciones autodocimantes de media, media recortada al 5%,desviación típica, varianza, mediana, asimetría, curtosis y amplitud intercuartil.La tabla Estimadores-M admite estimaciones autodocimantes de estimador-M de Huber,estimador biponderado de Tukey, estimador-M de Hampel y onda de Andrews.La tabla Percentiles admite estimaciones autodocimantes de percentiles.

Tablas de contingencia

La tabla Medidas direccionales admite estimaciones autodocimantes de Lambda, Goodman yKruskal Tau, coeficiente de incertidumbre y d de Somers.

6

Capítulo 2

La tabla Medidas simétricas admite estimaciones autodocimantes de Phi, V de Cramer,coeficiente de contingencia, tau-b de Kendall, tau-c de Kendall, Gamma, correlación deSpearman y r de Pearson.La tabla Estimación de riesgo admite estimaciones autodocimantes de la razón de las ventajas.La tabla de razón de las ventajas común de Mantel-Haenszel admite estimacionesautodocimantes y pruebas de significación de ln(Estimación).

Medias

La tabla Informe admite estimaciones autodocimantes de media, mediana, mediana agrupada,desviación típica, varianza, curtosis, asimetría, media armónica y media geométrica.

Prueba T para una muestra

La tabla Estadísticos admite estimaciones autodocimantes de media y desviación típica.La tabla Prueba admite estimaciones autodocimantes y pruebas de significación de diferenciade medias.

Prueba T para muestras independientes

La tabla Estadísticos de grupo admite estimaciones autodocimantes de media y desviacióntípica.La tabla Prueba admite estimaciones autodocimantes y pruebas de significación de diferenciade medias.

Prueba T para muestras relacionadas

La tabla Estadísticos admite estimaciones autodocimantes de media y desviación típica.La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.La tabla Prueba admite estimaciones autodocimantes de media.

ANOVA de un factor

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Comparaciones múltiples admite estimaciones autodocimantes de diferencia demedias.La tabla Pruebas de contraste admite estimaciones autodocimantes y pruebas de significaciónde valor de contraste.

MLG Univariante

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Estimaciones de los parámetros admite estimaciones autodocimantes y pruebasde significación de coeficiente B.La tabla de resultados de contraste admite estimaciones autodocimantes y pruebas designificación de diferencia.Medias marginales estimadas: La tabla Estimaciones admite estimaciones autodocimantesde media.

7


Medias marginales estimadas: La tabla Comparaciones por parejas admite estimacionesautodocimantes de diferencia de medias.Pruebas post hoc: La tabla Comparaciones múltiples admite estimaciones autodocimantesde diferencia de medias.

Correlaciones bivariadas

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.

Nota: Si se requieren correlaciones no paramétricas (tau-b de Kendall o Spearman) además de lascorrelaciones de Pearson, el cuadro de diálogo pega los comandos CORRELATIONS y NONPAR

CORR con un comando BOOTSTRAP diferente para cada una. Se utilizarán las mismas muestrasautodocimantes para calcular todas las correlaciones.

Correlaciones parciales

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.

Regresión lineal

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.La tabla Resumen de modelo admite estimaciones autodocimantes de Durbin-Watson.La tabla Coeficientes admite estimaciones autodocimantes y pruebas de significación decoeficiente B.La tabla Coeficientes de correlación admite estimaciones autodocimantes de correlaciones.La tabla Estadísticos residuales admite estimaciones autodocimantes de media y desviacióntípica.

Regresión ordinal

La tabla Estimaciones de los parámetros admite estimaciones autodocimantes y pruebasde significación de coeficiente B.

Análisis discriminante

La tabla Coeficientes de funciones discriminantes canónicas tipificados admite estimacionesautodocimantes de coeficientes tipificados.La tabla Coeficientes de funciones discriminantes canónicas admite estimacionesautodocimantes de coeficientes no tipificados.La tabla Coeficientes de función de clasificación admite estimaciones autodocimantes decoeficientes.

8

Capítulo 2

Opción Estadísticas avanzadas

MLG Multivariante


Modelos lineales mixtos

La tabla Estimaciones de efectos fijos admite estimaciones autodocimantes y pruebas designificación de estimación.La tabla Estimaciones de parámetros de covarianzas admite estimaciones autodocimantesy pruebas de significación de estimación.

Modelos lineales generalizados y Ecuaciones de estimación generalizadas


Regresión de Cox

La tabla Variables en la ecuación admite estimaciones autodocimantes y pruebas designificación de coeficiente B.

Opción Regresión

Regresión logística binaria

La tabla Variables en la ecuación admite estimaciones autodocimantes y pruebas designificación de coeficiente B.

Regresión logística multinomial


Funciones adicionales del comando BOOTSTRAP

Con el lenguaje de sintaxis de comandos también podrá:Realice muestreos autodocimantes residuales y wild (subcomando SAMPLING)

Si desea información detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos(Command Syntax Reference).

Parte II:Ejemplos

Capítulo

3Muestreo autodocimante

Bootstrapping es un método para derivar estimaciones robustas de errores típicos e intervalosde confianza para estimaciones como la media, mediana, proporción, razón de las ventajas,coeficientes de correlación o coeficientes de regresión. También se puede utilizar para crearpruebas hipotéticas. Bootstrapping es más útil como alternativa a estimaciones paramétricas encaso de que los supuestos de esos métodos sean dudosos (como en el caso de modelos de regresióncon residuos heteroscedástico se ajusten a muestras pequeñas), o si la inferencia paramétrica no esposible o requiere fórmulas muy complicadas para el cálculo de errores típicos (como en el casode cálculo de intervalos de confianza de mediana, cuartiles y otros percentiles).

Uso de muestreo autodocimante para obtener intervalos de confianzapara proporciones

Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes por abandono cadames. Para reducir el porcentaje de abandono, los directivos quieren saber si este porcentaje varíaen diferentes grupos de clientes predefinidos.

Esta información se recoge en el archivo telco.sav. Si desea obtener más información, consulteArchivos muestrales en Apéndice A el p. 31. Utilice el muestreo autodocimante para determinarsi un porcentaje concreto de abandonos describe de forma adecuada los cuatro tipos principalesde clientes.

Nota: Este ejemplo utiliza el procedimiento de frecuencias y requiere la opción Statistics Base.

Preparación de los datos

En primer lugar debe segmentar el archivo por Categoría del cliente.

E Para segmentar el archivo, elija en los menús del Editor de datos:Datos

Segmentar archivo...

10

11


Figura 3-1Cuadro de diálogo Segmentar archivo

E Seleccione Comparar los grupos.

E Seleccione Categoría del cliente como la variable en la que se basan los grupos.

E Pulse en Aceptar.

Ejecución del análisis

E Para obtener intervalos de confianza autodocimantes para proporciones, seleccione en los menús:Analizar

Estadísticos descriptivosFrecuencias...

Figura 3-2Cuadro de diálogo principal Frecuencias

E Seleccione Abandonaron durante el último mes [abandono] como una variable en el análisis.

12

Capítulo 3

E Pulse en Estadísticos.

Figura 3-3Cuadro de diálogo Estadísticos

E Seleccione Media en el grupo Tendencia central.

E Pulse en Continuar.

E Pulse en Autodocimante en el cuadro de diálogo Frecuencias.

13


Figura 3-4Cuadro de diálogo Autodocimante


E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para

Tornado de Mersenne e introduzca 9191972 como semilla.


E Pulse en Aceptar en el cuadro de diálogo Frecuencias.

Estas selecciones generan la siguiente sintaxis de comandos:

SORT CASES BY custcat.SPLIT FILE LAYERED BY custcat.PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES INPUT=churn/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

FREQUENCIES VARIABLES=churn/STATISTICS=MEAN/ORDER=ANALYSIS.

RESTORE.

Los comandos SORT CASES y SPLIT FILE dividen el archivo en la variable custcat.

14

Capítulo 3

Los comandos PRESERVE y RESTORE “recuerdan” el estado actual del generador de númerosaleatorios y restaurar el sistema al estado posterior a la finalización del método autodocimante.El comando SET define el generador de números aleatorios a Mersenne Twister y el índice a9191972, para que los resultados del muestreo autodocimante se puedan replicar exactamente.El comando SHOW muestra el índice en el resultado para futura referencia.El comando BOOTSTRAP solicita 1.000 muestras autodocimantes mediante nuevas muestrassimples.La variable churn se utiliza para determinar las muestras caso a caso. Los registros convalores perdidos en esta variable se eliminan del análisis.El procedimiento FREQUENCIES posterior a BOOTSTRAP se ejecuta en cada una de lasmuestras autodocimantes.El subcomando STATISTICS produce la media de la variable churn en los datos originales.Además, las estadísticas combinadas se producen para la media y los porcentajes en la tablade frecuencias.

Especificaciones de muestreo autodocimanteFigura 3-5Especificaciones de muestreo autodocimante

La tabla de especificaciones de muestreo autodocimante contiene los ajustes utilizados durante lasnuevas muestras y es una referencia útil para comprobar si se han completado los análisis previstos.

15


Estadísticos

Figura 3-6Tabla de estadísticos con el intervalo de confianza autodocimante para la proporción

La tabla de estadísticos muestra, para cada nivel de Categoría del cliente, el valor de media deAbandonaron durante el último mes. Como Abandonaron durante el último mes sólo toma losvalores de 0 y 1, con 1 para un cliente que ha abandonado, la media es igual a la proporción de losusuarios que han abandonado. La columna Estadísticos muestra los valores que suele producirFrecuencias, utilizando el conjunto de datos original. Las columnas Autodocimante se producenpor los algoritmos de muestreo autodocimante.

Bias es la diferencia entre el valor promedio de este estadístico entre las muestrasautodocimantes y el valor en la columna Estadístico. En este caso, el valor promedio deAbandonaron durante el último mes se calcula para las 1000 muestras autodocimantes yposteriormente se calcula el promedio estas medias.Desv. El error es el error típico de Abandonaron durante el último mes en las 1000 muestrasautodocimantes.El límite inferior del 95% del intervalo de confianza autodocimante es una interpolación de losvalores 25 y 26 de Abandonaron durante el último mes, si las 1000 muestras autodocimantesse clasifican en orden ascendente. El límite superior es una interpolación de los valoresde las medias 975 y 976.

Los resultados de la tabla sugieren que el índice de abandono es diferente entre tipos de clientesdiferentes. En concreto, el intervalo de confianza de los clientes de Servicio plus no se superponecon ningún otro, lo que sugiere que de media es menos probable que estos clientes abandonen.

Si trabaja con variables categóricas con sólo dos valores, estos intervalos de confianza sonalternativas a los producidos por el procedimiento de Pruebas no paramétricas para una muestra oPrueba T para una muestra.

16

Capítulo 3

Tabla de frecuenciaFigura 3-7Tabla de frecuencias con el intervalo de confianza autodocimante para la proporción

La tabla de frecuencias muestra los intervalos de confianza de los porcentajes (proporción × 100%)de cada categoría y están disponibles para todas las variables categóricas. Otras característicasdel producto no tienen intervalos de confianza comparables.

Uso de muestreo autodocimante para obtener intervalos de confianzade medianas

En una revisión de los registros de empleados, los directivos están interesados en las experienciasanteriores de los empleados. La experiencia laboral es asimétrica, lo que hace que la media seauna estimación menos deseable de la experiencia laboral “habitual” entre los empleados que lamediana. Sin embargo, sin muestreo autodocimante, los intervalos de confianza de la mediana noestán disponibles de forma general en procedimientos estadísticos del producto.

Esta información se recoge en el archivo Employee data.sav. Si desea obtener más información,consulte Archivos muestrales en Apéndice A el p. 31. Uso de muestreo autodocimante paraobtener intervalos de confianza de la media.

Nota: Este ejemplo utiliza el procedimiento Explorar y requiere la opción Statistics Base.


E Para obtener intervalos de confianza autodocimantes de la mediana, seleccione en los menús:Analizar

Estadísticos descriptivosExplorar...

17


Figura 3-8Cuadro de diálogo principal Explorar

E Seleccione Experiencia anterior (meses) [prevexp] como variable dependiente.

E Seleccione Estadísticos en la sección Mostrar.

E Pulse en Autodocimante.

18

Capítulo 3





E Para obtener resultados más precisos (requiere más tiempo de procesamiento), seleccione Bias

corregido acelerado (BCa).


E Pulse en Aceptar en el cuadro de diálogo Explorar.


PRESERVE.SET RNG=MT MTINDEX=592004.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=prevexp/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

EXAMINE VARIABLES=prevexp/PLOT NONE/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

19


RESTORE.

Los comandos PRESERVE y RESTORE “recuerdan” el estado actual del generador de númerosaleatorios y restaurar el sistema al estado posterior a la finalización del método bootstrap.El comando SET define el generador de números aleatorios a Mersenne Twister y el índice a592004, para que los resultados del muestreo bootstrap se puedan replicar exactamente. Elcomando SHOW muestra el índice en el resultado para futura referencia.El comando BOOTSTRAP solicita 1000 muestras bootstrap mediante nuevas muestras simples.El subcomando VARIABLES especifica que la variable prevexp se utiliza para determinarlas muestras caso a caso. Los registros con valores perdidos en esta variable se eliminandel análisis.El subcomando CRITERIA , además de requerir el número de muestras de bootstrap,requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar delos intervalos de percentiles predefinidos.El procedimiento EXAMINE posterior a BOOTSTRAP se ejecuta en cada una de las muestrasbootstrap.El subcomando PLOT desactiva el resultado de la representación.El resto de opciones están establecidas en sus valores por defecto.

DescriptivosFigura 3-10Tabla Descriptivos con intervalos de confianza autodocimantes

La tabla descriptivos contiene un número de intervalos de confianza de estadísticos yautodocimantes de esos estadísticos. El intervalo de confianza autodocimante de la media (86,39,105,20) es similar al intervalo de confianza paramétrico (86,42, 105,30) y sugiere que el empleado“típico” tiene unos 7-9 años de experiencia previa. Sin embargo, Experiencia anterior (meses)tiene una distribución asimétrica, que convierte a la media en un indicador menos deseable delsalario actual “típico” que la mediana. El intervalo de confianza autodocimante de la mediana(50,00, 60,00) es más estrecho e inferior que el intervalo de confianza de la media y sugiere que el

20

Capítulo 3

empleado “típico” tiene unos 4-5 años de experiencia previa. El uso de muestreo autodocimante hahecho posible obtener un intervalo de valores que representen mejor la experiencia típica anterior.

Uso de muestreo autodocimante para seleccionar mejores predictores

Durante una revisión de los registros de los empleados, los directivos también están interesados endeterminar los factores que están asociados con los aumentos de salarios de los empleados, aldefinir un modelo lineal de la diferencia entre el salario inicial y el actual. Al realizar un muestreoautodocimante de un modelo lineal, puede utilizar métodos de muestreado sucesivo especiales(muestreo autodocimante residual y wild) para obtener resultados más precisos.

Esta información se recoge en el archivo Employee data.sav. Si desea obtener más información,consulte Archivos muestrales en Apéndice A el p. 31.

Nota: Este ejemplo utiliza el procedimiento MLG Univariante y requiere la opción Statistics Base.

Preparación de los datos

En primer lugar debe calcular la diferencia entre Salario actual y Salario inicial.

E Elija en los menús:Transformar

Calcular variable...

21


Figura 3-11Cuadro de diálogo Calcular variable

E Escriba diff como variable de destino.

E Escriba salario-iniciosalario como expresión numérica.

E Pulse en Aceptar.


Para ejecutar MLG Univariante con muestreo autodocimante residual y wild, necesita crearresiduos.

E Elija en los menús:Analizar

Modelo lineal generalUnivariante...

22

Capítulo 3

Figura 3-12Cuadro de diálogo principal MLG Univariante

E Seleccione diff como la variable dependiente.

E Seleccione Género [gender], Categoría laboral [gender] y Clasificación étnica [minority]como factores fijos.

E Seleccione Meses desde el contrato [jobtime] y Experiencia anterior (meses) [prevexp] comocovariables.

E Pulse en Modelo.

23


Figura 3-13Cuadro de diálogo Modelo

E Seleccione Personalizado y seleccione Efectos principales en la lista desplegable Construir términos.

E Seleccione gender hasta prevexp como términos de modelo.


E Pulse en Guardar en el cuadro de diálogo MLG Univariante.

24

Capítulo 3

Figura 3-14Cuadro de diálogo Guardar

E Seleccione No tipificados en el grupo Residuos.


E Pulse en Autodocimante en el cuadro de diálogo MLG Univariante.

25



La configuración autodocimante se mantiene en los cuadros de diálogo que admiten el muestreoautodocimante. Mientras el muestreo autodocimante esté activado no se podrán guardar nuevasvariables en el conjunto de datos, así que deberá asegurarse de que está desactivado.

E Si es necesario, elimine la selección de Ejecutar bootstrapping.

E Pulse en Aceptar en el cuadro de diálogo MLG Univariante. El conjunto de datos contiene ahorauna nueva variable, RES_1, que contiene los residuos no tipificados del modelo.

E Active el cuadro de diálogo MLG Univariante y pulse Guardar.

26

Capítulo 3

E Cancele la selección de No tipificados y pulse Continuar y Opciones en el cuadro de diálogo MLGUnivariante.

Figura 3-16Cuadro de diálogo Opciones

E Seleccione Estimaciones de los parámetros en la sección Mostrar.


E Pulse en Autodocimante en el cuadro de diálogo MLG Univariante.

27






E No hay opciones para ejecutar muestreo autodocimante wild en los cuadros de diálogo, por lo quetendrá que pulsar Continuar y, a continuación, Pegar en el cuadro de diálogo MLG Univariante.


PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.

28

Capítulo 3

RESTORE.

Para ejecutar muestreo autodocimante wild, edite la palabra clave METHOD del subcomandoSAMPLING a METHOD=WILD(RESIDUALS=RES_1).

El conjunto “final” de la sintaxis de comandos tendrá la siguiente apariencia:

PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP/SAMPLING METHOD=WILD(RESIDUALS=RES_1)/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.RESTORE.

Los comandos PRESERVE y RESTORE “recuerdan” el estado actual del generador de númerosaleatorios y restaurar el sistema al estado posterior a la finalización del método bootstrap.El comando SET define el generador de números aleatorios a Mersenne Twister y el índice a9191972, para que los resultados del muestreo bootstrap se puedan replicar exactamente. Elcomando SHOW muestra el índice en el resultado para futura referencia.El comando BOOTSTRAP requiere 1000 muestras de bootstrap con muestreo wild y RES_1como la variable que contiene los residuos.El subcomando VARIABLES especifica que diff es la variable objetivo del modelo lineal. Estavariable y gender, jobcat, minority, jobtime y prevexp se utilizan para determinar las muestrascaso a caso. Los registros con valores perdidos en estas variables se eliminan del análisis.El subcomando CRITERIA , además de requerir el número de muestras de bootstrap,requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar delos intervalos de percentiles predefinidos.El procedimiento UNIANOVA posterior a BOOTSTRAP se ejecuta en cada muestra bootstrap yproduce estimaciones de los parámetros para los datos originales. Además, los estadísticoscombinados se producen para los coeficientes del modelo.

29


Estimaciones de los parámetros

Figura 3-18Estimaciones de los parámetros

La tabla Estimaciones de los parámetros muestra las estimaciones normales sin muestreoautodocimante de los parámetros de los términos de modelo. El valor de significación de 0,105para [minority=0] es mayor que 0,05, lo que sugiere que Clasificación étnica no tiene ningúnefecto en los aumentos de los salarios.

Figura 3-19Estimaciones de parámetros autodocimantes

Ahora mire la tabla Estimaciones de parámetros autodocimantes. En la columna Error típico, veráque los errores típicos paramétricos de algunos coeficientes, como intersección, son demasiadopequeños en comparación con las estimaciones autodocimantes y los intervalos de confianzason mayores. En algunos coeficientes, como [minority=0], los errores típicos paramétricoseran demasiado grandes y el valor de significación de 0,009 en los resultados autodocimantes,menor de 0,05, muestra que la diferencia observada en aumentos de salarios entre los empleados

30

Capítulo 3

pertenecientes a minorías étnicas o no no obedecen a las posibilidades. Los directivos saben ahoraque merece la pena investigar más a fondo esta diferencia para determinar sus posibles causas.

Lecturas recomendadas

Consulte los siguientes textos si desea obtener más información acerca de muestreosautodocimantes:

Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : CambridgeUniversity Press.

Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.

Apéndice

AArchivos muestrales

Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples deldirectorio de instalación. Hay una carpeta independiente dentro del subdirectorio Samples paracada uno de los siguientes idiomas: Inglés, francés, alemán, italiano, japonés, coreano, polaco,ruso, chino simplificado, español y chino tradicional.

No todos los archivos muestrales están disponibles en todos los idiomas. Si un archivo muestralno está disponible en un idioma, esa carpeta de idioma contendrá una versión en inglés del archivomuestral.

Descripciones

A continuación, se describen brevemente los archivos muestrales usados en varios ejemplosque aparecen a lo largo de la documentación.

accidents.sav.Archivo de datos hipotéticos sobre una compañía de seguros que estudia losfactores de riesgo de edad y género que influyen en los accidentes de automóviles de unaregión determinada. Cada caso corresponde a una clasificación cruzada de categoría deedad y género.adl.sav.Archivo de datos hipotéticos relativo a los esfuerzos para determinar las ventajas de untipo propuesto de tratamiento para pacientes que han sufrido un derrame cerebral. Los médicosdividieron de manera aleatoria a pacientes (mujeres) que habían sufrido un derrame cerebralen dos grupos. El primer grupo recibió el tratamiento físico estándar y el segundo recibió untratamiento emocional adicional. Tres meses después de los tratamientos, se puntuaron lascapacidades de cada paciente para realizar actividades cotidianas como variables ordinales.advert.sav. Archivo de datos hipotéticos sobre las iniciativas de un minorista para examinarla relación entre el dinero invertido en publicidad y las ventas resultantes. Para ello, serecopilaron las cifras de ventas anteriores y los costes de publicidad asociados.aflatoxin.sav. Archivo de datos hipotéticos sobre las pruebas realizadas en las cosechas demaíz con relación a la aflatoxina, un veneno cuya concentración varía ampliamente en losrendimientos de cultivo y entre los mismos. Un procesador de grano ha recibido 16 muestrasde cada uno de los 8 rendimientos de cultivo y ha medido los niveles de aflatoxinas en partespor millón (PPM).aflatoxin20.sav. Este archivo de datos contiene las medidas de aflatoxina de cada una de las 16muestras de los rendimientos 4 y 8 procedentes del archivo de datos aflatoxin.sav.anorectic.sav.Mientras trabajaban en una sintomatología estandarizada del comportamientoanoréxico/bulímico, los investigadores (Van der Ham, Meulman, Van Strien, y Van Engeland,1997) realizaron un estudio de 55 adolescentes con trastornos de la alimentación conocidos.Cada paciente fue examinado cuatro veces durante cuatro años, lo que representa un total

31

32

Apéndice A

de 220 observaciones. En cada observación, se puntuó a los pacientes por cada uno de los16 síntomas. Faltan las puntuaciones de los síntomas para el paciente 71 en el tiempo 2, elpaciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observacionesválidas.autoaccidents.sav. Archivo de datos hipotéticos sobre las iniciativas de un analista de segurospara elaborar un modelo del número de accidentes de automóvil por conductor teniendo encuenta la edad y el género del conductor. Cada caso representa un conductor diferente yregistra el sexo, la edad en años y el número de accidentes de automóvil del conductor en losúltimos cinco años.band.sav Este archivo de datos contiene las cifras de ventas semanales hipotéticas de CD demúsica de una banda. También se incluyen datos para tres variables predictoras posibles.bankloan.sav.Archivo de datos hipotéticos sobre las iniciativas de un banco para reducir latasa de moras de créditos. El archivo contiene información financiera y demográfica de850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los queanteriormente se les ha concedido un préstamo. Al menos 150 casos son posibles clientescuyos riesgos de crédito el banco necesita clasificar como positivos o negativos.bankloan_binning.sav. Archivo de datos hipotéticos que contiene información financiera ydemográfica sobre 5.000 clientes anteriores.behavior.sav. En un ejemplo clásico (Price y Bouffard, 1974), se pidió a 52 estudiantesque valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escalade 10 puntos que oscilaba entre 0 =“extremadamente apropiado” y 9=“extremadamenteinapropiado”. Los valores promediados respecto a los individuos se toman comodisimilaridades.behavior_ini.sav. Este archivo de datos contiene una configuración inicial para una soluciónbidimensional de behavior.sav.brakes.sav. Archivo de datos hipotéticos sobre el control de calidad de una fábrica queproduce frenos de disco para automóviles de alto rendimiento. El archivo de datos contienelas medidas del diámetro de 16 discos de cada una de las 8 máquinas de producción. Eldiámetro objetivo para los frenos es de 322 milímetros.breakfast.sav.En un estudio clásico (Green y Rao, 1972), se pidió a 21 estudiantes deadministración de empresas de la Wharton School y sus cónyuges que ordenaran 15 elementosde desayuno por orden de preferencia, de 1=“más preferido” a 15=“menos preferido”. Suspreferencias se registraron en seis escenarios distintos, de “Preferencia global” a “Aperitivo,con bebida sólo”.breakfast-overall.sav. Este archivo de datos sólo contiene las preferencias de elementos dedesayuno para el primer escenario, “Preferencia global”.broadband_1.sav Archivo de datos hipotéticos que contiene el número de suscriptores, porregión, a un servicio de banda ancha nacional. El archivo de datos contiene números desuscriptores mensuales para 85 regiones durante un período de cuatro años.broadband_2.sav Este archivo de datos es idéntico a broadband_1.sav pero contiene datospara tres meses adicionales.car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar(McCullagh y Nelder, 1989) estudia las reclamaciones por daños en vehículos. La cantidad dereclamaciones media se puede modelar como si tuviera una distribución Gamma, mediante

33

Archivos muestrales

una función de enlace inversa para relacionar la media de la variable dependiente conuna combinación lineal de la edad del asegurado, el tipo de vehículo y la antigüedad delvehículo. El número de reclamaciones presentadas se puede utilizar como una ponderación deescalamiento.car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista yespecificaciones físicas hipotéticas de varias marcas y modelos de vehículos. Los precios delista y las especificaciones físicas se han obtenido de edmunds.com y de sitios de fabricantes.car_sales_uprepared.sav.Ésta es una versión modificada de car_sales.sav que no incluyeninguna versión transformada de los campos.carpet.sav En un ejemplo muy conocido (Green y Wind, 1973), una compañía interesada ensacar al mercado un nuevo limpiador de alfombras desea examinar la influencia de cincofactores sobre la preferencia del consumidor: diseño del producto, marca comercial, precio,sello de buen producto para el hogar y garantía de devolución del importe. Hay tres nivelesde factores para el diseño del producto, cada uno con una diferente colocación del cepillodel aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dosniveles (no o sí) para los dos últimos factores. Diez consumidores clasificaron 22 perfilesdefinidos por estos factores. La variable Preferencia contiene el rango de las clasificacionesmedias de cada perfil. Las clasificaciones inferiores corresponden a preferencias elevadas.Esta variable refleja una medida global de la preferencia de cada perfil.carpet_prefs.sav Este archivo de datos se basa en el mismo ejemplo que el descrito paracarpet.sav, pero contiene las clasificaciones reales recogidas de cada uno de los 10consumidores. Se pidió a los consumidores que clasificaran los 22 perfiles de los productosempezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen losID de los perfiles asociados, como se definen en carpet_plan.sav.catalog.savEste archivo de datos contiene cifras de ventas mensuales hipotéticas de tresproductos vendidos por una compañía de venta por catálogo. También se incluyen datospara cinco variables predictoras posibles.catalog_seasfac.savEste archivo de datos es igual que catalog.sav, con la excepción deque incluye un conjunto de factores estacionales calculados a partir del procedimientoDescomposición estacional junto con las variables de fecha que lo acompañan.cellular.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía de telefoníamóvil para reducir el abandono de clientes. Las puntuaciones de propensión al abandono declientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuación de 50o superior pueden estar buscando otros proveedores.ceramics.sav.Archivo de datos hipotéticos sobre las iniciativas de un fabricante paradeterminar si una nueva aleación de calidad tiene una mayor resistencia al calor que unaaleación estándar. Cada caso representa una prueba independiente de una de las aleaciones; latemperatura a la que registró el fallo del rodamiento.cereal.sav. Archivo de datos hipotéticos sobre una encuesta realizada a 880 personas sobresus preferencias en el desayuno, teniendo también en cuenta su edad, sexo, estado civil y sitienen un estilo de vida activo o no (en función de si practican ejercicio al menos dos veces ala semana). Cada caso representa un encuestado diferente.clothing_defects.sav. Archivo de datos hipotéticos sobre el proceso de control de calidad enuna fábrica de prendas. Los inspectores toman una muestra de prendas de cada lote producidoen la fábrica, y cuentan el número de prendas que no son aceptables.

34

Apéndice A

coffee.sav. Este archivo de datos pertenece a las imágenes percibidas de seis marcas de caféhelado (Kennedy, Riquier, y Sharp, 1996). Para cada uno de los 23 atributos de imagen de caféhelado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo.Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la confidencialidad.contacts.sav.Archivo de datos hipotéticos sobre las listas de contactos de un grupo derepresentantes de ventas de ordenadores de empresa. Cada uno de los contactos estácategorizado por el departamento de la compañía en el que trabaja y su categoría en lacompañía. Además, también se registran los importes de la última venta realizada, el tiempotranscurrido desde la última venta y el tamaño de la compañía del contacto.creditpromo.sav. Archivo de datos hipotéticos sobre las iniciativas de unos almacenespara evaluar la eficacia de una promoción de tarjetas de crédito reciente. Para este fin, seseleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionandouna tasa de interés reducida sobre las ventas realizadas en los siguientes tres meses. La otramitad recibió un anuncio estacional estándar.customer_dbase.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía parausar la información de su almacén de datos para realizar ofertas especiales a los clientescon más probabilidades de responder. Se seleccionó un subconjunto de la base de clientesaleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.customer_information.sav. Archivo de datos hipotéticos que contiene la información de correodel cliente, como el nombre y la dirección.customers_model.sav. Este archivo contiene datos hipotéticos sobre los individuos a los queva dirigida una campaña de marketing. Estos datos incluyen información demográfica, unresumen del historial de compras y si cada individuo respondió a la campaña. Cada casorepresenta un individuo diferente.customers_new.sav. Este archivo contiene datos hipotéticos sobre los individuos que soncandidatos potenciales para una campaña de marketing. Estos datos incluyen informacióndemográfica y un resumen del historial de compras de cada individuo. Cada caso representaun individuo diferente.debate.sav. Archivos de datos hipotéticos sobre las respuestas emparejadas de una encuestarealizada a los asistentes a un debate político antes y después del debate. Cada casocorresponde a un encuestado diferente.debate_aggregate.sav. Archivo de datos hipotéticos que agrega las respuestas de debate.sav.Cada caso corresponde a una clasificación cruzada de preferencias antes y después del debate.demo.sav. Archivos de datos hipotéticos sobre una base de datos de clientes adquirida conel fin de enviar por correo ofertas mensuales. Se registra si el cliente respondió a la oferta,junto con información demográfica diversa.demo_cs_1.sav.Archivo de datos hipotéticos sobre el primer paso de las iniciativas deuna compañía para recopilar una base de datos de información de encuestas. Cada casocorresponde a una ciudad diferente, y se registra la identificación de la ciudad, la región,la provincia y el distrito.demo_cs_2.sav.Archivo de datos hipotéticos sobre el segundo paso de las iniciativas deuna compañía para recopilar una base de datos de información de encuestas. Cada casocorresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, yse registra la identificación de la unidad, la subdivisión, la ciudad, el distrito, la provincia y laregión. También se incluye la información de muestreo de las primeras dos etapas del diseño.

35

Archivos muestrales

demo_cs.sav.Archivo de datos hipotéticos que contiene información de encuestas recopiladamediante un diseño de muestreo complejo. Cada caso corresponde a una unidad familiardistinta, y se recopila información demográfica y de muestreo diversa.dmdata.sav. Es un archivo de datos hipotético que contiene información demográfica y decompra para una empresa de marketing directo.dietstudy.sav.Este archivo de datos hipotéticos contiene los resultados de un estudio sobre la“dieta Stillman” (Rickman, Mitchell, Dingman, y Dalen, 1974). Cada caso correspondea un sujeto distinto y registra sus pesos antes y después de la dieta en libras y niveles detriglicéridos en mg/100 ml.dischargedata.sav. Archivo de datos sobre Uso de los patrones estacionales del WinnipegHospital, (Menec, Roos, Nowicki, MacWilliam, Finlayson, y Negro, 1999) de ManitobaCentre for Health Policy.dvdplayer.sav. Archivo de datos hipotéticos sobre el desarrollo de un nuevo reproductor deDVD. El equipo de marketing ha recopilado datos de grupo de enfoque mediante un prototipo.Cada caso corresponde a un usuario encuestado diferente y registra información demográficasobre los encuestados y sus respuestas a preguntas acerca del prototipo.vuelo.sav. Este archivo de datos contiene las millas de pilotaje entre 10 ciudades americanas.german_credit.sav.Este archivo de datos se toma del conjunto de datos “German credit” delas Repository of Machine Learning Databases (Blake y Merz, 1998) de la Universidadde California, Irvine.grocery_1month.sav. Este archivo de datos hipotéticos es el archivo de datosgrocery_coupons.sav con las compras semanales “acumuladas” para que cada casocorresponda a un cliente diferente. Algunas de las variables que cambiaban semanalmentedesaparecen de los resultados, y la cantidad gastada registrada se convierte ahora en la sumade las cantidades gastadas durante las cuatro semanas del estudio.grocery_coupons.sav. Archivo de datos hipotéticos que contiene datos de encuestasrecopilados por una cadena de tiendas de alimentación interesada en los hábitos de comprade sus clientes. Se sigue a cada cliente durante cuatro semanas, y cada caso corresponde aun cliente-semana distinto y registra información sobre dónde y cómo compran los clientes,incluida la cantidad que invierten en comestibles durante esa semana.guttman.sav.Bell (Bell, 1961) presentó una tabla para ilustrar posibles grupos sociales.Guttman (Guttman, 1968) utilizó parte de esta tabla, en la que se cruzaron cinco variablesque describían elementos como la interacción social, sentimientos de pertenencia a un grupo,proximidad física de los miembros y grado de formalización de la relación con siete grupossociales teóricos, incluidos multitudes (por ejemplo, las personas que acuden a un partido defútbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia),públicos (por ejemplo, los lectores de periódicos o los espectadores de televisión),muchedumbres (como una multitud pero con una interacción mucho más intensa), gruposprimarios (íntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederacióndébil que resulta de la proximidad cercana física y de la necesidad de servicios especializados).healthplans.sav. Archivo de datos hipotéticos sobre las iniciativas de un grupo de segurospara evaluar cuatro planes sanitarios diferentes para pequeñas empresas. Se toman doceempresarios para clasificar los planes por la medida en la que preferirían ofrecerlos a susempleados. Cada caso corresponde a un empresario distinto y registra las reacciones antecada plan.

36

Apéndice A

health_funding.sav. Archivo de datos hipotéticos que contiene datos sobre inversión en sanidad(cantidad por 100 personas), tasas de enfermedad (índice por 10.000 personas) y visitas acentros de salud (índice por 10.000 personas). Cada caso representa una ciudad diferente.hivassay.sav. Archivo de datos hipotéticos sobre las iniciativas de un laboratorio farmacéuticopara desarrollar un ensayo rápido para detectar la infección por VIH. Los resultados del ensayoson ocho tonos de rojo con diferentes intensidades, donde los tonos más oscuros indican unamayor probabilidad de infección. Se llevó a cabo una prueba de laboratorio de 2.000 muestrasde sangre, de las cuales una mitad estaba infectada con el VIH y la otra estaba limpia.hourlywagedata.sav. Archivo de datos hipotéticos sobre los salarios por horas de enfermerasde puestos de oficina y hospitales y con niveles distintos de experiencia.insurance_claims.sav. Éste es un archivo de datos hipotéticos sobre una compañía de segurosque desee generar un modelo para etiquetar las reclamaciones sospechosas y potencialmentefraudulentas. Cada caso representa una reclamación diferente.insure.sav. Archivo de datos hipotéticos sobre una compañía de seguros que estudia losfactores de riesgo que indican si un cliente tendrá que hacer una reclamación a lo largo de uncontrato de seguro de vida de 10 años. Cada caso del archivo de datos representa un par decontratos (de los que uno registró una reclamación y el otro no), agrupados por edad y sexo.judges.sav. Archivo de datos hipotéticos sobre las puntuaciones concedidas por juecescualificados (y un aficionado) a 300 actuaciones gimnásticas. Cada fila representa unaactuación diferente; los jueces vieron las mismas actuaciones.kinship_dat.sav. Rosenberg y Kim (Rosenberg y Kim, 1975) comenzaron a analizar 15términos de parentesco (tía, hermano, primo, hija, padre, nieta, abuelo, abuela, nieto, madre,sobrino, sobrina, hermana, hijo, tío). Le pidieron a cuatro grupos de estudiantes universitarios(dos masculinos y dos femeninos) que ordenaran estos grupos según las similitudes. A dosgrupos (uno masculino y otro femenino) se les pidió que realizaran la ordenación dos veces,pero que la segunda ordenación la hicieran según criterios distintos a los de la primera. Así, seobtuvo un total de seis “fuentes“. Cada fuente se corresponde con una matriz de proximidadesde cuyas casillas son iguales al número de personas de una fuente menos el númerode veces que se particionaron los objetos en esa fuente.kinship_ini.sav. Este archivo de datos contiene una configuración inicial para una solucióntridimensional de kinship_dat.sav.kinship_var.sav. Este archivo de datos contiene variables independientes sexo, gener(ación), ygrado (de separación) que se pueden usar para interpretar las dimensiones de una soluciónpara kinship_dat.sav. Concretamente, se pueden usar para restringir el espacio de la solucióna una combinación lineal de estas variables.mailresponse.sav. Archivo de datos hipotéticos sobre las iniciativas de un fabricante de ropapara determinar si el uso de correo de primera clase para los envíos directos genera respuestasmás rápidas que el correo masivo. Los encargados de los pedidos registran el número desemanas que tarda cada pedido tras el mailing.marketvalues.sav. Archivo de datos sobre las ventas de casas en una nueva urbanización deAlgonquin, Ill., durante los años 1999 y 2000. Los datos de estas ventas son públicos.mutualfund.sav. Archivo de datos sobre información del mercado de valores para variosvalores tecnológicos recogidos en el índice S&P 500. Cada caso corresponde a una compañíadiferente.

37

Archivos muestrales

nhis2000_subset.sav. La National Health Interview Survey (NHIS, encuesta del CentroNacional de Estadísticas de Salud de EE.UU.) es una encuesta detallada realizada entrela población civil de Estados Unidos. Las encuestas se realizaron en persona a unamuestra representativa de las unidades familiares del país. Se recogió tanto la informacióndemográfica como las observaciones acerca del estado y los hábitos de salud de losintegrantes de cada unidad familiar. Este archivo de datos contiene un subconjunto deinformación de la encuesta de 2000. National Center for Health Statistics. NationalHealth Interview Survey, 2000. Archivo de datos y documentación de uso público.ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Fecha de acceso: 2003.ozono.sav. Los datos incluyen 330 observaciones de seis variables meteorológicas parapronosticar la concentración de ozono a partir del resto de variables. Los investigadoresanteriores(Breiman y Friedman, 1985), (Hastie y Tibshirani, 1990) han encontrado que no haylinealidad entre estas variables, lo que dificulta los métodos de regresión típica.pain_medication.sav. Este archivo de datos hipotéticos contiene los resultados de una pruebaclínica sobre medicación antiinflamatoria para tratar el dolor artrítico crónico. Resulta departicular interés el tiempo que tarda el fármaco en hacer efecto y cómo se compara conuna medicación existente.patient_los.sav. Este archivo de datos hipotéticos contiene los registros de tratamiento depacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto demiocardio (IM o “ataque al corazón”). Cada caso corresponde a un paciente distinto y registradiversas variables relacionadas con su estancia hospitalaria.patlos_sample.sav. Este archivo de datos hipotéticos contiene los registros de tratamiento deuna muestra de pacientes que recibieron trombolíticos durante el tratamiento del infarto demiocardio (IM o “ataque al corazón”). Cada caso corresponde a un paciente distinto y registradiversas variables relacionadas con su estancia hospitalaria.polishing.sav. Archivo de datos “Nambeware Polishing Times” (Tiempo de pulido de metal)de la biblioteca de datos e historiales. Contiene datos sobre las iniciativas de un fabricantede cuberterías de metal (Nambe Mills, Santa Fe, N. M.) para planificar su programa deproducción. Cada caso representa un artículo distinto de la línea de productos. Se registra eldiámetro, el tiempo de pulido, el precio y el tipo de producto de cada artículo.poll_cs.sav. Archivo de datos hipotéticos sobre las iniciativas de los encuestadores paradeterminar el nivel de apoyo público a una ley antes de una asamblea legislativa. Los casoscorresponden a votantes registrados. Cada caso registra el condado, la población y elvecindario en el que vive el votante.poll_cs_sample.sav. Este archivo de datos hipotéticos contiene una muestra de los votantesenumerados en poll_cs.sav. La muestra se tomó según el diseño especificado en el archivode plan poll.csplan y este archivo de datos registra las probabilidades de inclusión y lasponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestralhace uso de un método de probabilidad proporcional al tamaño (PPS), también existe unarchivo que contiene las probabilidades de selección conjunta (poll_jointprob.sav). Lasvariables adicionales que corresponden a los datos demográficos de los votantes y susopiniones sobre la propuesta de ley se recopilaron y añadieron al archivo de datos despuésde tomar la muestra.property_assess.sav. Archivo de datos hipotéticos sobre las iniciativas de un asesor delcondado para mantener actualizada la evaluación de los valores de las propiedades utilizandorecursos limitados. Los casos corresponden a las propiedades vendidas en el condado el

38

Apéndice A

año anterior. Cada caso del archivo de datos registra la población en que se encuentra lapropiedad, el último asesor que visitó la propiedad, el tiempo transcurrido desde la últimaevaluación, la valoración realizada en ese momento y el valor de venta de la propiedad.property_assess_cs.sav. Archivo de datos hipotéticos sobre las iniciativas de un asesor de unestado para mantener actualizada la evaluación de los valores de las propiedades utilizandorecursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivode datos registra el condado, la población y el vecindario en el que se encuentra la propiedad,el tiempo transcurrido desde la última evaluación y la valoración realizada en ese momento.property_assess_cs_sample.savEste archivo de datos hipotéticos contiene una muestra de laspropiedades recogidas en property_assess_cs.sav. La muestra se tomó en función del diseñoespecificado en el archivo de plan property_assess.csplan, y este archivo de datos registralas probabilidades de inclusión y las ponderaciones muestrales. La variable adicional Valoractual se recopiló y añadió al archivo de datos después de tomar la muestra.recidivism.sav. Archivo de datos hipotéticos sobre las iniciativas de una agencia de ordenpúblico para comprender los índices de reincidencia en su área de jurisdicción. Cada casocorresponde a un infractor anterior y registra su información demográfica, algunos detalles desu primer delito y, a continuación, el tiempo transcurrido desde su segundo arresto, si ocurrióen los dos años posteriores al primer arresto.recidivism_cs_sample.sav. Archivo de datos hipotéticos sobre las iniciativas de una agencia deorden público para comprender los índices de reincidencia en su área de jurisdicción. Cadacaso corresponde a un delincuente anterior, puesto en libertad tras su primer arresto durante elmes de junio de 2003 y registra su información demográfica, algunos detalles de su primerdelito y los datos de su segundo arresto, si se produjo antes de finales de junio de 2006. Losdelincuentes se seleccionaron de una muestra de departamentos según el plan de muestreoespecificado en recidivism_cs.csplan. Como este plan utiliza un método de probabilidadproporcional al tamaño (PPS), también existe un archivo que contiene las probabilidades deselección conjunta (recidivism_cs_jointprob.sav).rfm_transactions.sav. Archivo de datos hipotéticos que contiene datos de transacciones decompra, incluida la fecha de compra, los artículos adquiridos y el importe de cada transacción.salesperformance.sav. Archivo de datos hipotéticos sobre la evaluación de dos nuevos cursosde formación de ventas. Sesenta empleados, divididos en tres grupos, reciben formaciónestándar. Además, el grupo 2 recibe formación técnica; el grupo 3, un tutorial práctico. Cadaempleado se sometió a un examen al final del curso de formación y se registró su puntuación.Cada caso del archivo de datos representa a un alumno distinto y registra el grupo al que fueasignado y la puntuación que obtuvo en el examen.satisf.sav. Archivo de datos hipotéticos sobre una encuesta de satisfacción llevada a cabo poruna empresa minorista en cuatro tiendas. Se encuestó a 582 clientes en total y cada casorepresenta las respuestas de un único cliente.screws.sav Este archivo de datos contiene información acerca de las características detornillos, pernos, clavos y tacos (Hartigan, 1975).shampoo_ph.sav.Archivo de datos hipotéticos sobre el control de calidad en una fábrica deproductos para el cabello. Se midieron seis lotes de resultados distintos en intervalos regularesy se registró su pH. El intervalo objetivo es de 4,5 a 5,5.

39

Archivos muestrales

ships.sav. Un conjunto de datos presentados y analizados en otro lugar (McCullagh et al.,1989) sobre los daños en los cargueros producidos por las olas. Los recuentos de incidentesse pueden modelar como si ocurrieran con una tasa de Poisson dado el tipo de barco, elperíodo de construcción y el período de servicio. Los meses de servicio agregados para cadacasilla de la tabla formados por la clasificación cruzada de factores proporcionan valorespara la exposición al riesgo.site.sav.Archivo de datos hipotéticos sobre las iniciativas de una compañía para seleccionarsitios nuevos para sus negocios en expansión. Se ha contratado a dos consultores para evaluarlos sitios de forma independiente, quienes, además de un informe completo, han resumidocada sitio como una posibilidad “buena”, “media” o “baja”.siteratings.sav. Archivo de datos hipotéticos sobre la evaluación de versiones beta del nuevositio Web de una firma de comercio electrónico. Cada caso representa un evaluador deversiones beta, el cual puntuó el uso del sitio en una escala de 0 a 20.smokers.sav.Este archivo de datos es un resumen de la encuesta sobre toxicomanía 1998National Household Survey of Drug Abuse y es una muestra de probabilidad de unidadesfamiliares americanas. Así, el primer paso de un análisis de este archivo de datos debe serponderar los datos para reflejar las tendencias de población.smoking.sav. Tabla hipotética presentada por Greenacre (Greenacre, 1984). La tabla de interésestá formada por la tabla de contingencia del comportamiento de fumar por categoría detrabajo. La variable Grupo de personal contiene las categorías de trabajo Directores Sr,Directores Jr, Empleados Sr, Empleados Jr y Secretarias, además de la categoría Promedionacional, que se puede utilizar como suplemento del análisis. La variable Tabaquismocontiene los comportamientos Nada, Poco, Medio y Mucho, además de las categorías Sinalcohol y Alcohol, que se pueden utilizar como suplemento del análisis.storebrand.sav. Archivo de datos hipotéticos sobre las iniciativas de la directora de una tiendade alimentación para aumentar las ventas del detergente de la marca de la tienda en relacióna otras marcas. Se lanza una promoción en la tienda y se consulta a los clientes a la salida.Cada caso representa un cliente diferente.stores.sav. Este archivo de datos contiene datos de cuotas de mercado mensuales hipotéticosde dos tiendas de alimentación que compiten. Cada caso representa los datos de cuota demercado de un mes determinado.stroke_clean.sav. Este archivo de datos hipotéticos contiene el estado de una base de datosmédica después de haberla limpiado mediante los procedimientos de la opción Preparaciónde datos.stroke_invalid.sav. Este archivo de datos hipotéticos contiene el estado inicial de una base dedatos médica que incluye contiene varios errores de entrada de datos.stroke_survival. Este archivo de datos hipotéticos registra los tiempos de supervivencia delos pacientes que finalizan un programa de rehabilitación tras un ataque isquémico. Tras elataque, la ocurrencia de infarto de miocardio, ataque isquémico o ataque hemorrágico seanotan junto con el momento en el que se produce el evento registrado. La muestra estátruncada a la izquierda ya que únicamente incluye a los pacientes que han sobrevivido al finaldel programa de rehabilitación administrado tras el ataque.stroke_valid.sav. Este archivo de datos hipotéticos contiene el estado de una base de datosmédica después de haber comprobado los valores mediante el procedimiento Validar datos.Sigue conteniendo casos potencialmente anómalos.

40

Apéndice A

survey_sample.sav. Este archivo de datos hipotéticos contiene datos de encuestas, incluyendodatos demográficos y diferentes medidas de actitud.tastetest.sav. Archivo de datos hipotéticos sobre el efecto del color del mantillo en el sabor delas cosechas. Las fresas que han crecido en mantillo rojo, azul y negro fueron valoradas porcatadores en una escala ordinal del 1 al 5 (de muy por encima de la media a muy por debajode la media). Cada caso representa un catador diferente.telco.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía detelecomunicaciones para reducir el abandono de clientes en su base de clientes. Cada casocorresponde a un cliente distinto y registra diversa información demográfica y de uso delservicio.telco_extra.sav. Este archivo de datos es similar al archivo de datos telco.sav, pero las variablesde meses con servicio y gasto de clientes transformadas logarítmicamente se han eliminado ysustituido por variables de gasto del cliente transformadas logarítmicamente tipificadas.telco_missing.sav. Este archivo de datos es un subconjunto del archivo de datos telco.sav, peroalgunos valores de datos demográficos se han sustituido con valores perdidos.testmarket.sav. Archivo de datos hipotéticos sobre los planes de una cadena de comida rápidapara añadir un nuevo artículo a su menú. Hay tres campañas posibles para promocionarel nuevo producto, por lo que el artículo se presenta en ubicaciones de varios mercadosseleccionados aleatoriamente. Se utiliza una promoción diferente en cada ubicación y seregistran las ventas semanales del nuevo artículo durante las primeras cuatro semanas. Cadacaso corresponde a una ubicación semanal diferente.testmarket_1month.sav. Este archivo de datos hipotéticos es el archivo de datos testmarket.savcon las ventas semanales “acumuladas” para que cada caso corresponda a una ubicacióndiferente. Como resultado, algunas de las variables que cambiaban semanalmente desapareceny las ventas registradas se convierten en la suma de las ventas realizadas durante las cuatrosemanas del estudio.tree_car.sav. Archivo de datos hipotéticos que contiene datos demográficos y de preciosde compra de vehículos.tree_credit.sav Archivo de datos hipotéticos que contiene datos demográficos y de historial decréditos bancarios.tree_missing_data.sav Archivo de datos hipotéticos que contiene datos demográficos y dehistorial de créditos bancarios con un elevado número de valores perdidos.tree_score_car.sav. Archivo de datos hipotéticos que contiene datos demográficos y de preciosde compra de vehículos.tree_textdata.sav. Archivo de datos sencillos con dos variables diseñadas principalmente paramostrar el estado por defecto de las variables antes de realizar la asignación de nivel demedida y etiquetas de valor.tv-survey.sav. Archivo de datos hipotéticos sobre una encuesta dirigida por un estudio deTV que está considerando la posibilidad de ampliar la emisión de un programa de éxito.Se preguntó a 906 encuestados si verían el programa en distintas condiciones. Cada filarepresenta un encuestado diferente; cada columna es una condición diferente.

41

Archivos muestrales

ulcer_recurrence.sav. Este archivo contiene información parcial de un estudio diseñado paracomparar la eficacia de dos tratamientos para prevenir la reaparición de úlceras. Constituyeun buen ejemplo de datos censurados por intervalos y se ha presentado y analizado en otrolugar (Collett, 2003).ulcer_recurrence_recoded.sav. Este archivo reorganiza la información de ulcer_recurrence.savpara permitir modelar la probabilidad de eventos de cada intervalo del estudio en lugar desólo la probabilidad de eventos al final del estudio. Se ha presentado y analizado en otrolugar (Collett et al., 2003).verd1985.sav. Archivo de datos sobre una encuesta (Verdegaal, 1985). Se han registrado lasrespuestas de 15 sujetos a 8 variables. Se han dividido las variables de interés en tres grupos.El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que elconjunto 3 incluye música y vivir. Se escala mascota como nominal múltiple y edad comoordinal; el resto de variables se escalan como nominal simple.virus.sav.Archivo de datos hipotéticos sobre las iniciativas de un proveedor de servicios deInternet (ISP) para determinar los efectos de un virus en sus redes. Se ha realizado unseguimiento (aproximado) del porcentaje de tráfico de correos electrónicos infectados en susredes a lo largo del tiempo, desde el momento en que se descubre hasta que la amenaza secontiene.waittimes.sav.Archivo de datos hipotéticos sobre los tiempos de espera de los clientes para elservicio de tres sucursales diferentes de un banco local. Cada caso corresponde a un clientediferente y registra el tiempo de espera invertido y la sucursal en la que se realizó el negocio.webusability.sav. Archivo de datos hipotéticos sobre las pruebas de uso de una nueva tiendaelectrónica. Cada caso corresponde a uno de los cinco evaluadores de uso y registra si elevaluador realizó correctamente cada una de las seis tareas distintas.wheeze_steubenville.sav. Subconjunto de un estudio longitudinal de los efectos sobre la saludde la polución del aire en los niños (Ware, Dockery, Spiro III, Speizer, y Ferris Jr., 1984).Los datos contienen medidas binarias repetidas del estado de las sibilancias en niños deSteubenville, Ohio, con edades de 7, 8, 9 y 10 años, junto con un registro fijo de si la madreera fumadora durante el primer año del estudio.workprog.sav. Archivo de datos hipotéticos sobre un programa de obras del gobierno queintenta colocar a personas desfavorecidas en mejores trabajos. Se siguió una muestra departicipantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamentepara entrar en el programa, mientras que otros no siguieron esta selección aleatoria. Cadacaso representa un participante del programa diferente.

Bibliografía

Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology.Nueva York: Harper & Row.

Blake, C. L., y C. J. Merz. 1998. "UCI Repository of machine learning databases." Available athttp://www.ics.uci.edu/~mlearn/MLRepository.html.

Breiman, L., y J. H. Friedman. 1985. Estimating optimal transformations for multiple regressionand correlation. Journal of the American Statistical Association, 80, 580–598.

Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman &Hall/CRC.

Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : CambridgeUniversity Press.

Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.

Green, P. E., y Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach.Hinsdale, Ill.: Dryden Press.

Greenacre, M. J. 1984. Theory and applications of correspondence analysis. Londres: AcademicPress.

Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space forconfigurations of points. Psychometrika, 33, 469–506.

Hartigan, J. A. 1975. Clustering algorithms. Nueva York: John Wiley and Sons.

Hastie, T., y R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall.

Kennedy, R., C. Riquier, y B. Sharp. 1996. Practical applications of correspondence analysisto categorical data in market research. Journal of Targeting, Measurement, and Analysis forMarketing, 5, 56–70.

McCullagh, P., y J. A. Nelder. 1989. Modelos lineales generalizados, 2nd ed. Londres: Chapman& Hall.

Menec, V., N. Roos, D. Nowicki, L. MacWilliam, G. Finlayson, y C. Negro. 1999. SeasonalPatterns of Winnipeg Hospital Use. : Manitoba Centre for Health Policy.

Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints asdimensions of social behavior. Journal of Personality and Social Psychology, 30, 579–586.

Rickman, R., N. Mitchell, J. Dingman, y J. E. Dalen. 1974. Changes in serum cholesterol duringthe Stillman Diet. Journal of the American Medical Association, 228, 54–58.

Rosenberg, S., y M. P. Kim. 1975. The method of sorting as a data-gathering procedure inmultivariate research. Multivariate Behavioral Research, 10, 489–502.

Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.

Van der Ham, T., J. J. Meulman, D. C. Van Strien, y H. Van Engeland. 1997. Empirically basedsubgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal ofPsychiatry, 170, 363–368.

42

http://www.ics.uci.edu/%7Emlearn/MLRepository.html

43

Bibliografía

Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en neerlandés). Leiden:Department of Data Theory, University of Leiden.

Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, y B. G. Ferris Jr.. 1984. Passivesmoking, gas cooking, and respiratory health of children living in six cities. American Review ofRespiratory Diseases, 129, 366–374.

Índice

archivos de ejemploposición, 31

especificaciones de muestreo autodocimanteen muestreo autodocimante, 14

estimaciones de los parámetrosen muestreo autodocimante, 29

intervalo de confianza de medianaen muestreo autodocimante, 19

intervalo de confianza de proporciónen muestreo autodocimante, 15–16

muestreo autodocimante, 3, 10especificaciones de muestreo autodocimante, 14estimaciones de los parámetros, 29intervalo de confianza de mediana, 19intervalo de confianza de proporción, 15–16procedimientos admitidos, 5

44

pasw bootstrapping 18

Documents