análisis previo y exploratorio de datos · para llevar a cabo el análisis previo y exploratorio...

45
Análisis previo y exploratorio de datos Ana María López Departamento de Psicología Experimental

Upload: others

Post on 02-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Análisis previo y exploratorio de datos

Ana María LópezDepartamento de Psicología Experimental

Page 2: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Introducción

• En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis previo y exploratorio de los datos con objeto de detectar errores en la codificación de las variables, eliminar inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer características básicas de la distribución de las variables (normalidad, igualdad de varianzas, presencia de valores atípicos, linealidad, etc) y avanzar acerca de las relaciones entre ellas.

• En definitiva, el investigador debe adquirir un conocimiento básico de los datos de su investigación y de las relaciones existentes entre las variables analizadas antes de proceder a aplicar los procedimientos inferenciales.

Page 3: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED

UNIDIMENSIONAL BIDIMENSIONAL MULTIDIMENSIONAL

a) Variable Cualitativab)Variable Cuantitativa

a) Dos Variables Cualitativasb) Una Variable Cuantitativa y otra Cualitativac) Dos Variables Cuantitativas

Page 4: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Introducción

Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos y gráficos- que vamos a describir a lo largo del presente curso y que están implementados en la mayoría de los programas estadísticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).

Page 5: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Introducción

A nivel univariable, la mayoría de los objetivos del AED se alcanzan realizando un análisis descriptivo. Concretamente utilizaremos medidas de tendencia central y de dispersión para describir las características de las variables cuantitativas y tablas de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la última columna de la siguiente tabla:

Tipo de variable Índices analíticos Representaciones gráficas

Procedimientos de SPSS

Cuantitativa media, mediana, moda, desviación típica, rango, amplitud intercuartílica, prueba de normalidad

histograma, gráfico de caja

Descriptivos, Explorar, Tablas

Cualitativa frecuencias, porcentajes, moda, etc.

diagrama de barras, diagrama de líneas, diagrama de sectores

Frecuencias, Tablas

Page 6: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Detección de errores en la codificación de las variables cualitativas y cuantitativas:

Errores de codificación son valores que están fuera del rango de las variables

cuantitativas y códigos numéricos o no numéricos no definidos para representar

las categorías de las variables cualitativas.

Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de

matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para

ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que

nos den su opinión acerca de la ley eligiendo una de las opciones de una escala

que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos

escrito en una archivo de spss y hemos realizado un análisis descriptivo básico

utilizando el procedimiento frecuencias para las todas las variables incluidas en el

archivo y el procedimiento descriptivos para las cuantitativas

Page 7: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Para realizar el análisis descriptivo, seleccionamos Estadísticos descriptivos> Frecuencias del menú Analizar. Con esta selección accedemos al cuadro de diálogo Frecuencias y en dicho cuadro trasladamos, pulsando en el botón flecha, las variables al cuadro Variables y pulsamos en Aceptar. Para analizar las variables cuantitativas opinión y edad seleccionamos Descriptivos y pulsamos Aceptar. El visor de resultados nos ofrece la información contenida en las siguiente tablas.

¿podemos identificar errores de codificación en las variables medidas?

Page 8: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).

• Para ello utilizaremos tanto índices numéricos como gráficos.

• Estadísticos de tendencia central

– Media aritmética.

– Mediana: una vez ordenados los datos, es el valor que deja el mismo número de observaciones a su derecha que a su izquierda.

– Media truncada: es la media de la variable eliminando el 5% de las colas inferior y superior de la distribución, de esta forma se eliminan valores extremos y es por tanto un estadístico robusto.

– M-estimadores: son estadísticos robustos pues se definen ponderando cada valor de la distribución en función de su distancia al centro de la misma. Las observaciones centrales se ponderan por el máximo valor (la unidad) disminuyendo los coeficientes de ponderación a medida que las observaciones se alejan del centro. Existen distintas formas de ponderar: Humbert (pondera con valor uno los valores situados a menos de 1,339 de la mediana), Tukey(pondera con cero los valores situados a 4,385 de la mediana), Andrews(pondera con cero los situados a 4,2066 de la mediana), etc.

Page 9: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).

• Estadísticos de dispersión:– Rango– Varianza– Desviación tipo– Amplitud intercuartílica (AI)

• Estadísticos de forma:– Asimetría.– Curtosis

• Prueba de normalidad de Kolmogorov

Page 10: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).

Histograma Gráfico de caja Gráfico Q-Q

DIG

15.012.510.07.55.02.50.0

16

14

12

10

8

6

4

2

0

Desv. típ. = 3.57 Media = 7.1

N = 49.00

Page 11: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Figura 1. Tipologías de histogramas

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).

iXimáx XX −+ )1(

iX10log ( )( )imáx XX −+1log10

iX1

( )( )imáx XX −+11

Figura 2. Tipologías de gráficos Q-Q

Page 12: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad) con SPSS.

Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de SPSS con las variables cansancio emocional, despersonalización, realización personal y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con las opciones básicas recomendadas son:

Page 13: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad) con SPSS.

Con las opciones seleccionadas hemos obtenido información que nos permite

responder a las siguientes cuestiones de las variables analizadas:

1. Identificar las medidas de tendencia central y de dispersión

2. Comparar la media con la mediana y con los estimadores robustos

3. Evaluar mediante inspección visual la normalidad de las variables

4. Evaluar utilizando la prueba de significación la normalidad de las variables

Page 14: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Detección de datos atípicos:

Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del resto de las observaciones en una variable (atípico univariable) o en la distribución conjunta de dos o más variables (atípico multivariable). Los valores atípicos multivariantes resultan de combinaciones de valores muy inusuales. Las consecuencias de una sola observación atípica pueden ser graves pues pueden distorsionar las medias y desviaciones típicas de las variables y destruir o construir relaciones entre ellas. EjemploLos valores atípicos pueden deberse a

• Errores en la codificación de los valores de las variables, errores en la codificación de valores perdidos, errores de medida, errores en la transcripción.

• Observaciones que no proceden de la población de la que se ha extraído la muestra.

• Observaciones atípicas debidas a que la distribución de la variable en la población tiene valores más extremos que los de una distribución normal. En los dos primeros casos los valores atípicos, una vez detectados, deben ser eliminados o recodificados como valores perdidos. En el último caso suelen retenerse y analizar su incidencia en los análisis posteriores.

Page 15: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Detección de datos atípicos:

• Para considerar a una observación como atípica existen diferentes criterios:

Se consideran atípicas aquellas observaciones que están, en valores absolutos, a más de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicación de este criterio depende del tamaño de la muestra.

• En el gráfico de caja, como ya hemos visto, son atípicos observaciones con puntuaciones superiores a 1,5*AI evaluadas a partir del P75 o inferiores a 1,5 AI evaluadas a partir del P25. A partir de 3*AI se califican de extremos.

• Otra regla simple es considerar sospechosas aquellas observaciones tales que:

donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas de x con respeto a la mediana

( )5,4

)(>

xMEDAxmedxi

Page 16: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Detección de datos atípicos:

• Los criterios para detectar atípicos a nivel univariante no tienen porque identificar atípicos multivariantes (ejemplo). Para ello se puede utilizar, aunque no exenta de problemas, la distancia de Mahalanobis. La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la matriz de varianzas-covarianzas. Una observación multivariante resultará sospechosa si su distancia supera el valor de chi-cuadrado para k (número de variables) y un nivel de significación de 0,001. Algunos de los gráficos disponibles en SPSS implementan los criterios anteriores para detectar datos atípicos. Los siguientes cuadros de diálogo corresponden a los gráficos recomendados para detectar atípicos:

Page 17: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Detección de datos atípicos

Con la secuencia de cuadros de diálogo sobre la matriz obtenemos los siguientes gráficos

Page 18: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Detección de datos atípicos:

Caras de Chernoff

Page 19: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Detección de datos atípicos:Gráficos de estrella

-4-2024zcan

zdespe

zreazdepre

zsatisfa

fr

sujeto 1

-2-101zcan

zdespe

zreazdepre

zsatisfasujeto 1

sujeto 2

-2024zcan

zdespe

zreazdepre

zsatisfa

-5

-4

-3

-2

-1

0

1

2

3

4

zcan zdespe zrea zdepre zsatisfa Gráficos de linea

Page 20: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Supuesto de Linealidad

Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearsonentre variables cuantitativas. El coeficiente de correlación mide el grado de asociación lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo determinadas circunstancias, los coeficientes de correlación pueden ser mucho más grandes o mucho más pequeños de lo que deberían ser. Variables compuestas: En muchas investigaciones es frecuente utilizar variables compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las correlaciones entre variables compuestas que comparten items individuales en su definición suelen estar infladas. La presencia de valores atípicos: los valores atípicos como ya hemos demostrado pueden inflar o reducir significativamente las correlaciones entre variables. Restricción de rango: las correlaciones muestrales pueden ser inferiores a las poblacionales cuando en la muestra el rango de respuestas de una o ambas de las variables analizadas está restringido.

Page 21: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

análisis previo y exploratorio

Univariable Multivariado

a) Variable Cualitativab) Variable Cuantitativa

a) Dos Variables Cualitativas: Tablas de contingencia y gráficos de barrasb) Una Variable Cuantitativa y otra Cualitativa: Explorarc) Dos Variables Cuantitativas: correlaciones bivariadas, gráficos de dispersión

Bivariado

Page 22: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Supuesto de Linealidad

• La herramienta más útil para obtener información, a nivel exploratorio, de la relación

entre dos variables cuantitativas es el diagrama de dispersión, o nube de puntos. Se

construye representando, en el plano cartesiano, los valores de las variables

medidas. La inspección visual del gráfico de dispersión nos permite identificar

valores atípicos y el tipo de relación entre las variables.

Page 23: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Supuesto de Linealidad

0

20

40

60

80

100

0 1

-15

-10

-5

0

5

10

0

5

10

15

20

25

30

05

10152025303540

0 5 10 15 20

0

50

100

150

200

250

300

0 5 10 15 20

Page 24: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Supuesto de Linealidad

Page 25: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Supuesto de Linealidad

20,00 40,00 60,00 80,00 100,00

hrv_a

20,00

40,00

60,00

80,00

hrv_

b

a) Diagrama de dispersión por defecto

Page 26: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Supuesto de Linealidad

Gráfico

hrv_a hrv_b hrv_c hrv_d hrv_fa imp_a imp_b imp_c imp_d

imp_

dim

p_c

imp_

bim

p_a

hrv_

fahr

v_d

hrv_

chr

v_b

hrv_

a

Page 27: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Supuesto de Linealidad

20,00 40,00 60,00 80,00 100,00

hrv_a

20,00

40,00

60,00

80,00

hrv_

b

grupctrlphob

Page 28: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

• Una tabla de contingencia para dos variables contiene en filas las modalidades de una de las variables y en columnas las modalidades de la segunda. Cada casilla de la tabla contiene la frecuencia conjunta que representa el número de datos que pertenecen a la modalidad i-ésima de la primera variable y a la modalidad j-ésima de la segunda. A partir de dicha tabla podemos estudiar si las dos variables son o no independientes. Si son independientes no existe relación entre ellas; en caso contrario analizaríamos el tipo y grado de la dependencia tanto gráfica como numéricamente.

AED: Dos variables cualitativas

Page 29: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Dos variables cualitativas

• Vamos a analizando la posible relación entre la variables válvulas y retrasos en el desarrollo y válvulas y ansiedad de la matriz.

• Seleccionamos:Analizar > Estadísticos descriptivos > Tablas de contingencia

Page 30: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Dos variables cualitativas

• Para analizar los posibles fallos en el diseño y recogida de datos así como la posible relación entre variables cualitativas utilizaremos el procedimiento Tablas de contingencia como se muestra en el cuadro adjunto de SPSS

Page 31: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Dos variables cualitativas

• En el cuadro de diálogo Tablas de

contingencia seleccionamos las

variables val y retraso en el

desarrollo como fila y columna.

Seleccionamos también mostrar

barras agrupadas

Page 32: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Dos variables cualitativas

• En el cuadro de diálogo Tablas de

contingencia pulsamos el botón

Estadísticos para acceder a las

opciones que nos permiten

evaluar la posible relación entre

las variables. En dicho cuadro

marcamos la opción Chi-cuadrado.

Page 33: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Dos variables cualitativas

• Las tablas de contingencia que se

construyen por defecto contienen

las frecuencias absolutas. Pero

podemos, pulsando el botón

Casillas seleccionar frecuencias

esperadas, varios tipos de

porcentajes y residuos.

Page 34: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Dos variables cualitativas

• Con las opciones seleccionadas en los cuadros descritos la ventana de

resultados nos muestra la información que vamos a ir describiendo.

Page 35: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Resumen del procesamiento de los casos

42 61.8% 26 38.2% 68 100.0%VAL * retrasoen el desarrollo

N Porcentaje N Porcentaje N PorcentajeVálidos Perdidos Total

Casos

Tabla de contingencia VAL * retraso en el desarrollo

1 0 1.7 .3 1.0

100.0% .0% 100.0%

3.3% .0% 2.4%

2.4% .0% 2.4%17 3 20

14.3 5.7 20.085.0% 15.0% 100.0%

56.7% 25.0% 47.6%

40.5% 7.1% 47.6%12 9 21

15.0 6.0 21.057.1% 42.9% 100.0%

40.0% 75.0% 50.0%

28.6% 21.4% 50.0%30 12 42

30.0 12.0 42.071.4% 28.6% 100.0%

100.0% 100.0% 100.0%

71.4% 28.6% 100.0%

RecuentoFrecuencia esperada% de VAL% de retraso en eldesarrollo% del totalRecuentoFrecuencia esperada% de VAL% de retraso en eldesarrollo% del totalRecuentoFrecuencia esperada% de VAL% de retraso en eldesarrollo% del totalRecuentoFrecuencia esperada% de VAL% de retraso en eldesarrollo% del total

0

Si

No

VAL

Total

Si No

retraso en eldesarrollo

Total

( ) ( )f

f f f cN

f ffesp

i j=×

=×. .

..

AED: Dos variables cualitativas

Page 36: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Pruebas de chi-cuadrado

4.305a 2 .1164.664 2 .097

4.139 1 .042

42

Chi-cuadrado de PearsonRazón de verosimilitudAsociación lineal porlinealN de casos válidos

Valor glSig. asintótica

(bilateral)

2 casillas (33.3%) tienen una frecuencia esperada inferior a 5.La frecuencia mínima esperada es .29.

a.

( )( )χ 2

2

=−

∑∑f f

f

ob es ij

es ijji

AED: Dos variables cualitativas

En este caso dado que p > 0.05 aceptamos la hipótesis de independencia y concluimosque las variables no están relacionadas.

Nota a. El número de casillas con frecuencias esperadas menores que 5 no debe superar el 20% para que la aproximación a la distribución Chi-cuadrado sea adecuada

Page 37: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Dos variables cualitativas

Además de los estadísticos anteriores el cuadro de diálogo Tablas de contingencia nos proporciona los diagramas de barras para las variables analizadas

VAL

NoSi0

Rec

uent

o

20

10

0

retraso en el desarr

Si

No

VAL

NoSi0

Rec

uent

o

100

90

80

70

60

50

40

30

20

100

retraso en el desarr

No

Si

4315

57

85

100

Gráfico por defecto Gráfico modificado con el editor de gráficos

Page 38: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Una variable cualitativa y una variable cuantitativa

• Cuando analizamos una variable cuantitativa y otra cualitativa, el estudio se enfoca

como un problema de comparación del comportamiento de la variable numérica en

las diferentes subpoblaciones que define la variable cualitativa. Una forma de realizar

dicho análisis es mediante los diagramas de caja y los test de hipótesis que nos

permiten probar normalidad y homogeneidad de varianzas. El procedimiento de

SPSS que nos proporciona información más completa para el AED en este caso es

el procedimiento Explorar del SPSS.

Page 39: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Una variable cualitativa y una variable cuantitativa

Seguimos con el archivo de espina bífida y ahora vamos a seleccionarEstadísticos descriptivos y Explorar tal y como aparece en el cuadro adjunto

Page 40: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

AED: Una variable cualitativa y una variable cuantitativa

Page 41: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Explorar

ansiedad

Resumen del procesamiento de los casos

10 90.9% 1 9.1% 11 100.0%24 100.0% 0 .0% 24 100.0%33 100.0% 0 .0% 33 100.0%

ansiedad. (perdidosSiNo

CIMN Porcentaje N Porcentaje N Porcentaje

Válidos Perdidos TotalCasos

Page 42: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Descriptivos

60.10 4.62049.65

70.55

59.7856.50

213.43314.609

438340

28.00.408 .687

-1.198 1.33461.21 3.40754.16

68.26

60.3257.50

278.52016.689

40100

6028.25

.766 .472-.381 .91878.73 3.67671.24

86.21

78.4884.00

445.83021.115

43126

8337.00-.066 .409-.810 .798

MediaLímite inferiorLímite superior

Intervalo de confianzapara la media al 95%

Media recortada al 5%MedianaVarianzaDesv. típ.MínimoMáximoRangoAmplitud intercuartilAsimetríaCurtosisMedia

Límite inferiorLímite superior

Intervalo de confianzapara la media al 95%

Media recortada al 5%MedianaVarianzaDesv. típ.MínimoMáximoRangoAmplitud intercuartilAsimetríaCurtosisMedia

Límite inferiorLímite superior

Intervalo de confianzapara la media al 95%

Media recortada al 5%MedianaVarianzaDesv. típ.MínimoMáximoRangoAmplitud intercuartilAsimetríaCurtosis

ansiedad. (perdidos)

Si

No

CIMEstadístico Error típ.

Page 43: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Pruebas de normalidad

.157 10 .200* .922 10 .370

.160 24 .117 .911 24 .037

.129 33 .177 .947 33 .110

ansiedad. (perdidos)SiNo

CIMEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Este es un límite inferior de la significación verdadera.*.

Corrección de la significación de Lillieforsa.

Gráfico Q-Q normal de CIM

Para ANS= Omitido

Valor observado

908070605040

Norm

al e

sper

ado

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

Gráfico Q-Q normal de CIM

Para ANS= Si

Valor observado

11010090807060504030

Norm

al e

sper

ado

2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

-2.0

Gráfico Q-Q normal de CIM

Para ANS= No

Valor observado

14012010080604020

Norm

al e

sper

ado

2

1

0

-1

-2

Page 44: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Prueba de homogeneidad de la varianza

2.016 2 64 .142

1.665 2 64 .197

1.665 2 61.164 .198

2.097 2 64 .131

Basándose en la mediaBasándose en lamediana.Basándose en lamediana y con glcorregidoBasándose en la mediarecortada

CIM

Estadísticode Levene gl1 gl2 Sig.

332410N =

ansiedad

NoSiOmitido

CIM

140

120

100

80

60

40

20

Page 45: Análisis previo y exploratorio de datos · Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos

Bibliografía

Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de Estadística. Madrid: Editorial La Muralla.

Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en línea]. http://www.5campus.com/leccion/aed> [y añadir fecha consulta]

Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema

Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill.

Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares de datos en SPSS. Sistemas informatizados para la investigación del comportamiento. Madrid: RA-MA.