estadística bivariada - wordpress.com · la estadística bivariada es una parte de la estadística...
TRANSCRIPT
ESTADÍSTICA BIVARIADA Estadística y Tecnología de la Información y Comunicación
ENRIQUE ÍÑIGUEZ CASTRO
1º de Enfermería, grupo 4. Subgrupo 16.
pág. 1
Índice 1. Introducción. ................................................................................................................. 2
2. Objetivos. ...................................................................................................................... 2
3. Metodología .................................................................................................................. 2
3.1. Población de estudio. ............................................................................................. 2
3.2. Variables a analizar. ............................................................................................... 2
3.3. Análisis de datos: ................................................................................................... 3
4. Resultados ..................................................................................................................... 3
4.1. Queremos conocer si existe asociación entre las variables del archivo
“activossalud.Rdata” “sexo” y Practicadeporte (Sí, No). Para ello y usando el
software “Rcommander”: ............................................................................................. 3
4.2. Determina que si existe relación y como de fuerte es entre las variables “altura” y
“peso”. Para ello y usando el software “Rcommander”: .............................................. 7
5. Conclusiones. .............................................................................................................. 12
pág. 2
1. Introducción. La estadística bivariada es una parte de la estadística descriptiva que describe y
analiza la distribución y la asociación de dos variables o la relación existente entre ellas.
Según el tipo de variables que se estudien se utilizan diferentes estadísticos.
En el siguiente informe vamos a realizar un estudio sobre unos datos sacados de
unas encuestas realizadas a alumnos del primer año de enfermería de la Universidad de
Sevilla.
2. Objetivos. El objetivo general de este estudio es utilizar la estadística bivariada para
establecer la asociación entre dos variables de nuestro fichero de datos, dando respuesta
a hipótesis de investigación específicas.
Además, se recogerán los objetivos específicos que darán respuesta a los
ejercicios.
1. Conocer si existe asociación entre las variables del archivo “activossalud.Rdata”
“sexo” y “Practicadeporte” (Sí, No) mediante el uso del software “Rcommander.
2. Determinar si existe relación y cómo de fuerte es esta, entre las variables
“altura” y “peso” mediante el uso del software “Rcommander”.
3. Metodología
3.1. Población de estudio.
Los datos de esta muestra han sido sacados de encuestas realizadas a 291
estudiantes de primero de enfermería de la Universidad de Sevilla, centros propios y
adscritos para conocer sus estilos de vida y activos en salud.
3.2. Variables a analizar. Las variables incluidas en los análisis se describen a continuación.
Altura: se trata de un vector numérico, o variable cuantitativa, medido en metros
(m).
pág. 3
Peso: es un vector numérico medido en kilogramos (kg).
Practica deporte: variable cualitativa dicotómica nominal, ya que posee solo dos
categorías, preguntada de la siguiente manera: 1- Sí, 2- No.
Sexo: factor o variable cualitativa dicotómica nominal con dos categorías: 1-
Varón, 2- Mujer.
3.3. Análisis de datos:
Software estadístico utilizado
Para este estudio, el software estadístico utilizado ha sido R Studio, concretamente
el paquete R Commander.
Análisis estadísticos que se van a realizar.
Se van a realizar los análisis estadísticos a través de tablas de frecuencias con las
variables cualitativas “marcha atrás” y “píldora día después”. Para las variables
cuantitativas hemos realizado una tabla de frecuencias en las que aparecen las dos
variables “altura” y “peso”.
Por último, se van a representar los datos diferentes gráficos. Los utilizados han
sido el diagrama de sectores, el gráfico de barras, gráfico de barras por grupos,
histograma y diagrama de caja.
4. Resultados
4.1. Queremos conocer si existe asociación entre las variables del archivo
“activossalud.Rdata” “sexo” y Practicadeporte (Sí, No). Para ello y usando el
software “Rcommander”:
a) Describe y representa los datos en una tabla.
Vamos a crear una tabla con las variables “sexo” y “Practicadeporte”. Para ello
abrimos R Commander, cargamos el archivo “activossalud.Rdata”, seleccionamos la
pestaña “Estadísticos”, luego “Tabla de contingencia” y, por último, “Tabla de doble
entrada”.
pág. 4
Se nos abrirá una nueva ventana en la que tenemos que seleccionar las variables
“sexo” y “practicadeporte”.
Antes de aceptar, nos vamos a la pestaña “Estadísticos” y seleccionamos, en
“Calcular porcentajes”, la opción “Sin porcentajes” y, en el apartado “Test de
hipótesis”, clicamos “Test de independencia Chi-cuadrado”, “Imprimir las frecuencias
esperadas” y “Test exacto de Fisher”. Le damos a aceptar.
pág. 5
Los datos que nos aparecen son los siguientes:
Tabla de frecuencias
Practica deporte
Sexo No Si Total
Varón 9 (17,65%) 42 (82,35%) 51 (17,52%)
Mujer 123 (51,25%) 117 (48,75%) 240 (82,98%)
Total 132 (45,36%) 159 (54,64%) 291
En la tabla podemos observar que un 17,65% de los hombres no practican deporte
frente a un 51,25% de mujeres. Hay menos hombres que no practican deportes, según
esta muestra. También observamos que hay mayor número de hombres que practican
deporte.
b) Establece una hipótesis adecuada para el estudio.
A continuación creamos las hipótesis:
H0: No existe asociación entre el sexo y practica deporte.
H1: Existe asociación entre el sexo y practica deporte.
pág. 6
c) Utiliza la prueba más adecuada para contrastar tu hipótesis.
De forma manual:
Para realizar la prueba de Chi-cuadrado, comenzamos calculando las frecuencias
esperadas:
Una vez tengamos estas frecuencias esperadas, calculamos el Chi-cuadrado:
Nuestro grado de libertad es 1, por lo que buscamos en la tabla de Chi-cuadrado
el número que se corresponda con p=0,05.
El Chi-cuadrado ha dado 19,16, es decir, es mayor que el número que nos indica
la tabla. Con estos datos podemos aceptar la hipótesis alternativa. Hay relación entre
sexo y practica deporte.
Mediante R Commander:
Para conocer la asociación entre “sexo” y “Practicadeporte” se ha realizado el
test de Chi-cuadrado con los datos de la tabla, dando un p-valor=0.000012.
pág. 7
Los datos son los siguientes:
Interpreta los resultados
H0: No existe relación entre el sexo y la práctica de deporte. α>0,05 H1: Existe relación entre el sexo y la práctica de deporte. α≤0,05
Observando los datos que nos ha volcado R Commander, observamos que X2=19.163.
Este es el Chi-cuadrado observado. Al irnos a la tabla de distribución del Chi-Cuadrado,
el valor esperado debería ser X2>3.8415. Por lo tanto, rechazamos la hipótesis nula H0 y
aceptamos la alternativa H1, por lo tanto si existe relación entre sexo y practica deporte.
4.2. Determina que si existe relación y como de fuerte es entre las variables
“altura” y “peso”. Para ello y usando el software “Rcommander”:
Altura:
En primer lugar sacamos las hipótesis:
H0: “Altura” sigue una distribución normal.
H1: “Altura” no sigue una distribución normal.
Para determinar si existe relación, al ser dos variables cuantitativas, lo primero
que vamos a hacer es comprobar la normalidad de las variables mediante Shapiro.
pág. 8
En este observamos que la gráfica se encuentra desplazada ligeramente hacia la
izquierda. El centro no coincide con la mediana, por lo que se puede decir que no sigue
una distribución normal.
pág. 9
El test de Shapiro nos dan los siguientes datos:
Shapiro-Wilk normality test
data: altura
W = 0.96796, p-value = 0.000004686
El nivel de significación es 0.05. El P valor 0.000004686<0.05.
Por lo tanto se rechaza la hipótesis nula (H0) y se acepta la alternativa (H1) por lo
que la variable “altura” no sigue una distribución normal.
Para comprobar que si sigue una distribución normal o no, representamos la
variable “altura” mediante un histograma.
En el resumen numérico observamos como la media no coincide con el Q2 o la
mediana, por lo que confirman lo mismo que el gráfico.
Peso:
En primer lugar sacamos las hipótesis:
H0: “Peso” sigue una distribución normal.
H1: “Peso” no sigue una distribución normal.
pág. 10
En el histograma de peso, se ve que no sigue una distribución normal ya que la
mediana no coincide con el centro, estando desplazada hacia la izquierda.
En el resumen numérico observamos como la media no coincide con el Q2 o la
mediana, por lo que confirman lo mismo que el gráfico.
El test de Shapiro nos dan los siguientes datos:
Shapiro-Wilk normality test
data: peso
W = 0.89614, p-value = 8.406e-13
Ahora vamos a ver la dispersión realizando un gráfico de dispersión con ambas
variables:
pág. 11
Podemos observar una relación lineal positiva directa. El coeficiente de dispersión
estará entre 0 y 1 porque es positiva. No será 0 ya que es directa.
Como hemos comprobado con las diferentes pruebas, estas variables no siguen una
distribución normal, por lo que realizaremos la prueba de Rho de Sperman.
Escribimos las hipótesis:
H0: El coeficiente de correlación es igual a 0 (r=0).
H1: El coeficiente de correlación es distinto de 0 (r≠0).
Una vez realizado el estadístico de Rho de Sperman, observamos que la
correlación entre altura y peso es de 0,622. Al ser mayor a 0,05 nos indica que hay
una correlación positiva alta.
pág. 12
Con estos datos podemos decir que existe correlación entre variable “peso” y
“altura”.
5. Conclusiones. En este informe sobre la estadística bivariada, hemos podido realizar mediante
una serie de datos la representación e interpretación de la muestra del fichero
“activossalud.RData”.
En el primer ejercicio, podemos observar que existe asociación entre “practica
deporte” y “sexo”. Estos datos son de interés ya que es necesario llevar un estilo de vida
saludable. Mediante informes estadísticos como este, podemos conocer los hábitos de la
población para poder tomar medidas y dar soluciones para equilibrar estos datos.
Respecto al segundo ejercicio, observamos que hay una fuerte relación entre
peso y altura. Los resultados nos confirman que cuanta más altura, se tiene más peso ya
que hay una correlación lineal positiva. Se ha comprobado que la altura influye en el
peso.