correlación juan josé hernández ocaña. muchas veces en estadística necesitamos saber si existe...
TRANSCRIPT
Correlación
Juan José Hernández Ocaña
• Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar una posible relación entre variables.
• Podemos decir que hay una correlación entre dos variables “si cuando una de ellas se relaciona con la otra de alguna manera”
Correlación
Conceptos
• Análisis de correlación
– Conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables
– Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas)
Diagrama de dispersión
• Es una gráfica que representa la relación entre dos variables.• Los datos muestrales apareados (x,y) se grafican en un
eje horizontal (x) y un eje vertical (y). Cada par individual (x, y) se grafica como un solo punto.• Podemos encontrar tres tipos de relación entre las
variables– Positiva– Negativa– Sin relación
Coeficiente de correlación
• El coeficiente de correlación r mide la fuerza de la relación lineal entre los valores cuantitativos apareados x y y.
• El coeficiente de correlación expresa de manera cuantitativa la magnitud y dirección de una relación
– Condiciones • La muestra de datos apareados (x, y) es una muestra aleatoria
de datos cuantitativos• Los pares de datos ( x, y) tienen una distribución normal
bivariada
Conceptos Correlación
Coeficiente de correlación Este coeficiente expresa de manera cuantitativa la magnitud y dirección
de una relación lineal La dirección se refiere a si la relación es positiva o negativa El grado de la relación se refiere a la magnitud Una correlación puede variar de +1 a - 1 Hay que considerar que la gráfica de dispersión está formada por
parejas de valores de x y Si se desea conocer la relación simple entre una variable x y ,
podemos emplear La r de Pearson r2 Nos mide la proporción de la variación de y , que se explica por
relación lineal de x
∑X Es la suma de todos los valores de x∑X2 indica que cada valor de x debe elevarse al cuadrado y después dichos cuadrados se suman∑(X)2 indica que los valores de x deben sumarse y el total elevarse al cuadrado∑XY indica que cada valor de x debe multiplicarse por su correspondiente de y después hacer la suma de todos los productos.
Ejercicios
• Considere los siguiente valores para la variable x y para la variable y. Calcule el valor de la r de Pearson Calcule el valor de r2
Cuál es la hipótesis nula Cuál es la hipótesis alternativa Establezca criterio de decisión de acuerdo a t Rechace Ho de acuerdo a los criterios anteriores Cuáles son sus conclusiones
x 1 2 3 4
y 3 5 8 13
x y
1 3
2 5
3 8
4 13
xy
3
10
24
52
x2
1
4
9
16
y2
9
25
64
169
SUMATORIAS ∑x =10 ∑y=29 ∑xy=89 ∑ x2= 30 ∑ y2 =267
Grafico de dispersión
0.5 1 1.5 2 2.5 3 3.5 4 4.50
2
4
6
8
10
12
14
Series1
Regresión lineal
• En el modelo de regresión lineal simple, se supone que la relación entre la variable dependiente (y) y la variable independiente (x) es casi una recta
Regresión Conceptos
• La regresión mide la relación entre dos variables y se basa en el uso de la misma relación para elaborar una predicción.
• Esto resultaría sencillo siempre y cuando se considere una recta perfecta en la relación entre dos variables
• En el caso de relaciones imperfectas la solución consiste en construir una recta que minimice los errores de predicción de acuerdo a un criterio llamado mínimos cuadrados
EJEMPLO
Se quiere conocer si existe una relación entre el numero de las llamadas que los empleados realizan a los clientes potenciales y el número de equipos vendidos
llamadas Equipos vendidos
Keller 20 30
Hall 40 60
Vinist 20 40
Fish 30 60
Welch 10 30
Ramirez 10 40
Niles 20 40
Kiel 20 50
Reynols 20 30
Jones 30 70
5 10 15 20 25 30 35 40 450
10
20
30
40
50
60
70
80
Equipos vendidos
La media de X ( llamadas ) es 22La media de Y ( equipos vendido) es 45
La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión lineal simple
– E(y) = βo + β 1x
– βo es la ordenada al origen
– β 1 es la pendiente– E(y) es el valor esperado de y para determinado
valor de x
–
– y = bx + a
– donde a es la ordenada al origen –Donde b es la pendiente
–El valor de y sería el valor estimado de y a partir del valor de x empleando la ecuación
–
–
La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión
estimada
Supuestos
• Se investiga únicamente relaciones lineales• Para cada valor de (x, y) es una variable aleatoria con una
distribución normal y se considera que todas estas distribuciones de y tienen la misma varianza.
• Si existe una correlación lineal, el mejor valor predicho de y se calcula sustituyendo el valor de x en la ecuación de regresión.– Si no existe una correlación lineal, no debe utilizar la ecuación de
regresión para hacer predicciones.• Cuando utilice la ecuación de regresión para hacer
predicciones, debe permanecer en el ámbito de los datos muestrales disponibles.
PENDIENTE DE LA RECTA
• La pendiente nos representa la cantidad que cambia la variable dependiente cuando la variable independiente cambia exactamente una unidad, esto es conocido como cambio marginal
• Una recta satisface la propiedad de mínimos cuadrados sí la suma de los cuadrados de los residuales es la menor posible– Un residual es la diferencia entre el valor observado muestral
de y, y el valor de y predicho por la ecuación de regresión. – Es necesario realizar una prueba de hipótesis para verificar la
fiabilidad de la predicción mediante el uso de la ecuación
PREDICCIÓN
• Se puede pronosticar el valor de y siempre y cuando se tenga una recta
– 1.-Se puede dar confiabilidad a la estimación mediante la prueba de hipótesis.• nos dice en términos de probabilidad la certeza de
tener o no un recta.
– 2.- Se puede emplear también el calculo del error estándar de estimación. • Nos dice cuán preciso es el pronóstico
Error estándar de estimación
• Es la medida de la dispersión de los valores observados respecto a la recta de regresión– calcular residuos y a partir de allí el error estándar de medición
• Si su valor es pequeño ello significa que los datos están relativamente cercanos a la recta de regresión y la ecuación sirve para predecir con un margen de error pequeño
• Se emplea el método de la recta de mínimos cuadrados– No hay otra recta que pase por el valor de los datos donde la
suma de las desviaciones al cuadrado sea menor
• 1.-calcular valores estimados de la variable dependiente (y)
• 2.- Calcular los residuos• 3.- calcular el cuadrado
de los residuos• 4.- Calcular error
estándar de medición • 5.- Comparar con regla
de distribución empírica– Se considera como muy
confiable si se encuentra dentro de +/- un valor del error estándar
– se considera confiable si se encuentra dentro de +/- 2 valores del error estándar.
5 10 15 20 25 30 35 40 450
10
20
30
40
50
60
70
80
Series1Linear (Series1)
Axis Title
Axis Title
Coeficiente de determinación r2
• Es una medida de la bondad de ajuste para una ecuación de regresión– Esto es , qué tan bien se ajusta a los datos la
ecuación de regresión– los valores van desde 0 a 1– se puede emplear para relaciones que tengan dos
o más variables independientes
EJERCICIOS
AÑO AUTOS(MILLONES)
% GM
1950 6 50.2
1955 7.8 50.4
1960 7.3 44
1965 10.3 49.9
1970 10.1 39.5
1975 10.8 43.1
1980 11.5 44
1985 15.4 40.1
1990 13.5 36
1995 15.5 31.
2000 17.4 28.6
2003 17.1 27.8
Se desea terminar si existe una relación entre la cantidad de autos vendidos durante varios años y el porcentaje de participación de la compañía General Motors
4 6 8 10 12 14 16 18 200
10
20
30
40
50
60
Series1
1 2 3 4 5 6 7 8 9 10 11 120
10
20
30
40
50
60
Series1Series2
0 2 4 6 8 10 12 14 160
5
10
15
20
25
30
35
40
numero de rechazo
numero de rechazo
• Coeficiente de correlación ( r) = - 0.7852– conforme aumentan las semanas de experiencia,
disminuye el número de rechazos• Coeficiente de determinación (r2)= 0.6165– EL 61.65% de los cambios de y se deben a la variable x,
esto es, el 61.65% de la disminución en el número de los defectos es atribuible a la experiencia del operador
0 2 4 6 8 10 12 14 160
5
10
15
20
25
30
35
40
numero de rechazo
numero de rechazo
Pendiente de la recta ( b)= -1.408, lo que significa que cada semana de experiencia en el operador se refleja en una disminución en el número
de defectos de 1.408 .
El valor de la intersección (a) es de 34.71, se puede inferir que 34.71 unidades son independiente de la experiencia del operador y se deben a
otros factores ( materia prima, maquinaria). Para un análisis más especifico se deberá centrar el proceso al valor medio de x
Observación Pronóstico para Y Residuos R21 24.85546875 1.14453125 1.309951782 22.0390625 -2.0390625 4.157775883 26.26367188 1.73632813 3.014835364 14.99804688 1.00195313 1.003910065 23.44726563 -11.4472656 131.039896 17.81445313 0.18554687 0.034427647 20.63085938 3.36914063 11.35110868 29.08007813 -3.08007813 9.486881269 31.89648438 6.10351563 37.252903
10 19.22265625 2.77734375 7.7136383111 33.3046875 -1.3046875 1.7022094712 23.44726563 1.55273438 2.41098404
210.478516
El error estándar de medición es = 4.587=
Por lo que podemos decir que es confiable ya que solo dos datos están fuera del 68% y ningún dato se encuentra fuera del 95% de los mismos de acuerdo a regla empírica
REGRESIÓN Y CORRELACIÓNejercicios
• Un gerente de una empresa que comercializa cosméticos desea saber qué relación existe entre los ingresos de varias semanas y sus respectivos costos variables, para lo cual, registra estas variables durante 8 semanas, dando como resultado los siguientes datos
• Calcule el coeficiente de correlación• Calcule la ecuación de regresión.
– Valor de b y el valor de a
• Si tiene un valor DE X DE 140 CUAL SERÍA EL VALOR DE Y
• Calcule el coeficiente de determinación • Pruebe la hipótesis de la fiabilidad de la
predicción de la ecuación
semana ingresoCosto variable
1 157 52
2 150 52
3 143 48
4 139 49
5 163 53
6 165 54
7 167 57
8 173 58
semana ingresocosto var XY X2 Y2
1 157 52 8164 24649 27042 150 52 7800 22500 27043 143 48 6864 20449 23044 139 49 6811 19321 24015 163 53 8639 26569 28096 165 54 8910 27225 29167 167 57 9519 27889 32498 173 58 10034 29929 3364
sumas 1257 423 66741 198531 22451
SST SSR SSE
semana ingreso costo var y estimada (y1 -y prom)2 (y est- y pro)2 (y1-yest)2 (x-xpro)2
1 157 52 52.8412001 0.765625 0.00114243 0.70761769 0.015625
2 150 52 50.9484083 0.765625 3.71175541 1.10584501 50.765625
3 143 48 49.0556165 23.765625 14.58769 1.11432628 199.515625
4 139 49 47.9740212 15.015625 24.019593 1.05263245 328.515625
5 163 53 54.4635931 0.015625 2.5236281 2.14210482 34.515625
6 165 54 55.0043908 1.265625 4.53430509 1.00880084 62.015625
7 167 57 55.5451884 17.015625 7.12990629 2.11647668 97.515625
8 173 58 57.1675814 26.265625 18.4262552 0.69292071 252.015625
suma 1257 423 423 84.875 74.9342755 9.94072448 1024.875
• En la asociación de hoteleros de la zona de Naucalpan existe una preocupación por los bajos niveles de ocupación durante el año. Ellos están por plantear una solución al problema, realizando una diagnóstico del mismo, para lo cual registran los niveles de ocupación promedio al año y las tarifas por persona que se cobran por noche en habitación doble
• 1.- Determine el coeficiente de correlación• 2.- Determine la ecuación de regresión• 3.- Calcule el coeficiente de determinación• 4.- Realice la prueba de hipótesis para
determinar la fiabilidad de predicción de la ecuación. Sí la tarifa por persona fuera 270, cuál sería el % de ocupación esperado?
• 5.- De acuerdo a los resultado, cuáles serían sus conclusiones?
TARIFA POR PERSONA
% DEL NIVEL DE OCUPACIÓN
185. 19.69176. 20.45201. 18.1194. 14.5240. 15.23314. 6.6187. 15.9267. 9.2250 9.96170. 19.2
Marca Desempeño Evaluación global
AMS 115 67
CPM 191 78
COMNT 153 79
DELL37 194 80
DELL75 236 84
DELLA3 184 76
ENP 184 77
GATEW 216 92
HP 185 83
IBM 183 78
MICROE 189 77
MICROT 202 78
NEC 192 78
SCET 141 73
SONY 187 77
PC WORLD publicó las evaluaciones para las 15 computadoras portátiles más vendidas. Las puntuaciones de desempeño es una medida de qué tan rápido una PC corre en combinación de aplicaciones de negocios en comparación con una maquina de referencia. Por ejemplo, una PC ´con una puntuación de desempeño de 200 es dos veces más rápida que la máquina de referencia. Se utilizó una escala de 100 puntos para asignar una evaluación global a cada computadora portátil que se probó en el estudio. 1.- Obtenga la ecuación de regresión 2.- Estime la evaluación global para una nueva PC que tiene una puntuación de desempeño de 225
sujetonivel de serotonina
numero de actos agresivos
1 0.32 6
2 0.35 3.8
3 0.38 3
4 0.41 5.1
5 0.43 3
6 0.51 3.8
7 0.53 2.4
8 0.6 3.5
9 0.63 2.2
Una neuróloga sospecha que los bajos niveles de serotonina pueden estar relacionados con el comportamiento agresivo. Como primer paso de su investigación, decide realizar un estudio de correlación con nueve macacos de la India. Los monos son observados durante 6 meses y se registra en número de actos agresivos que realizan. El número de actos agresivos por cada animal es el promedio de 6 meses, expresados sobre base diariaa.- Obtenga la recta de regresión por mínimos cuadrados para predecir el número de actos agresivos a partir del nivel de serotoninab.- Cuál es el número de actos agresivos por día que se podría predecir si el nivel se serotonina es de 0.46 microgramos/gramo
• Una Psicóloga del desarrollo está interesada en determinar si es posible utilizar la estatura de los niños como base para predecir su posible estatura en la edad adulta.
• A.-Determine el coeficiente de correlación• Empleando una alfa de 0.05, determine si
tiene una relación lineal• Cuáles son sus conclusiones • a.- Si los datos están relacionados de
manera lineal, deduzca la recta de regresión por mínimos cuadrados ( calcular la pendiente y la coordenada al origen)
• b.- Qué estatura podría predecir para una persona de 20 años si a los tres años tuvo una estatura de 42 pulgadas
INDIVIDUO EST 3 AÑOS
EST. 20 AÑOS
1 30 59
2 30 63
3 32 62
4 33 67
5 34 65
6 35 61
7 36 69
8 38 66
9 40 68
10 41 65
11 41 73
12 43 68
13 45 71
14 45 74
15 47 71
16 48 75