significancia estadistica

24
1 METODOS ESTADISTICOS NO PARAMETRICOS Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y prueba de hipótesis son, en conjunto, denominadas ESTADÍSTICA PARAMETRICA y son aplicadas básicamente a variables continuas. Estas técnicas se basan en especificar una forma de distribución de la variable aleatoria y de los estadísticos derivados de los datos. En ESTADÍSTICA PARAMETRICA se asume que la población de la cual la muestra es extraída es NORMAL o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hipótesis sea valida. Sin embargo, en un gran numero de casos no se puede determinar la distribucion original ni la distribucion de los estadísticos por lo que en realidad no tenemos parametros a estimar. Tenemos solo distribuciones que comparar. Esto se llama ESTADÍSTICA NOPARAMETRICA.

Upload: yercin-mamani-ortiz

Post on 12-Jun-2015

306 views

Category:

Health & Medicine


4 download

TRANSCRIPT

Page 1: Significancia estadistica

1

METODOS ESTADISTICOS NO PARAMETRICOS

• Las técnicas estadísticas de estimación de

parámetros, intervalos de confianza y prueba de hipótesis son, en conjunto, denominadas ESTADÍSTICA PARAMETRICA y son aplicadas básicamente a variables continuas. Estas técnicas se basan en especificar una forma de distribución de la variable aleatoria y de los estadísticos derivados de los datos.

• En ESTADÍSTICA PARAMETRICA se

asume que la población de la cual la muestra es extraída es NORMAL o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hipótesis sea valida.

• Sin embargo, en un gran numero de casos no

se puede determinar la distribucion original ni la distribucion de los estadísticos por lo que en realidad no tenemos parametros a estimar. Tenemos solo distribuciones que comparar. Esto se llama ESTADÍSTICA NOPARAMETRICA.

Page 2: Significancia estadistica

2

La mayor desventaja de la ESTADÍSTICA NO PARAMETRICA es que cuando los supuestos se cumplen es mucho menos poderosa que la ESTADÍSTICA PARAMETRICA.

LA PRUEBA DE SIGNO

Ejemplo Estudio para comparar: {la energia en reposo usada por personas con cierta enfermedad} vs {la energia en reposo usada por personas sanas} Ho: no hay diferencias entre personas sanas y enfermas 1) Se eligen al azar pares de personas (pacientes de la misma edad, sexo, altura y peso) enfermas y sanas y se calcula la diferencia para cada par

• diferencia >0 se asigna un signo + • diferencia <0 se asigna un signo de -

Page 3: Significancia estadistica

3

Energia usada por pacientes

Par enfermos sanos diferencia Signo 1 1153 996 157 + 2 1132 1080 52 + 3 1165 1182 -17 - 4 1460 1452 8 + 5 1634 1162 472 + 6 1493 1619 -126 - 7 1358 1140 218 + 8 1453 1123 330 + 9 1185 1113 72 + 10 1824 1463 361 + 11 1793 1632 161 + 12 1930 1614 316 + 13 2075 1836 239 + 2) Se cuenta el numero de positivos (D) y se estudia la diferencia para cada par de observaciones pero no se estudian los dos grupos de personas individualmente como se hacia en las pruebas parametricas.

Page 4: Significancia estadistica

4

Ho: no hay diferencias entre personas sanas y enfermas o sea -- hay el mismo numero de positivos que de negativos -- la probabilidad de + es de ½ -- la mediana de las diferencias es 0. 3) n pruebas Bernoulli independientes con p=1/2 (+) y (1-p)=1/2 (-). Por lo que el numero total de + en D es una variable aleatoria con distribución BINOMIAL con parámetros n y p. Entonces el promedio esperado de + np=n/2, la varianza de + np(1-p)=n/4 desviación estándar de + [np(1-p)]1/2

=(n/4)1/2 4) entonces la hipótesis Ho se rechaza si D es mucho mas grande o mas chico que n/2

• Parámetro -- diferencia

Page 5: Significancia estadistica

5

• Estimador -- D

• Est.-Par. D – (n/2) SE(Est.) (n/4)1/2 Cuando n es grande Z+ se aproxima a una distribucion normal estandard con media 0 y varianza 1.

Para los datos anteriores n/2=13/2=6.5 (n/4)1/2=(13/4)1/2=1.80 Z+=2.50 El area a la derecha e izquierda de Z+ es 2(0.06)=0.012 (prueba a dos-colas)<0.05 entonces se rechaza la Ho de que no hay diferencias entre las personas sanas y enfermas. Cuando n es chico usamos la distribución Binomial para D asumiendo que Ho es verdadera.

Z+

Page 6: Significancia estadistica

6

De acuerdo a Ho esperamos D=n/2=13/2=6.5 pero para los datos D=11. La probabilidad de observar D=11 o D=12 o D=13 es

1113(0.5)11(0.5)1113 −

+ 1213(0.5)12(0.5)1213 −

+

13-13(0.5)13(0.5)1313

=0.0095+0.0016+0.0001

=0.0112 (una-cola) o 2(0.0112) (dos-colas).

Problema ! LA PRUEBA DE SIGNO NO TIENE EN CUENTA LA MAGNITUD DE LA DIFERENCIA

Page 7: Significancia estadistica

7

PRUEBA DE WILCOXON DEL SIGNO

DEL RANGO Tiene en cuenta la magnitud de la diferencia. -- se ordenan las diferencias por valor absoluto -- diferencias positivas tienen un signo + -- diferencias negativas tienen un signo - -- se suman las diferencias con signo + y las diferencias con signo - Bajo la Ho de que la mediana=0 se espera que la muestra tenga aproximadamente igual numero de + que de – o sea que la suma de rangos positivos=suma de rangos negativo

PRUEBA DE WILCOXON DE LA SUMA DEL RANGO

Es la contraparte no parametrica de la prueba de t.

Page 8: Significancia estadistica

8

La prueba de chi-cuadrado χ2

χ2 es definida como la suma de cuadrado de variables independientes con distribución normal media 0 y varianza 1.

2

i i iσiµiY2Z2χ ∑ ∑

−==

En el muestreo de una distribución normal la cantidad SS=(n-1)s2 consiste en la suma de (n-1) desviaciones independientes. Estas deviaciones tienen media zero por lo que dividiendo por la varianze comun σ2 aseguramos varianza de 1. Entonces

2σ21)s(n2χ −=

La distribución chi-cuadrada depende del numero de desviaciones independientes, grados de libertad, y no puede ser negativa ya que envuelve suma de cuadrados.

Page 9: Significancia estadistica

9

χ2 es apropiada para datos que se agrupan en categorías y se tienen celdas con observaciones de tal forma que

∑−=

i esperado

2esperado)(observado2χ

Los valores observados son las observaciones dentro de cada celda y los valores esperados son aquellos referidos cuando la hipótesis nula es verdadera.

Tablas de contingencia de 2 × 2

Estas tablas son comunes para sumarizar datos categóricos. El interes radica en ver si las 2 categorias de la variable en las hileras esta relacionada a las 2 categorias de la variable en las columnas. Columnas Total Hileras 1 2

1 n11 n12 n1. 2 n21 n22 n2.

Total n.1 n.2 n

Page 10: Significancia estadistica

10

La hipótesis nula a probar es Ho: NO HAY ASOCIACIÓN ENTRE HILERAS Y COLUMNAS Ejemplo Respuesta _______________ Favorable no favorable TOTAL Tratamiento 16 48 64 Placebo 40 20 60 Ho: NO HAY ASOCIACIÓN ENTRE HILERAS Y COLUMNAS O SEA LA PROPORCION DE INDIVIDUOS QUE TIENEN RESPUESTA FAVORABLE AL TRATAMIENTO ES IGUAL A LA PROPORCION DE INDIVIDUOS CON RESPUESTA NO FAVORABLE AL TRATAMIENTO. Ha: LA PROPORCION DE INDIVIDUOS CON RESPUESTA FAVORABLE Y NO FAVORABLE AL TRATAMIENTO ES DIFERENTE.

Page 11: Significancia estadistica

11

Programa SAS Data a; Input trat resultado conteo; Placebo f 16 Placebo nf 48 Trat f 40 Trat nf 20 ; proc freq; weight conteo; tables trat*resultado/chisq; run; Salida del programa SAS

The SAS System 15:52 Tuesday, May 1, 2001 The FREQ Procedure Table of trat by resultado trat resultado Frequency‚ Percent ‚ Row Pct ‚ Col Pct ‚f ‚nf ‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ placebo ‚ 16 ‚ 48 ‚ 64 ‚ 12.90 ‚ 38.71 ‚ 51.61 ‚ 25.00 ‚ 75.00 ‚ ‚ 28.57 ‚ 70.59 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ trat ‚ 40 ‚ 20 ‚ 60 ‚ 32.26 ‚ 16.13 ‚ 48.39 ‚ 66.67 ‚ 33.33 ‚ ‚ 71.43 ‚ 29.41 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 56 68 124 45.16 54.84 100.00 Statistics for Table of trat by resultado Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 1 21.7087 <.0001 Likelihood Ratio Chi-Square 1 22.3768 <.0001 Continuity Adj. Chi-Square 1 20.0589 <.0001 Mantel-Haenszel Chi-Square 1 21.5336 <.0001 Phi Coefficient -0.4184

Page 12: Significancia estadistica

12

Contingency Coefficient 0.3860 Cramer's V -0.4184 Fisher's Exact Test ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Cell (1,1) Frequency (F) 16 Left-sided Pr <= F 2.838E-06 Right-sided Pr >= F 1.0000 Table Probability (P) 2.397E-06 Two-sided Pr <= P 4.754E-06 Sample Size = 124

Comentarios Con 124 observaciones y cada celda con mas de 10 observaciones todas los supuestos del muestreo para el estadístico chi-cuadrado estan cumplidos. Conclusión SE RECHAZA LA Ho: NO HAY ASOCIACIÓN ENTRE HILERAS Y COLUMNAS y se concluye que el tratamiento tiene un efecto mas favorable que el placebo.

Page 13: Significancia estadistica

13

EXTENSIÓN El análisis de tablas de contingencia 2×2 se puede extender a tablas de contingencia 2×r o s×2 o r×s y a mas de una tabla r×s.

Prueba Wilcoxon-Mann-Whitney para 2-muestras

Dos muestras independientes de igual tamano (Wilcoxon, 1945) Dos muestras independientes de diferente tamano (Man and Whitney, 1947) Ho: la distribucion de las observaciones de dos muestras del mismo tamano son iguales. Similar a la prueba t para comparar medias de muestras de dos poblaciones. Ejemplo Relacion entre hipertensión y el consumo de Sodium (NA+) en un grupo de 12 individuos normales y un grupo de 10 individuos hipertensos.

Page 14: Significancia estadistica

14

Consumo de NA+ _________________ Normal Hipertenso 10.2 92.8 2.2 54.8 0.0 51.6 2.6 61.7 0.0 250.8 43.1 84.5 45.8 34.7 63.6 62.2 1.8 11.0 0.0 39.1 3.7 0.0 PROGRAMA SAS data a; input grupo $ individuo consumo; cards; normal 1 10.2 normal 2 2.2 normal 3 0.0 normal 4 2.6 normal 5 0.0

Page 15: Significancia estadistica

15

normal 6 43.1 normal 7 45.8 normal 8 63.6 normal 9 1.8 normal 10 0.0 normal 11 3.7 normal 12 0.0 hipertenso 1 92.8 hipertenso 2 54.8 hipertenso 3 51.6 hipertenso 4 61.7 hipertenso 5 250.8 hipertenso 6 84.5 hipertenso 7 34.7 hipertenso 8 62.2 hipertenso 9 11.0 hipertenso 10 39.1 ; proc freq data=a; tables grupo*consumo / noprint cmh2 scores=rank; proc freq data=a; tables grupo*consumo / noprint chisq scores=rank; proc npar1way wilcoxon; class grupo; var consumo; run;

SALIDA DE SAS The SAS System 10:13 Wednesday, May 2, 2001 6 The FREQ Procedure Summary Statistics for grupo by consumo Cochran-Mantel-Haenszel Statistics (Based on Rank Scores) Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 9.6589 0.0019 2 Row Mean Scores Differ 1 9.6589 0.0019 Total Sample Size = 22 The SAS System 10:13 Wednesday, May 2, 2001 7 The FREQ Procedure

Page 16: Significancia estadistica

16

Statistics for Table of grupo by consumo Statistic DF Value Prob Chi-Square 18 22.0000 0.2320 Likelihood Ratio Chi-Square 18 30.3164 0.0345 MH Chi-Square (Rank Scores) 1 9.6589 0.0019 Phi Coefficient 1.0000 Contingency Coefficient 0.7071 Cramer's V 1.0000 WARNING: 100% of the cells have expected counts less than 5. Chi-Square may not be a valid test.

Sample Size = 2 The SAS System 10:13 Wednesday, May 2, 2001 8

The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable consumo Classified by Variable grupo Sum of Expected Std Dev Mean grupo N Scores Under H0 Under H0 Score normal 12 91.0 138.0 15.122873 7.583333 hiperten 10 162.0 115.0 15.122873 16.200000 Average scores were used for ties. Wilcoxon Two-Sample Test Statistic 162.0000 Normal Approximation Z 3.0748 One-Sided Pr > Z 0.0011 Two-Sided Pr > |Z| 0.0021 t Approximation One-Sided Pr > Z 0.0029 Two-Sided Pr > |Z| 0.0057 Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-Square 9.6589 DF 1 Pr > Chi-Square 0.0019

COMENTARIOS

Page 17: Significancia estadistica

17

• La opcion CMH2 en el programa SAS

especifica que la prueba de correlacion de Cochran-Mantel-Haenszel es calculada. La diferencia de las medias de scores tambien es realizada y es igual a la correlacion de Cochran-Mantel-Haenszel dado que hay solo dos grupos.

El metodo de Mantel-Haenszel combina información de muchas tablas de 2×2

• El resultados del chi-cuadrado de 9.659 con 1 gl

y p=0.0019 indica que hay diferencias significativas entre los individuos normales e hipertensos en el consumo de NA+

Prueba Kruskal-Wallis para k-muestras Generalización de la prueba de Wilcoxon-Mann-Whitney para 2-muestras a mas de 2-muestras. Ho: la respuesta tiene la misma distribución en todos los grupos

Page 18: Significancia estadistica

18

Ejemplo Se quiere saber si hay diferencias en los niveles de cortisol en tres grupos de mujeres embarazadas al momento del parto. GRUPOS I II III 262 465 343 307 501 772 211 455 207 323 355 1048 454 468 838 339 362 687 304 154 287 356 PROGRAMA SAS data a; input grupo $ individuo cortisol; cards; I 1 262 I 2 307

Page 19: Significancia estadistica

19

I 3 211 I 4 323 I 5 454 I 6 339 I 7 304 I 8 154 I 9 287 I 10 356 II 1 465 II 2 501 II 3 455 II 4 355 II 5 468 II 6 362 III 1 343 III 2 772 III 3 207 III 4 1048 III 5 838 III 6 687 ; proc freq data=a; tables grupo*cortisol / noprint cmh2 scores=rank; proc npar1way wilcoxon; class grupo; var cortisol; run; SALIDA DE SAS The SAS System 10:13 Wednesday, May 2, 2001 11 The FREQ Procedure Summary Statistics for grupo by cortisol

Page 20: Significancia estadistica

20

Cochran-Mantel-Haenszel Statistics (Based on Rank Scores) Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 8.2857 0.0040 2 Row Mean Scores Differ 2 9.2316 0.0099 Total Sample Size = 22 The SAS System 10:13 Wednesday, May 2, 2001 12 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable cortisol Classified by Variable grupo Sum of Expected Std Dev Mean grupo N Scores Under H0 Under H0 Score I 10 69.0 115.0 15.165751 6.900000 II 6 90.0 69.0 13.564660 15.000000 III 6 94.0 69.0 13.564660 15.666667 Kruskal-Wallis Test Chi-Square 9.2316 DF 2 Pr > Chi-Square 0.0099

COMENTARIOS

• La prueba de Kuskal-Wallis definida como Row Mean Score Difference es 9.232 con 2 gl y un valor de p=0.010. Entonces la distribución de los niveles de cortisol varia en los tres grupos de mujeres.

Page 21: Significancia estadistica

21

• Como hay mas de dos grupos la correlacion de Mantel-Haenszel no coincide con el Row Mean Score.

Page 22: Significancia estadistica

22

REGRESIÓN LOGÍSTICA

Y =variable de respuesta que toma solo dos valores 0,1 entonces la variable aleatoria es la proporcion de veces (p) que Y toma valores de 1. P(Y=1) P(Y=0) Se quiere modelar p en base a variables explicatorias que influencian su valor. Se hace una regresión de los valores de la proporcion (p) en las variables independientes. Sin embargo la regresión standard no es apropiada por que las proporciones observadas no tienen las mismas varianzas. Se hace una regresión ponderada por las varianzas de tal forma que observaciones con mucha varianza se les da poco peso. Entonces, el peso wi para la observacion ith es

wi = )ip(1ipiN ˆˆ −

Page 23: Significancia estadistica

23

Entonces p=a+b1x1 donde x1 representa los pesos. Pero como p varia entre 0 y 1 y el termino a+b1x1 varia entre valores que pueden caer fuera de ese rango este modelo no es factible. Sin embargo el modelo

p=ea+b1

x1

asegura que p es positivo pero puede ser >1. Este problema se soluciona con el modelo siguiente

p=(ea+b1

x1)/ (1+ea+b

1x

1) Esta es la FUNCION LOGISTICA que restringe el valor de p a estar entre 0 y 1. Entonces p/(1-p)= [ea+b

1x1/ (1+ea+b

1x

1)]/[1/(1+ea+b1

x1)]= ea+b

1x

1

p/(1-p)= ea+b

1x1

Page 24: Significancia estadistica

24

log[p/(1-p)]= log[ea+b1

x1]

log[p/(1-p)]=a+b1x1 Modelo Logistico

La tecnica de ajustar un modelo de esta forma se llama REGRESION LOGÍSTICA y la relacion entre p y x1 NO es lineal. NOTA El odd de un evento que sucede con probabilidad p esta dado por p/(1-p) Para p=1/2, (1-p)=1/2 entonces el odd del evento es 1 a 1. Para p=2/3, (1-p)=1/3 entonces el odd del evento es 2 a 1.