problemes anova

21
Página 1 Problemes de bioestadística (ANOVA) EJEMPLO 1: DISEÑO DE UN FACTOR En un experimento, se compara la expresión de un gen (medida en concentración de proteina) en tres mutantes (A,B,C). Los datos obtenidos en 9 cultivos de cada mutante son: A 12.2 13.4 11.3 13.0 11.1 11.3 12.2 13.3 11.1 B 12.3 14.2 11.4 12.4 11.6 13.2 13.1 14.1 15.0 C 12.3 14.6 11.9 12.1 11.0 13.0 12.2 11.4 14.0 De acuerdo con estos datos se pide: (1) Definir un data.frame para estos datos: De acuerdo con esto, tendremos:

Upload: rafael-castro-f

Post on 16-Apr-2017

76 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Problemes anova

Página 1

Problemes de bioestadística (ANOVA) EJEMPLO 1: DISEÑO DE UN FACTOR En un experimento, se compara la expresión de un gen (medida en concentración de proteina) en tres mutantes (A,B,C). Los datos obtenidos en 9 cultivos de cada mutante son:

A 12.2 13.4 11.3 13.0 11.1 11.3 12.2 13.3 11.1

B 12.3 14.2 11.4 12.4 11.6 13.2 13.1 14.1 15.0

C 12.3 14.6 11.9 12.1 11.0 13.0 12.2 11.4 14.0

De acuerdo con estos datos se pide: (1) Definir un data.frame para estos datos:

De acuerdo con esto, tendremos:

Page 2: Problemes anova

Página 2

(2) Determinar si la expresión de esta proteína es distinta en los mutantes estudiados. Podemos explorar la distribución de la concentración de proteína en las muestras de cada mutante:

Parece que el mutante B expresa algo más de proteína. Podemos explorar las medias de expresión para cada mutante:

Page 3: Problemes anova

Página 3

Los IC de las medias son muy amplios ya que tenemos pocas observaciones. La media de la muestra del mutante B es algo más alta, pero, probablemente, no sea significativamente distinta de los otros mutantes. Para evaluar esta conclusión, analizaremos los datos utilizando ANOVA (un factor con tres niveles):

Comprobamos que el efecto del tipo de mutante no determina medias distintas en el nivel de expresión de esta proteína (p=0.23). Podemos estimar las medias de cada mutante:

De acuerdo con este resultado: 5.124.01.12;03.1393.01.12;1.12 ABA .

Page 4: Problemes anova

Página 4

Podemos obtener directamente este resultado, ajustando un modelo sin intersección:

Los IC de las medias estimadas es:

Este resultado es distinto de los IC que obtendríamos en cada mutante analizado individualmente:

Page 5: Problemes anova

Página 5

(3) Comparaciones múltiples Finalmente, obtendremos los IC para las diferencias de las medias de expresión de cada mutante:

Estos intervalos son distintos de los que obtendríamos comparando dos a dos los mutantes. Por ejemplo, La diferencia B-A obtenida individualmente sería:

Podemos expresar gráficamente los IC de las diferencias obtenidas a partir del análisis de la varianza:

Page 6: Problemes anova

Página 6

(4) Conclusiones Aunque la descriptiva de los datos sugiere que el mutante B tiene unos niveles medios de expresión más elevados, los resultados del ANOVA indican que las diferencias no son significativas (p=0.23). Los IC de las medias por mutante y de las diferencias de medias entre mutantes sugieren que sería conveniente aumentar los tamaños muestrales para obtener una mejor estimación. Con todo, los intervalos obtenidos sugieren que, caso de existir, las diferencias entre mutantes no serán muy elevadas. EJEMPLO 2: DISEÑO DE DOS FACTORES En un experimento, se evalúa el efecto del pH y la temperatura en el rendimiento de un proceso. Los datos son:

Page 7: Problemes anova

Página 7

Page 8: Problemes anova

Página 8

(1) Caracterizar la respuesta según el pH Podemos calcular las medias y su IC según el pH:

(2) Rendimiento según la temperatura

Page 9: Problemes anova

Página 9

(3) Efecto del pH y la temperatura en el rendimiento medio

(4) Ajuste del modelo Podemos evaluar el efecto de los dos factores, pH y temperatura, ajustando el modelo lineal:

ijkijjiijky

En función de estos resultados, concluimos que tanto el pH (p=7.43e-08) como la temperatura (p=1.52e-05) tienen efectos significativos. La interacción también es significativa (p=0.021).

Page 10: Problemes anova

Página 10

(5) Estimación de los efectos Podemos estimar los efectos mediante:

R no proporciona la estimación de los coeficientes del modelo. La interpretación de los resultados de R es algo complicada. El primer nivel de cada factor no aparece y se encuentra agrupado en el término de intersección. A continuación, aparecen los valores que hay que añadir a la intersección para obtener la medias de los niveles del primer factor (pH) para el primer nivel del segundo (30 grados). A continuación, los valores que hay que añadir para obtener las medias para cada nivel del segundo factor. Finalmente las interacciones. En este caso concreto, tenemos:

pH () Temp () ij

Basico 30 24.961111 96.24

Neutro 30 24.524.962112 101.48

Acido 30 54.524.963113 101.78

Basico 35 64.424.961221 100.88

Neutro 35 80.464.424.524.962222 101.32

Acido 35 46.264.454.524.963223 103.66

Basico 40 74.424.961331 100.98

Neutro 40 70.374.424.524.962332 102.52

Acido 40 44.074.454.524.963333 106.96

Page 11: Problemes anova

Página 11

(6) Comparaciones dos a dos El método de Tukey permite comparar las medias dos a dos y obtener los IC de las diferencias. Estos resultados, como en el caso de un factor, no son los mismos que obtendríamos calculandos los IC de la diferencia de medias individualmente para cada par de casos. El método de Tukey es el que debe utilizarse si estamos interesados en los IC simultáneos de todos los casos. Como el modelo se ha ajustado como un modelo lineal, debemos hacer:

Page 12: Problemes anova

Página 12

Podemos ver los intervalos para el pH:

Comprobamos que el pH básico es el que proporciona un rendimiento medio menor. El ácido proporciona un rendimiento mejor que el neutro. Por lo tanto, podemos concluir que el rendimiento se incrementa en el sentido bàsico<neutro<ácido. Con respecto a la temperatura, el resultado es:

En este caso, no existen diferencias entre 35 y 40 grados, pero si entre 35 y 30, siendo mayor el rendimiento con 35 grados. Por lo tanto, podemos concluir que el rendimiento en mayor a 35 y 40 grados, sin diferencias significativas entre ambas temperaturas, y menor a 30 grados. La interpretación de la interacción no es sencilla, dado que tenemos muchos intervalos. En todo caso, la estrategia consiste en verificar si los IC fijando los niveles de un factor (p.e. 30 grados) comparando los niveles del segundo factor se mantienen cuando cambiamos el nivel del primero (p.e. 35 grados).

Page 13: Problemes anova

Página 13

PROBLEMAS ENUNCIADO Se ha diseñado un experimento para determinar el efecto de la temperatura en el rendimiento de una fermentación. Se han probado cuatro temperaturas: 30, 35, 40 y 45oC. El resultado del análisis de los datos obtenidos es:

Page 14: Problemes anova

Página 14

PREGUNTA 1 De acuerdo con estos resultados:

1) El efecto de la temperatura es significativo (p=1.011e-08). 2) Los IC de los efectos no permiten concluir que existan diferencias significativas. 3) El efecto de la temperatura no es significativo. 4) El rendimiento aumenta con la temperatura (p=1.011e-08).

PREGUNTA 2 Siguiendo con los mismos resultados, podemos afirmar que:

1) El rendimiento a 30 y 35oC es similar. 2) El rendimiento a 30 y 45oC es similar. 3) El mayor rendimiento se obtiene a los 35 oC. 4) El menor rendimiento se obtiene a los 35 oC.

PREGUNTA 3 Siguiendo con los mismos resultados, ¿qué rendimiento medio se obtiene a los 35 oC?:

1) 0.8743 2) 25.8892-0.8743 3) 25.8892+0.8743 4) El mismo que con 40 oC.

FIN DE LAS PREGUNTAS DEL ENUNCIADO ANTERIOR PREGUNTA 4 Considera un experimento con tres tratamientos (A,B,C) en grupos independientes.

A 10 15 18 11 12 15 16 11

B 11 12 14 9 14 15 8 12 11

C 9 12 10 10 9 12 11 11

Evalúa si los tratamientos tienen un efecto significativo.

¿Qué tratamiento es más efectivo?

¿Cuál es la diferencia entre los resultados del tratamiento A y C? PREGUNTA 5 En la base de datos chickwts de R se dispone de los datos de peso de pollos criados con distintos alimentos. Se pide:

Evaluar si los distintos alimentos tienen un efecto sobre el peso final de los pollos.

Determinar qué tratamiento es más efectivo.

Estimar la diferencia de peso que se espera obtener si se alimentan con soybean o con casein.

Page 15: Problemes anova

Página 15

PREGUNTA 6 En la base de datos PlantGrowth de R se dispone de los datos de producción de plantas en tres condiciones experimentales. Se pide:

Evaluar el efecto de los tratamientos.

Estimar la diferencia de producción de los dos tratamientos respecto al control.

Una comparación de los IC de producción estimados para cada tratamiento mediante el ANOVA comparándolos con los IC que se obtienen para las medias de cada tratamiento.

PREGUNTA 7 La base de datos ozone (library DAAG) contiene datos del nivel de ozono por meses en distintos años. Tomado como datos el nivel medio anual, se pide evaluar si se observa una variación en dichos valores a lo largo de los años. Para ello, agrupa los datos en décadas y determina si se observa una variación significativa entre décadas. ¿Cuando se observa una variación más importante? PREGUNTA 8 En un experimento se evalúa el efecto de la temperatura (25,30,35,37oC) y del pH (7.4, 7.8) en el rendimiento de un proceso. El análisis de los resultados proporciona la tabla siguiente:

De acuerdo con esto:

1) El rendimiento medio no varía con la temperatura y el pH. 2) El pH no tiene un efecto significativo sobre el rendimiento. 3) La interacción no es significativa. 4) El rendimiento aumenta con la temperatura.

PREGUNTA 9 En un experimento se evalúa el efecto de la temperatura (25,30,35,37oC) y del pH (7.4, 7.8) en el rendimiento de un proceso. El análisis de los resultados proporciona la tabla siguiente:

Page 16: Problemes anova

Página 16

De acuerdo con esto:

1) El rendimiento medio no varía con la temperatura y el pH. 2) El pH tiene un efecto significativo sobre el rendimiento. 3) La interacción es significativa. 4) El rendimiento aumenta con la temperatura.

PREGUNTA 10 En un experimento se evalúa el efecto de la temperatura (25,30,35,37oC) y del pH (7.4, 7.8) en el rendimiento de un proceso. El análisis de los resultados proporciona la tabla siguiente:

El rendimiento medio esperado del proceso a pH 7.8 y 35oC sería:

1) 76.04 + 5.44 2) 76.04 + 5.44 - 3.06 – 4.24 3) 76.04 + 5.44 - 4.24 4) 76.04 - 3.06 - 4.24

PREGUNTA 11

Source: {Nigam, A.K. and Gupta V.K., 1979, Handbook on Analysis of Agricultural

experiments, First Edition, I.A.S.R.I. Publication, New Delhi, pp16-20}.

A feeding trial with 3 feeds namely (i) Pasture(control), (ii) Pasture and Concentrates

and (iii) Pasture, Concentrates and Minerals was conducted at the Yellachihalli Sheep

Farm, Mysore, to study their effect on wool yield of Sheep. For this purpose twenty-five

ewe lambs were allotted at random to each of the three treatments and the three

treatments and the weight records of the total wool yield (in gms) of first two clipping

were obtained. The data for two lambs for feed 1, three for feed 2 and one for feed 3 are

missing. The details of the experiment are given below:

Page 17: Problemes anova

Página 17

Yield (in gms)

FEED1 FEED2 FEED3

850.50 510.30 992.25

453.60 963.90 850.50

878.85 652.05 1474.20

623.70 1020.60 510.30

510.30 878.85 850.50

765.45 567.00 793.80

680.40 680.40 453.60

595.35 538.65 935.55

538.65 567.00 1190.70

850.50 510.30 481.95

850.50 425.25 623.70

793.80 567.00 878.85

1020.60 623.70 1077.30

708.75 538.65 850.50

652.05 737.10 680.40

623.70 453.60 737.10

396.90 481.95 737.10

822.15 368.55 708.75

680.40 567.00 708.75

652.05 595.35 652.05

538.65 567.00 567.00

850.50 595.35 453.60

680.40 NA 652.05

NA NA 567.00

. . .

Where Feed 1- Pasture (control), Feed 2- Pasture and Concentrates and Feed 3- Pasture,

Concentrates and Minerals.

Perform the analysis of variance of the data to test whether there is any

difference between treatment effects.

Perform all possible pair wise treatment comparisons and identify the best

treatment i.e. the treatment giving highest yield.

Page 18: Problemes anova

Página 18

PREGUNTA 12 Considera los datos siguientes que corresponden a un experimento similar al descrito en el ejemplo 2 (diseño de dos factores):

pH Temp y

Basico 30ºC 101.4

Basico 35ºC 90.6

Basico 40ºC 108.6

Basico 30ºC 102.1

Basico 35ºC 104.9

Basico 40ºC 102.4

Basico 30ºC 88.4

Basico 35ºC 106.0

Basico 40ºC 94.4

Basico 30ºC 90.6

Basico 35ºC 99.6

Basico 40ºC 99.6

Basico 30ºC 90.3

Basico 35ºC 93.4

Basico 40ºC 101.6

Neutro 30ºC 104.5

Neutro 35ºC 98.0

Neutro 40ºC 114.4

Neutro 30ºC 103.6

Neutro 35ºC 99.9

Neutro 40ºC 98.6

Neutro 30ºC 102.0

Neutro 35ºC 103.7

Neutro 40ºC 98.9

Neutro 30ºC 98.0

Neutro 35ºC 104.0

Neutro 40ºC 100.5

Neutro 30ºC 103.4

Neutro 35ºC 107.0

Neutro 40ºC 104.9

Acido 30ºC 102.0

Acido 35ºC 108.0

Acido 40ºC 102.2

Acido 30ºC 95.4

Acido 35ºC 109.2

Acido 40ºC 109.5

Acido 30ºC 97.6

Acido 35ºC 107.9

Acido 40ºC 107.3

Acido 30ºC 94.4

Acido 35ºC 104.5

Acido 40ºC 109.7

Acido 30ºC 102.6

Acido 35ºC 110.6

Acido 40ºC 105.5

Realiza un análisis similar al discutido en el ejemplo 2 (diseño de dos factores). Podéis copiar la tabla (CTRL-C) incluyendo el nombre de las variables y en R utilizar:

y tendréis los datos en el data.frame denominado Datos.

Page 19: Problemes anova

Página 19

PREGUNTA 13 Considera los datos siguientes que corresponden a un experimento similar al descrito en el ejemplo 2 (diseño de dos factores):

pH Temp y

Basico 30ºC 102.0

Basico 35ºC 107.7

Basico 40ºC 113.4

Basico 30ºC 102.5

Basico 35ºC 108.7

Basico 40ºC 113.7

Basico 30ºC 100.5

Basico 35ºC 105.4

Basico 40ºC 113.0

Basico 30ºC 100.5

Basico 35ºC 106.4

Basico 40ºC 112.7

Basico 30ºC 102.2

Basico 35ºC 106.0

Basico 40ºC 112.5

Neutro 30ºC 103.7

Neutro 35ºC 110.3

Neutro 40ºC 114.0

Neutro 30ºC 102.8

Neutro 35ºC 108.6

Neutro 40ºC 114.0

Neutro 30ºC 103.0

Neutro 35ºC 108.1

Neutro 40ºC 114.7

Neutro 30ºC 104.0

Neutro 35ºC 109.0

Neutro 40ºC 114.2

Neutro 30ºC 104.8

Neutro 35ºC 107.7

Neutro 40ºC 113.4

Acido 30ºC 106.0

Acido 35ºC 111.1

Acido 40ºC 114.1

Acido 30ºC 106.6

Acido 35ºC 112.5

Acido 40ºC 115.2

Acido 30ºC 106.2

Acido 35ºC 112.2

Acido 40ºC 117.7

Acido 30ºC 106.7

Acido 35ºC 111.1

Acido 40ºC 114.5

Acido 30ºC 105.0

Acido 35ºC 110.4

Acido 40ºC 115.5

Realiza un análisis similar al discutido en el ejemplo 2 (diseño de dos factores). Podéis copiar la tabla (CTRL-C) incluyendo el nombre de las variables y en R utilizar:

y tendréis los datos en el data.frame denominado Datos.

Page 20: Problemes anova

Página 20

PREGUNTA 14 Considera los datos siguientes que corresponden a un experimento similar al descrito en el ejemplo 2 (diseño de dos factores):

pH Temp y

Basico 30ºC 102.0

Basico 35ºC 109.5

Basico 40ºC 118.9

Basico 30ºC 103.0

Basico 35ºC 111.4

Basico 40ºC 119.4

Basico 30ºC 99.1

Basico 35ºC 104.7

Basico 40ºC 118.0

Basico 30ºC 99.0

Basico 35ºC 106.8

Basico 40ºC 117.3

Basico 30ºC 102.4

Basico 35ºC 106.0

Basico 40ºC 117.0

Neutro 30ºC 104.4

Neutro 35ºC 116.5

Neutro 40ºC 125.9

Neutro 30ºC 102.7

Neutro 35ºC 113.1

Neutro 40ºC 126.0

Neutro 30ºC 103.0

Neutro 35ºC 112.2

Neutro 40ºC 127.4

Neutro 30ºC 105.0

Neutro 35ºC 114.0

Neutro 40ºC 126.5

Neutro 30ºC 106.7

Neutro 35ºC 111.5

Neutro 40ºC 124.8

Acido 30ºC 108.0

Acido 35ºC 118.1

Acido 40ºC 129.3

Acido 30ºC 109.1

Acido 35ºC 120.9

Acido 40ºC 131.5

Acido 30ºC 108.4

Acido 35ºC 120.4

Acido 40ºC 136.4

Acido 30ºC 109.5

Acido 35ºC 118.1

Acido 40ºC 130.0

Acido 30ºC 106.1

Acido 35ºC 116.9

Acido 40ºC 132.0

Realiza un análisis similar al discutido en el ejemplo 2 (diseño de dos factores). Podéis copiar la tabla (CTRL-C) incluyendo el nombre de las variables y en R utilizar:

y tendréis los datos en el data.frame denominado Datos.

Page 21: Problemes anova

Página 21

RESPUESTAS A LAS PREGUNTAS

PREGUNTA RESPUESTA CORRECTA

1 1

2 1

3 3

8 3

9 1

10 2