203018 modulo biometria

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Agrícolas, Pecuarias y del Medio Ambiente Contenido didáctico del curso BIOMETRIA Y DISEÑO DE EXPERIMENTOS

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

ESCUELA DE CIENCIAS AGRICOLAS PECUARIAS Y DEL MEDIO

AMBIENTE

203018 – BIOMETRIA Y DISEÑO DE EXPERIMENTOS

JOHN ALEXANDER MORENO SANDOVAL

LILIANA VALENCIA TRUJILLO

(Director Nacional)

Retomado por:

ALBERTO CASTELLANOS RIVEROS

MVZ.Esp.Msc.

Bucaramanga

2013


INDICE DE CONTENIDO

INTRODUCCIÓN ..................................................................................................... 5

UNIDAD 1. BIOMETRIA ......................................................................................... 9

CAPITULO 1: LA BIOESTADÍSTICA EN LA INVESTIGACIÓN PECUARIA ......... 9

LECCIÓN 1: HISTORIA DE LA BIOESTADÍSTICA ............................................................ 9 LECCIÓN 2: USOS E IMPORTANCIA DE LA BIOMETRÍA EN EL SECTOR AGROPECUARIO ... 10 LECCIÓN 3: MÉTODO CIENTÍFICO ........................................................................... 11 LECCIÓN 4: CONCEPTOS ....................................................................................... 12 LECCIÓN 5: INVESTIGACIÓN CIENTÍFICA................................................................... 16

CAPITULO 2: ESTADÍSTICA DESCRIPTIVA ...................................................... 17

LECCIÓN 6: MEDIDAS DE TENDENCIA CENTRAL ........................................................ 17 LECCIÓN 7: DISTRIBUCIÓN DE FRECUENCIAS .......................................................... 33 LECCIÓN 8: GRÁFICAS .......................................................................................... 46 LECCIÓN 9: PRINCIPIOS DE PROBABILIDAD .............................................................. 51 LECCIÓN 10: MUESTREO ....................................................................................... 55

CAPITULO 3: INFERENCIA ESTADÍSTICA ........................................................ 67

LECCIÓN 11: INFERENCIA PUNTUAL ........................................................................ 67 LECCIÓN 12: PRUEBAS DE HIPÓTESIS ..................................................................... 82 LECCIÓN 13: COMPARACIÓN DE DOS MEDIAS MUESTRALES ...................................... 91 LECCIÓN 14: ANÁLISIS DE VARIANZA....................................................................... 98 LECCIÓN 15: ANÁLISIS DE COVARIANZA ................................................................ 100

UNIDAD 2. DISEÑO DE EXPERIMENTOS ........................................................ 102

CAPITULO 4: DISEÑO DE EXPERIMENTOS .................................................... 102

LECCIÓN 16: EL EXPERIMENTO Y SUS ELEMENTOS ................................................. 102 LECCIÓN 17: ORIENTACIONES GENERALES EN LA EXPERIMENTACION

AGRICOLA ...................................................................................................... 105 LECCIÓN 18: DISEÑO EXPERIMENTAL. .................................................................. 107


LECCIÓN 19: MODELO ESTADÍSTICO ..................................................................... 114 LECCIÓN 20: TRANSFORMACIÓN DE DATOS ........................................................... 116

CAPITULO 5: CLASES DE DISEÑOS EXPERIMENTALES .............................. 117

LECCIÓN 21: DISEÑO COMPLETAMENTE AL AZAR ................................................... 117 LECCIÓN 22: DISEÑO EN BLOQUES COMPLETOS AL AZAR ....................................... 122 LECCIÓN 23: EXPERIMENTOS FACTORIALES .......................................................... 126 LECCIÓN 24: OTRAS CLASES DE DISEÑOS EXPERIMENTALES ................................. 128 LECCIÓN 25: BÚSQUEDA DE UNIDADES PERDIDAS (MÉTODO YATES) ....................... 130

CAPITULO 6: ANÁLISIS ESTADÍSTICO ........................................................... 132

LECCIÓN 26: USOS DE LAS COMPARACIONES MÚLTIPLES DE MEDIAS ........................ 132 LECCIÓN 27: PRUEBA DE TUKEY .......................................................................... 133 LECCIÓN 28: PRUEBA DE RANGO MÚLTIPLE DE DUNCAN ......................................... 140 LECCIÓN 29: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN ......................................... 144 LECCIÓN 30: ANÁLISIS DE VARIANZA PARA LA REGRESIÓN ...................................... 147

FUENTES BIBLIOGRAFICAS ............................................................................ 151


ASPECTOS DE PROPIEDAD INTELECTUAL Y VERSIONAMIENTO

El contenido didáctico del curso académico: BIOMETRIA Y DISEÑO DE EXPERIMENTOS fue diseñado inicialmente en el año 2008 por el zootecnista John Alexander Moreno Sandoval. Tutor de la UNAD, ubicado en el CEAD de Bogotá. Es Zootecnista especialista en estadística aplicada.

La siguiente corrección la realiza Liliana Valencia, Zootecnista magister en producción animal, quien está a cargo actualmente como directora del curso.

Posteriormente en el año 2010 el curso es retomado por el docente Alberto Castellanos Riveros MVZ. Especialista en docencia universitaria y magister en microbiología.


INTRODUCCIÓN

En el mundo se está tomando conciencia que todas las producciones, sin importar su naturaleza y en especial las de principios biológicos o ambientales deben ser analizadas numéricamente, no solo para determinar el estado de desarrollo, sino las proyecciones o correcciones que se puedan hacer tanto para lograr beneficios económicos como sociales o ambientales. La bioestadística como rama de la estadística, es una herramienta que se puede usar de manera sencilla sin necesidad de profundizar en ella, ni de dedicar toda una carrera profesional al estudio de esta, no queriendo decir que no se deben conocer algunos principios y procedimientos básicos.

Por lo anterior, las profesiones relacionadas con el campo como Zootecnistas, Médicos Veterinarios, Ingenieros Agrónomos, Ingenieros Agrícolas, Forestales, Ambientales y muchas otras, para cumplir satisfactoriamente con las tareas profesionales, implica el uso de métodos estadísticos que además de hacerlo más eficiente, le facilitan el trabajo. La mayor ventaja que puede tener un profesional “del campo” que estudie y maneje la estadística como herramienta para el análisis de variables biológicas es que lo hace único en el entendimiento de la relación que tiene estas dos ciencias y de la forma de explicarse una con la otra.

Este modulo, pretende de forma resumida y con algunos ejemplos aplicados presentar a los profesionales del campo la información que enseña y facilita el uso de la bioestadística como herramienta útil. Es preciso aclarar que el modulo trata de dejar el componente matemático “complicado” de un lado y únicamente presenta los modelos listos para reemplazar y hacer el cálculo que interesa al “profesional del campo”; sin profundizar en el origen de estos modelos. La estructura del módulo se divide en dos unidades; la primera se titula Bioestadística y la segunda Diseño Experimental.

La unidad de Bioestadística comprende desde los conceptos fundamentales, el manejo y presentación de datos, principios de probabilidades, muestreo e inferencia estadística. Todos los capítulos anteriormente mencionados son de gran relevancia y su importancia aumenta cuando se empieza a entender su uso, tal es el caso de las probabilidades que son de gran ayuda para los procesos de mejoramiento genético.


La segunda unidad de Diseño Experimental, muestra en sus capítulos los diseños más usados en los procesos de investigación biológica y da las pautas para el análisis de datos. Conocimiento destacado en las personas que se dedican a los procesos investigativos, tanto así, que para entender la mayoría de la literatura científica es imprescindible haberlo estudiado. Es preciso resaltar que la importancia de la Bioestadística o Biometría depende del uso y buena aplicación que se le de a los conceptos matemáticos que implican, es así como, cuando se cometen equivocaciones en la aplicación, se pretende justificar que el error de los resultados dependen de la ciencia como tal y no por la persona que la aplica; diciendo que la estadística es mentirosa.

UNIDAD 1

Nombre de la Unidad BIOMETRIA Introducción La unidad de Bioestadística comprende

desde los conceptos fundamentales, el manejo y presentación de datos, principios de probabilidades, muestreo e inferencia estadística. Todos los capítulos anteriormente mencionados son de gran relevancia y su importancia aumenta cuando se empieza a entender su uso, tal es el caso de las probabilidades que son de gran ayuda para los procesos de mejoramiento genético..

Intencionalidades Formativas 1. Dar a conocer la historia, usos y conceptos de la bioestadística. 2. Enseñar las principales formas de tomar, resumir y presentar un conjunto de datos en forma numérica o gráfica. 3. Estudiar los principios básicos de probabilidades y la aplicabilidad de en áreas relacionados con variables biológicas o ambientales. 4. Estudiar las principales distribuciones de probabilidades y el uso dentro de la inferencia.

Denominación de capítulo 1 La Bioestadística en la investigación pecuaria

Denominación de Lección 1 Historia de la bioestadística

Denominación de Lección 2 usos e importancia de la biometría en el


sector agropecuario

Denominación de Lección 3 Método Científico

Denominación de Lección 4 Conceptos

Denominación de Lección 5 Investigación científica

Denominación de capítulo 2 Estadística Descriptiva Denominación de Lección 6 Medidas de tendencia central

Denominación de Lección 7 Distribución de Frecuencias

Denominación de Lección 8 Gráficas

Denominación de Lección 9 Distribución estándar

Denominación de Lección 10 Muestreo

Denominación de capítulo 3 Inferencia estadística Denominación de Lección 11 Interferencia puntual

Denominación de Lección 12 Pruebas de hipótesis

Denominación de Lección 13 Comparación de dos medias muestrales

denominación de lección 14 Análisis de varianza

denominación de lección 15 Análisis de Covarianza

UNIDAD 2

Nombre de la Unidad DISEÑO DE EXPERIMENTOS Introducción Esta unidad muestra en sus capítulos los diseños

más usados en los procesos de investigación biológica y da las pautas para el análisis de datos. Conocimiento destacado en las personas que se dedican a los procesos investigativos, tanto así, que para entender la mayoría de la literatura científica es imprescindible haberlo estudiado. Es preciso resaltar que la importancia de la Bioestadística o Biometría depende del uso y buena aplicación que se le dé a los conceptos matemáticos que implican, es así como, cuando se cometen equivocaciones en la aplicación, se pretende justificar que el error de los resultados


dependen de la ciencia como tal y no por la persona que la aplica; diciendo que la estadística es mentirosa.

Intencionalidades Formativas 1. Formarse en la aplicación de diseños experimentales como una herramienta en para los procesos de investigación. 2. Conocer algunos métodos de comparación múltiple de medias que permitan analizar, recomendar y tomar decisiones en procesos productivos o investigativos. 3. Estudiar el uso y cálculo de las regresiones, en especial la regresión lineal.

Denominación de capítulo 4 Diseño de experimentos

Denominación de Lección 16 El experimento y sus elementos

Denominación de Lección 17 La replicación

Denominación de Lección 18 La aleatorización

Denominación de Lección 19 Modelo estadístico

Denominación de Lección 20 Transformación de datos

Denominación de capítulo 5 Clases de Diseños experimentales

Denominación de Lección 21 Diseño Completamente al azar

Denominación de Lección 22 Diseño en Bloques Completos al azar

Denominación de Lección 23 Experimentos factoriales

Denominación de Lección 24 Otras Clases de diseños experimentales

Denominación de Lección 25 Búsqueda de unidades perdidas (Método Yates)

Denominación de capítulo 6 Análisis estadístico

Denominación de Lección 26 Usos de las comparaciones múltiples de medias

Denominación de Lección 27 Prueba de Tukey

Denominación de Lección 28 Prueba de rango múltiple de Duncan

Denominación de Lección 29 Análisis de regresión y Correlación

Denominación de Lección 30 Análisis de varianza para la regresión


UNIDAD 1. BIOMETRIA

CAPITULO 1: La Bioestadística en la investigación pecuaria

Lección 1: Historia de la bioestadística

La estadística que muchos creen como algo nuevo, es tan antigua como la misma humanidad, ya que hay vestigios de su inicio antes de Cristo, como en China donde el emperador Yao (2.238 a.c) dispuso la realización de un censo en su imperio. Algo similar ocurrió en la época del Rey Herodes, relacionado con un empadronamiento cuando nació Cristo.

La Estadística como disciplina tuvo su inicio en Alemania a mediados del siglo XVII, en el reinado de Godofredo de Achenwall (1719-1772), cuando utilizó la palabra Estadística y la separó de la Sociología.

En América precolombina se había desarrollado notablemente la estadística, especialmente en México y Perú. La estadística del imperio de los incas era tan completa como la actual, aunque ese pueblo no usaba la escritura, empleaba para sus cómputos un sistema de cordones de variados colores, armados y combinados para conservar en ellos las cuentas extensas y complicadas; conocían así la población distribuida por localidades, sexos y condición civil, averiguaban el número de nacimientos y muertes, conocían el número de hombre aptos para la guerra y la cantidad de provisiones con que contaban. En general conocían muchos aspectos sobre su Imperio (Suárez 1999).

La palabra Estadística para algunos proviene de la palabra Status, cuyo significado es Estado. Para otros se deriva del vocablo Griego Statera que significa balanza, o quizá la más confiable, proviene de la palabra Alemana Stara que significa Estado, encargado de hacer Estadística. (Martínez 2005).

En los tiempos modernos, donde la Estadística tiene funciones importantes dentro de otras ramas, no sólo en lo social, en los censos o en la organización de cualquier Estado, si no que hace parte fundamental de los procesos de investigación, se ha denominado la BIOESTADISTICA como la ciencia encargada de analizar datos relacionados directamente con variables biológicas, su


importancia, influencia, relación o diferencia, etc y que permiten conocer o tomar decisiones acerca del comportamiento de los seres vivos bajo condiciones estipuladas.

Charles Darwin (1809-1882), siendo un biólogo, dio gran importancia a la estadística dentro de la formulación de sus teorías. Kart Pearson (1857-1936) dedicó gran parte de su vida al estudio de la estadística y fundó la biometría, impulsando así el uso de esta herramienta. Fisher (1980-1962) inició la relación entre los métodos estadísticos y la agricultura, genética y biología.

De esta forma la BIOESTADÍSTICA o BIOMETRÍA (medición de variables biológicas) se ha vuelto una herramienta indispensable para ramas tan importantes como la genética, nutrición, alimentación y muchas otras que son componentes de profesiones que trabajan con seres vivos y factores que los afecten. Es así como en todos los procesos de educación donde se tenga como prioridad el estudio de variables biológicas, se hace indiscutible el uso de métodos estadísticos que aportan al conocimiento de los organismos vivos.

Lección 2: usos e importancia de la biometría en el sector agropecuario

La bioestadística es una herramienta que le sirve a todo profesional que tenga relación con los seres vivos, no solo en el campo investigativo, sino también de producción animal, análisis ambientales, poblaciones humanas, producciones agrícolas, etc. Con el fin ampliar el conocimiento sobre aspectos que permitan de una u otra forma tomar decisiones sobre los que interesa al desarrollo de la humanidad y del planeta.

Es frecuente escuchar el argumento que la estadística es un “sofisma de distracción” o que “es mentirosa”. En realidad, como se vio desde el principio de la humanidad, se ha utilizado la estadística y hoy en día una de sus denominaciones “la bioestadística”, la cual no es el proceso o el método el que dice mentiras, si no el mismo analista el que cambia los conceptos y hace mal uso de la herramienta, acomodándola y argumentándola a su beneficio. En pocas palabras, estos argumentos no se deben a la ciencia como tal, sino al hombre que no sabe aplicar el método preciso y mucho menos interpretarlo para dar suficiente importancia y concordancia con los que suceden en la naturaleza.


Es así como se debe tener mucho cuidado en el uso de esta herramienta, la cual es base para el entendimiento de procesos biológicos y que si es usada correctamente se vuelve indispensable para formular y comprobar hipótesis, teorías, modelos e incluso leyes, que conlleven a ampliar otras ciencias como la nutrición, alimentación, genética, fisiología, ecología, geología, botánica, y muchas

otras más relacionadas con la naturaleza del hombre, los animales, las plantas, microorganismos y en general con el medio ambiente.

Lección 3: Método Científico

Permite recolectar las observaciones mediante registros que se ordenan, clasifican, cuantifican y se interpretan mediante cuadros y/o gráficas, permitiendo la depuración de datos en dos aspectos, en su presentación clara y en su simplificación, ya que facilita manejar grandes cantidades de información presentadas de manera resumida, tarea que realizamos a través de la estadística descriptiva, luego con la inferencia estadística y además permite el análisis y la búsqueda de relaciones que puedan existir entre ellas.

El proceso de elaboración estadística se puede dividir en seis fases: (Martínez, 2005)

1. Planeamiento o preparación.

2. Recolección.

3. Crítica y codificación.

4. Procesamiento.

5. Análisis e interpretación.

6. Publicación.

En cuanto al planeamiento o preparación, un proyecto o plan estadístico debe contemplar los siguientes aspectos:

a. El objeto de la investigación

b. La finalidad


c. La fuente de información

d. Los procedimientos

e. El material

f. El costo y financiación.

Es importante tener en cuenta que todo procedimiento de investigación debe acogerse a los siguientes criterios:

Claridad. Toda investigación en todos sus pormenores, debe ser clara y conocida por todos los que en ella vayan a intervenir. La claridad está ligada directamente con la comprensión. La estadística en el periodo de investigación, en el de elaboración en la presentación y análisis, debe ser entendida por todo el mundo: investigador(es), lectores, quienes vayan a utilizar los resultados, etc.

Sencillez. En el proyecto en las instrucciones, en la finalidad, en los objetivos, en la toma de datos, en los cuadros de exposición, en los comentarios literarios de análisis, en las operaciones de cálculo, en los gráficos, en todo. La sencillez es un método para brindar claridad.

Utilidad. Toda estadística que se inicie debe tener alguna aplicación práctica de interés. De otro modo nos hallaremos ante una acumulación molesta de datos que perjudicarán por muchos motivos, a la información realmente aprovechable.

Lección 4: Conceptos

ESTADÍSTICA. Es un campo del estudio relacionado con 1) el sistema o método utilizado para la recolección, organización, análisis, descripción y resumen de datos y 2) la obtención de inferencia acerca de un conjunto de datos cuando solo se observa una parte de ellos.(Daniel, 1990 & Martínez, 2005.)

BIOESTADÍSTICA. Cuando los datos que se recopilan y analizan corresponden a disciplinas que forman parte de las ciencias biológicas, como la Veterinaria, Zootecnia, Agronomía, Ecología, etc. Se utiliza el término Bioestadística para diferenciar a esta aplicación particular de herramientas y conceptos estadísticos. (Suárez, 1999).


VARIABLE. Cuando se observa una característica medible y esta toma valores distintos entre individuos, lugares, condiciones de producción o a través del tiempo, se dice que ésta característica es una variable. Esto explica que la característica varía por algún efecto y por tanto es lógico llamarla variable. Son ejemplos de esto, la altura de plantas de maíz en un cultivo (presentan diferentes alturas entre ellas por efectos diferentes), la ganancia de peso de algunos

animales (varían por raza, sexo, edad, lugar, alimentaciónV), la cantidad de aportes nutricionales del suelo de una granja (varía por efectos edáficos, estructuras físicas y composiciones químicas del mismo).

Si analizamos o describimos una variable, característica o atributo en forma independiente, nos referimos a distribuciones univariantes, si relacionamos dos

Características entre sí sería bivariante y si es el caso de relacionar más de dos características se diría que la distribución es multivariante.

Las variables, dependiendo de los tipos de datos que la componen se puede clasificar en variables cuantitativas y cualitativas, y a su vez las cuantitativas pueden ser discretas o continuas.

Variables cuantitativas. Son las características mensurables y se describen numéricamente, tales como altura, peso, valor, producción, ventas, pluviosidad, etc.

Variables cualitativas. Son las que se expresan mediante palabras por no ser mensurables, pero si cuantificables, tales como raza, marca, posición socioeconómica, clima, etc.

Variable Discreta. Se refiere a aquellas que solo pueden tomar unos determinados valores, siendo imposible que lleguen a tomar valores intermedios entre dos consecutivos, es decir toma únicamente valores enteros: 1, 2, 3,V, tal es el caso del número de lechones por camada, cantidad de colonias de bacterias en un cultivos de agar, número de peces muertos por contaminación del agua, número de huevos viables para incubar, etc.

Variable Continua. Se toman todos los valores infinitos posibles de un intervalo, es decir, se admiten valores fraccionarios. Por ejemplo el peso de terneros al nacimiento, altura alcanzada por plantas de sorgo, velocidad del viento, etc.

Variable aleatoria. Cada vez que se determina un dato en un individuo, planta, lote, zona, etc., se dice que son el resultado de factores fortuitos y por tanto se ha


tomado de forma aleatoria. Los valores que resultan de los procesos de medición suelen conocerse como observaciones o simplemente como medidas. Todos los procesos investigativos en variables biológicas deben garantizar que las observaciones o mediciones que se hayan tomado en individuos, zonas, lotes, plantas, etc., sean el producto de una selección aleatoria.

Variable nominal. Se obtiene cuando se definen las categorías y se cuenta el número de observaciones que quedan en cada una. Las variables nominales comprenden las categorías como sexo (macho, hembra), color, raza, tamaño

(grande, mediano, pequeño). Ninguna de las características anteriores es numérica por naturaleza, sin embargo cuando se aplican ya sea en una población o en una muestra, es posible asignar a cada individuo una categoría.

Variables jerárquicas. Constan de valores relativos asignados para denotar orden: primero, segundo, tercero y así sucesivamente.

POBLACIÓN. Llamada también universo, se define como el mayor grupo de elementos por los cuales se tiene un cierto interés en un momento dado. Las características primordiales de una población son: su naturaleza, su magnitud, el espacio y el tiempo.

Si se lleva a cabo una medición de alguna variable sobre cada uno de los elementos de una población, se obtiene una población de valores definida como el mayor grupo de valores de una variable aleatoria, por los cuales se tiene un cierto interés en un momento dado. (Daniel, 1990).

Las poblaciones pueden ser finitas o infinitas. Si una población de valores consta de un número fijo de estos valores, se dice que la población es finita. Por otra parte si una población consta de una sucesión sin fin de valores, dicha población es infinita. Por ejemplo: si se desea hacer un estudio sobre la población bovina de un país, se sabe por censo o registros, un número determinado de la población y se convierte en una población finita. Por el contrario, si se desea estudiar la presencia de un hongo en las mazorcas que se producen en un cultivo de maíz, no se sabe el número determinado de mazorcas producidas y por tanto es una población infinita, o mejor aún, si el estudio pretende determinar la presencia de hongo en una bodega de granos, no se sabe cuántos granos están almacenados en la bodega.

MUESTRA. Una muestra puede definirse como una parte de una población. La muestra es un subconjunto de la población. Cuando la población es relativamente pequeña, es posible estudiar a todos los individuos que la integran, pero cuando la muestra corresponde o representa a una población grande o infinita, normalmente


en estadística, esta se debe tomar al azar, ya que todos los individuos de la población tienen la misma oportunidad de conformar la muestra de estudio y el resultado de esta muestra en el correspondiente estudio, representa el comportamiento de toda la población. De no cumplirse esto se tomaría como una muestra sesgada y se denomina muestra no probabilística.

La muestra no probabilística corresponde a la selección de unidades o elementos, según el criterio o conveniencia del investigador. En estos casos algunas unidades

Tienen mayor posibilidad que otras de ser seleccionadas; por tal razón no se puede determinar la validez, ni la confiabilidad que merecen dichos resultados. Casi por lo general, las unidades se seleccionan de forma caprichosa.

Al proceso de determinar el tamaño y selección de una muestra, se le llama muestreo y depende directamente de la naturaleza de la población. Existen varios métodos de muestreo que permiten dar confiabilidad en los resultados de un estudio.

UNIDAD EXPERIMENTAL. Una unidad experimental es un individuo de los que conforman una muestra o una población, es decir, las muestras o las poblaciones se componen de unidades experimentales. El conjunto de unidades experimentales es lo que se simboliza estadísticamente como (N) si es una población o (n) si es una muestra. En la presentación de muchas investigaciones, una de las preguntas comunes por los auditores corresponde a ¿cuántas unidades experimentales estudió?

Una unidad experimental puede estar compuesta por un individuo o por un grupo de individuos, es decir; individuales o grupales. Las unidades experimentales individuales, como su nombre los indica son aquellas que están compuestas por cada uno de los individuos de la muestra o de la población. Las unidades experimentales grupales son las que por facilidad de trabajo o conveniencia del estudio se trabajan en grupo. Por ejemplo: en un estudio de incidencia y prevalencia de Influenza Equina, se toma como unidad experimental cada uno de los equinos a los que se estén haciendo las pruebas, entonces se estaría hablando de unidades experimentales individuales. Mientras que en un estudio para determinar la ganancia de peso de caracoles bajo ciertas dietas, para facilitar el trabajo se pesan los caracoles en grupos de 10, lo cual cada grupo corresponde a una unidad experimental grupal y los resultados se presentan para grupos de 10 caracoles.


Esta última forma de definir las unidades experimentales puede provocar un error si los individuos que la conforman no son lo suficientemente homogéneos y causan diferencia con otras unidades experimentales grupales.

HIPÓTESIS. Es un supuesto que se asume tentativamente para representar un resultado que se pretende probar.

Lección 5: Investigación científica

No existe investigación, proceso o trabajo encaminado a obtener información cuantitativa en general, en la que la estadística no tenga una aplicación. La estadística no puede ser ignorada por ningún investigador, aún cuando no tenga ocasión de emplear la Estadística Aplicada en todos sus detalles y ramificaciones. Los resultados de una investigación agrícola reflejan los efectos de tratamiento, de diseño, e incluso de factores biológicos, ambientales y de manejo que los afectan. Es una característica común en los experimentos, en muy diversos campos de la investigación, que los efectos de los tratamientos experimentales varían de un ensayo a otro, cuando se repiten. Esta variación introduce ciertos grados de incertidumbres en cualquiera de las conclusiones que se obtienen de los resultados.

La estadística ha ayudado al investigador en proyectos muy variados en el campo de la agricultura, tales como el ensayo de maquinarias para escardar, ciertos aspectos económicos en la electrificación de granjas, comparación de varios métodos para secado de semillas, determinación de los efectos de las diferentes diferentes velocidades de secado del maíz para "palomitas", investigaciones en regadío, estudio del techado de fincas rurales, y en métodos de cultivo. La Estadística cuando se usa adecuadamente, hace más eficientes las investigaciones, es aconsejable que todos los investigadores se familiaricen con las técnicas y conceptos básicos de esta ciencia tan útil. El papel de la estadística en la investigación es, entonces, funcionar como una herramienta en el diseño de investigaciones, en el análisis de datos, y en la extracción de conclusiones a partir de ellos. Escasamente podrá preverse un papel mayor y más importante. De utilidad en las investigaciones, la Estadística únicamente va precedida por las Matemáticas y el sentido común, de los cuales se deriva.


CAPITULO 2: Estadística descriptiva

Lección 6: Medidas de tendencia central

En muchas ocasiones, si no son todas, no vemos obligados a representar un conjunto o (población) o un subconjunto de datos (muestra) con pocos valores que permitan dar a conocer en forma resumida la descripción de los mismos. Es así como se puede hacer uso de las medidas descriptivas.

Las medidas descriptivas, son el resultado de cálculos matemáticos sencillos que tienen como objetivo representar o describir en forma muy resumida un grupo de datos que componen una variable. Dependiendo de los datos que se quieren representar; estos toman el nombre de Parámetros si proviene de una población o de Estimadores si son originados por una muestra.

Características de las medidas descriptivas.

Las características de las medidas descriptivas están en función de que le valor obtenido cumpla con la función para lo cual fue calculado (Martínez, 2005).

• Debe estar representada por un solo valor.

• Debe ser objetiva y definida por una fórmula algebraica, de tal manera que cualquiera que sea la persona que trabaje con los datos, obtenga siempre el mismo valor.

Medias descriptivas

Población Muestra

Parámetros Estimadores


• Debe ser descriptiva de los datos en forma que su significancia sea fácil de entender.

• No debe ser una abstracción matemática, que únicamente pueda ser entendida por personas muy versadas en esta ciencia, ya que una de las funciones de la estadística es simplificar los datos y no hacerlos más complejos.

• Debe ser fácil de calcular.

• Debe ser calculada con todos los elementos del grupo de datos.

• Debe depender de todo el grupo de datos, de tal manera que si se altera uno de estos, consecuentemente se altera el valor obtenido.

• A pesar de que cada uno de los valores del grupo de datos, debe tener influencia sobre la medida obtenida, ésta debe ser de tal calidad que no vea influenciada en gran medida por el cambio de algunos pocos datos.

• Debe ser de uso fácil para cálculos matemáticos posteriores.

De otra forma, dependiendo su naturaleza y función, las medidas descriptivas se pueden clasificar en:

• Medidas de tendencia central

• Medidas de dispersión

• Medidas de forma

• Medidas de posición

Notación Sigma.

Antes de iniciar la presentación de las medidas descriptivas, se debe estar en capacidad de de entender el uso del símbolo matemático ∑ (sigma); el cual es uno de los símbolos más frecuentes en las fórmulas estadísticas.

∑ (sigma); significa sumatoria, es decir; que se debe sumar el grupo de datos con el que se cuenta.

Si se tiene la notación: n

n

i

yyyyi +++=∑=

...21

1

; donde:

∑ Es el operador de la suma.

yi Es la variable que se va a sumar.

i Es el índice de la suma


1 Designa el número límite inferior de donde se debe iniciar la suma de los datos.

n Designa el número límite superior de donde se debe iniciar la suma de los datos

∑=

n

i

yi1

Indica; “súmese todos los valores observados de una variable cuyos

subíndices están comprendidos entre 1 y n”

Ejemplo: dado el conjunto de datos 1, 2, 3, 4, 5; los cuales quieren decir y1=1, y2 =2, y3=3, y4=4 y5=5.

• 54321

5

1

yyyyyyii

++++=∑=

15543211

=++++=∑=i

yi

• 5432

5

2

yyyyyii

+++=∑=

954325

2

=+++=∑=i

yi

• 22

4

2225

1

2

5321yyyyyy

i

i ++++=∑=

5554321 222225

1

2 =++++=∑=i

iy

• ( )254321

25

1

yyyyyyii

++++=

∑=

( ) 225)15(54321 22

25

1

==++++=

∑

=i

yi

• )35()34()33()32()31()3(5

1

−+−+−+−+−=−∑=i

yi

• 2222225

1

)35()34()33()32()31()3( −+−+−+−+−=−∑=i

yi

• )5(3)4(3)3(3)2(3)1(335

1

++++=∑=i

yi

Medidas de tendencia central.

Es una forma útil de describir mediante un solo dato, la totalidad de un grupo de datos. Como su nombre lo indica es un dato hallado en el centro de la distribución; es el punto central o medio entre el conjunto de datos. En Bioestadística se usan varios tipo de datos como medida de tendencia central; cada una de ellas con sus ventajas y desventajas si de compararlas se trata, las cuales marcan la confiabilidad o no del dato obtenido.

Las principales medidas de tendencia central son:


Media Aritmética.

Media Ponderada.

Media Geométrica.

Mediana.

Moda.

Media Aritmética: es la medida de tendencia centrada más utilizada, la más conocida y sencilla de calcular. Generalmente se le denomina “media” , “promedio” ó “media para datos no agrupados” y se define como la suma de un conjunto de datos u observaciones, dividido entre el número total de observaciones que conforman el grupo sumado. Si corresponde a la media de una población se

denomina con el símbolo µ, mientras que para una muestra se simboliza x̂ ó ŷ; por lo que la fórmula sería:

Para una población: n

xn

i

i∑== 1µ Para una muestra:

n

x

x

n

i

i∑== 1ˆ

En forma aplicable n

xxxx n++++=

...321µ

Ejemplo: la media aritmética del conjunto de observaciones 2, 5, 7, 6, 4, 8, sería:

33.56

32

6

846752==

+++++=µ

Propiedades de la media aritmética:

• Se expresa en las mismas unidades de medida en que fueron tomados los datos originales.

• La media aritmética de una constante es igual a la constante. Ejemplo. Si se pesan un grupo de 4 conejos y todos pesan 300 gramos; la media aritmética es 300 gramos

3004

1200

4

300300300300ˆ ==

+++=x gramos

• La suma algebraica de las diferencias de los valores con respecto a la media aritmética, debe ser igual a cero*.


• La suma de los cuadrados de las diferencias con respecto a la media aritmética es menor que la suma de de los cuadrados de las diferencias con respecto a cualquier otro valor**.

Ejemplo de las propiedades. Si se tiene el siguiente conjunto de datos. 3, 5, 7, 8, 4, 5, 6, 3, 8, 7, 5; entonces:

CONJUNTO DE DATOS

Datos Diferencias con el promedio

Diferencias al cuadrado

diferencias con otro valor

Diferencias ala cuadrado

Xi Xi - x̂ D2 Xi – 3 D2 x1 3 -2,55 6,48 0 0 x2 5 -0,55 0,30 2 4 x3 7 1,45 2,12 4 16 x4 8 2,45 6,02 5 25 x5 4 -1,55 2,39 1 1 x6 5 -0,55 0,30 2 4 x7 6 0,45 0,21 3 9 x8 3 -2,55 6,48 0 0 x9 8 2,45 6,02 5 25 x10 7 1,45 2,12 4 16 x11 5 -0,55 0,30 2 4 5,55 0,00 32,73 28,00 104,00

Promedio x̂

*Suma algebraica de las diferencias debe ser 0, 0

**suma algebraica de las diferencias ala cuadrado

suma de las diferencia con el valor 3

**suma de las diferencias (con el valor 3) al cuadrado

Ventajas de la media aritmética:

• Es la medida más fácil de calcular y más comúnmente usada.

• Esta medida se define mediante una ecuación matemática muy fácil de entender y aplicar. Esto implica que su resultado es fácil de analizar y explicar.

• Es una herramienta para cualquier otro tipo de cálculo.

• Es susceptible de graficar o representar con ilustraciones.


Desventajas de la media aritmética:

• Es sensible a valores extremos (muy altos o muy bajos) en los cuales un solo valor puede causar una media aritmética no representativa para un grupo de datos. Ejemplo. Si se tienen los valores 5, 4, 7, 5, 18. la media aritmética sería 7,8; lo cual indica un valor muy alto para el grupo de datos y que está influencias por el dato extremo 18.

• Por la forma como se distribuyen los datos de una variable, no es representativa para resumirlos y se puede concluir mal sobre dicho dato. En este caso, depende de la habilidad del investigador para dar la validez al valor de la media.

Cuando las observaciones se han presentado en una tabla de frecuencias, el valor aproximado de la media aritmética, que se llamaría media aritmética de datos agrupados, se puede obtener mediante la siguiente ecuación:

n

nnii

nnn

nxnxnx

n

nxx

...

...

21

2211

++

+++== ∑)

Donde; ix corresponde a las marcas de clase y in corresponde a las frecuencias

absolutas que se han determinado para cada clase. Para los valores de la tabla de frecuencia se podría determinar como aproximación de la media aritmética el siguiente valor.

12161922272014119

125.127165.122

195.117225.112275.107205.102145.97115.9595.87

++++++++

++

++++++

== ∑ xx

xxxxxxx

n

nxx

ii)

02.109150

16353==x

)

Media Ponderada: A veces diferentes valores que se promedian, tiene importancia desigual dentro del conjunto de datos, por lo cual es recomendable tener en cuenta la importancia relativa dentro de todo el conjunto de datos.

Si W es la importancia relativa del valor de ni, entonces la media ponderada está dada por:

i

ii

wn

nwx

∑∑=)


Ejemplo: En un producción de mango Tommy, los frutos se distribuyen según su calidad en tres clasificaciones, A, B, C, D. Cada una de estas clasificaciones permite un precio en el mercado y se desea saber cuál es el precio promedio de toda la producción de un lote.

PRECIO PROMEDIO DE TODA LA PRODUCCIÓN DE UN LOTE

Clasificación Precio (Kg)

Producción (Kg) wi x ni

WI ni

A 3.000 1.200 3.600.000 B 2.800 2.500 7.000.000 C 2.500 3.450 8.625.000 D 1.800 6.420 11.556.000 13.570 30.781.000

∑ in ∑ × ii wn

i

ii

wn

nwx

∑∑=)

31,268.2570.13

000.781.30==wx

) Kg de mango.

Esto indica que en promedio, el kilogramo de mango a esos precios (de acuerdo a las clasificaciones) se venderá a 2.268,31 pesos.

La mediana: es el valor que se ubica en el centro de un conjunto de datos, cuando las observaciones está organizadas de forma ascendente o descendente (por magnitud). De otra forma, se podría definir como el valor de la variable que supera a no más de la mitad de las observaciones y al mismo tiempo es superada por no más de la mitad de las observaciones.

Propiedades de la mediana:

• Es el punto central de los datos cuando son ordenados por magnitud.

• Se dan en las mismas unidades en que fue medida la variable.

• No está influencia por valores repetidos.

Ventajas de la mediana:

• Es un concepto claro y fácil de entender por su simple empleo matemático.


• Es un valor insesgado cuando se refiere a la influencia de datos extremos; es decir, no es afectada por la presencia de datos extremos, como le sucede a la media aritmética.

Desventajas de la media aritmética:

• Es necesario ordenar los datos por magnitud (ascendente o descendente).

• No se adapta a cálculos posteriores, por cuanto solo sirve como medida de descripción o resumen.

• No es sensible a cambio de valores entre el grupo de datos.

Para hacer el cálculo de la mediana, como primera media se debe conocer el número de datos con que se compone la variable a analizar (conocer n) y segundo, determinar la posición del dato central en toda la variable. Para cumplir con el primer requisito, es indispensable contar los datos. Para el segundo requisito se puede hacer uso de la siguiente fórmula:

+

=2

1

2

nYMe

Para un conjunto de elementos donde se tienen 8 datos, 4, 5, 7, 9, 10, 11, 12, 14; la mediana estaría ubicada en:

5,42

9

2

1

2

8==

+

= YMe Indicando que la mediana se ubicaría entre el 4 y 5

dato.

Otro punto a saber para poder determinar la mediana, es diferenciar si el conjunto de datos tiene como n un número par o un número impar. Para calcular la mediana de un conjunto de datos impar, se ordenan los datos por magnitud y se busca el número central en la distribución.

Ejemplo. Si se tiene los datos 2, 14, 4, 11, 7. Al ordenarlos por magnitud de menor a mayor, quedarían: 2, 4, 7, 11, 14. Cuando se busca el dato central se

diría que 32

6

2

1

2

5

2

1

2==

+

=

+

n; por lo tanto la mediana sería el dato que se

ha ubicado en el tercer lugar por magnitud, es decir la mediana corresponde a 7 (Me=7)

2, 4, 7, 11, 14

(Me=7)


Cuando el número de observaciones es par, la mediana es igual al promedio aritmético de las dos observaciones centrales, es decir, el valor resultante de la suma de los dos valores centrales, está dividida por dos.

La moda: cuando la frecuencia de un valor en una distribución de frecuencias es mayor que la de otros valores; dicho valor constituye la moda. En general, la moda (Mo) de un conjunto de datos, es el valor (si existe) que más se repite. Cuando en un conjunto de datos se encuentra que solo un dato tiene un máximo de repeticiones dentro del conjunto, se llamaría una distribución unimodal, si se presentan dos datos con la misma cantidad de veces que se repiten se denomina bimodal, y si es el caso de tres datos que se repiten la misma cantidad de veces sería trimodal y así sucesivamente para clasificarse como multimodal.

Ejemplo. En el caso de los datos (1, 4, 3, 1, 2, 5,), la moda sería 1; es el dato que más se repite en el conjunto y en este caso es una distribución unimodal. Para el conjunto (2, 4, 2, 3, 1, 5, 1), los números 1 y 2 ocurren con la misma frecuencia y por tanto la distribución es bimodal.

Se debe tener en cuenta y como sucede en los ejemplos anteriores, la moda no siempre es una medida de tendencia central y puede incluso, ubicarse en unos de los extremos de la distribución de datos. Es una medida fácil de hallar por qué no necesita de cálculos matemáticos, pero si requiere de una persona que conozca la distribución de los datos y más cuando el n es grande.

Medidas de dispersión

Las medidas que se han visto anteriormente carecen de validez para indicar si son representativas para un conjunto de dato o no. Tal es el siguiente ejemplo, donde se tiene el conjunto de datos (3, 6, 3, 45, 32, 80, 20, 5,), donde el promedio es 24,5, el cual no es representativo por la variabilidad de los datos por esta razón se han diseñando los cálculos de las medidas de dispersión. Estas medidas indican el grado de variabilidad entre las observaciones, las más comunes son:

• Amplitud.

• Varianza

• Desviación estándar.

• Coeficiente de varianza.

Al calcular un promedio, por ejemplo la media aritmética, no sabemos su representatividad para ese conjunto de datos. Por esto se hace necesario determinar si hay concentración de datos alrededor del promedio, lo cual nos indicaría una buena aplicación en su uso, por el contrario una gran dispersión estaría indicando poca representatividad, reduciendo la confiabilidad. El estudio de


la dispersión o separación de los datos de la serie se conoce con el nombre de teoría de la dispersión.

Amplitud: es la medida de dispersión más simple de calcular y se obtiene con la diferencia entre el mayor y el menor de los valores del conjunto de las observaciones. También es llamado rango o recorrido. Se usa ocasionalmente, pero en la mayoría de los casos está influenciada por datos extremos.

Si se denota la amplitud, rango o recorrido como R, el mayor valor como XL y el menor como XS, entonces:

SL XXR −=

Utilizando los datos de la tabla 10, la amplitud, rango o recorrido es:

Dato mayor = 129 Dato menor = 85

R = 129– 85

R = 44

La utilidad del recorrido es limitada. El hecho de que sólo tome en cuenta dos valores, hace que sea una medida pobre en cuanto a dispersión. La ventaja principal de utilizarla es su sencillez de cálculo.

Varianza. Cuando los valores de un conjunto de observaciones están muy próximas a su media, la dispersión es menor que cuando están distribuidos sobre un amplio recorrido. La varianza se define como la media aritmética de los cuadrados de las diferencias (desviaciones) entre los valores que toman la variable y su media aritmética. De otra forma es la suma de cuadrados de las desviaciones de las observaciones con respecto a su media, dividida por el número de observaciones.

Si se observan las dos definiciones anteriores, aunque indican lo mismo, en la primera lectura, no son muy claras; por lo que es preciso saber como se calcula para facilitar su comprensión.

Su símbolo es S2 en una muestra y 2σ (sigma al cuadrado) para una población. Para calcularla, se resta la media a cada uno de los valores, se elevan al cuadrado las diferencias. Estas diferencias se suman para dividirla entre el tamaño de la muestras (menos 1) o de la población. De esta forma la ecuación es:


Para una muestra 1

)( 2

2

−

−

=∑

n

Xx

S

I

Para una población N

Xxi −

=∑ 2

2σ

Procedimiento de cálculo.

• Se calcula la media aritmética.

• Se establece la diferencia entre los valores de la variable y la media aritmética.

• Se elevan al cuadrado los valores obtenidos como diferencia.

• Se suman las diferencias elevadas al cuadrado.

• La suma obtenida se divide en n-1 para una muestra o N en para una población.

Ejemplo. Se desea conocer la varianza de los siguientes elementos: 3, 6, 7, 8, 2, 5, 6. de acuerdo a los pasos anteriores, se puede construir una tabla.

DATOS DE VARIANZA

Valores

Xi

Diferencias d

Diferencias al cuadrado d2

3 -2,3 5,4 6 6,0 36,0 7 7,0 49,0 8 8,0 64,0 2 2,0 4,0 6 6,0 36,0

∑=

n

i

ix1

32

194,4 Suma de d2

2)( XxI −∑

5,3 Promedio


Entonces; 1

)( 2

2

−

−

=∑

n

Xx

S

I

16

4,1942

−=S 46,52 =S

La razón de que en un muestra se divida entre n-1, en lugar de n, es por la consideración teórica conocida como grados de libertad y a un ajuste para que el resultado sea representativo para la población. Cuando el número de observaciones es muy grande, puede resultar tedioso el uso de las ecuaciones anteriores y por tanto se puede facilitar el trabajo de la siguiente forma.

Para una muestra )1(

2

11

2

2

−

−

=∑∑

==

nn

xxn

S

n

i

i

n

i

i

.

Propiedades de la varianza.

• La varianza debe ser siempre un valor positivo.

• La varianza de una constante es igual a cero.

• La varianza de un conjunto de datos no tiene interpretación sobre las unidades de medida en que fueron tomados los datos ya que corresponde a un potencialización (elevados al cuadrado) de las diferencias entre los datos con el promedio; simplemente es una medida que sirve como índice de variabilidad y su valor matemático aumenta cuando es utilizada para otros cálculos.

Desviación típica o estándar. La desviación típica es la raíz cuadrada de la varianza, considerada siempre con signo positivo. Es la medida de dispersión más extensamente aplicada. En el caso de una muestra se denota con la letra s y para una población σ .

Para una muestra 1

)( 2

−

−

=∑

n

Xx

s

I

en forma resumida 2Ss =

Para una población N

XxI2)( −

=∑

σ en forma resumida 2σσ =


De esta forma, la desviación estándar para el ejemplo anterior, corresponde a:

2Ss = 46,5=s 33,2=s

Lo cual indica que el promedio del conjunto de datos es de 5,33 ± 2,33.

Propiedades de la desviación típica o estándar.

• Es un cálculo real de las unidades en que fue medida la variable.

• Se expresa en las mismas unidades en que fue medida la variable.

• Para mencionarse en documentos cinéticos o de carácter investigativos debe colocar el promedio ± desviación estándar ( sX ± )

• Puede decirse que para cualquier distribución normal, la media aritmética oscila entreV

Coeficiente de variación. Más conocido como Coeficiente de Varianza (CV) o Variación relativa. La desviación estándar es útil como una medida de variación dentro de un determinado conjunto de datos. Sin embargo, cuando se desea comparar la dispersión de dos conjuntos de datos, el comparar las dos desviaciones puede conducir a resultados ilógicos y más aún cuando estas han sido medidas en diferentes unidades. Por ejemplo. Se desea saber si la ganancia de peso de terneras de leche con determinado alimento es menos o más variable que la producción de leche en vacas alimentadas con la misma ración.

Aún cuando se utilice la misma unidad de medición, las dos medias pueden ser distintas. Si se compara la desviación estándar de la ganancia de peso de terneros destetos (kg) con la desviación estándar de la ganancia de peso de terneros al año, puede encontrarse en éstos últimos, un valor de desviación numéricamente mayor que la de los primeros debido a que lo propios pesos son mayores y no porque la dispersión sea mayor.

El coeficiente de variación se expresa en porcentaje y por tanto es un índice de fluctuación de la media aritmética que da un valor entre 0,0% y 100%. Para esto la ecuación es:

)100(X

sCV =

Para el ejemplo que se ha venido trabajando, el coeficiente de varianza corresponde a:

)100(X

sCV = )100(

33,5

46,5=CV 025,1=CV


Esto indica que el grupo de datos tiene un CV de 1,025%. Se puede determinar que el conjunto de datos es homogéneo ya que tiente como coeficiente de varianza un valor inferior al 12%. En el caso de ser mayor al 12%, se califica como una distribución heterogénea.

Ejemplo. Un granjero produce hortalizas en dos lotes diferentes. En el lote A se tiene una producción promedio de 14.450 kg y en el lote B de 18.750 kg. Ambos lotes tienen como tamaño 1 hectárea. En el primer lote se tiene una desviación estándar de 2.950 kg y en el segundo 3.120 kg. El granjero tiene como prioridad establecer solo la producción en el lote que tenga menor variabilidad entre los ciclos de producción y así poder sacar al mercado hortalizas más homogéneas.

De esta forma se puede determinar la variabilidad así:

)100(X

sCV = Lote A: )100(

450.14

2950=CV %41,20=CV

Lote B: )100(750.18

120.3=CV %64,16=CV

El resultado determina que el lote B es el que menor variabilidad presenta entre los ciclos de cultivo y por tanto, para el interés del productor es el mejor lote.

Medidas de posición

Deciles, Cuartiles y Percentiles. Cuanto la distribución contiene un número alto de intervalos o marcas de clase y se quiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, diez o cien partes. En el primer caso se denominan Cuartiles, en el segundo se denomina Deciles y en el tercero Percentiles.

Cuartil. Se denomina a la medida central que divide la distribución en cuatro partes iguales, mostrando el comportamiento promedio de la cuarta parte de la población o muestra analizada; medida que es análoga a la mediana, variando simplemente los puntos de referencia. El cuartil se simboliza con la letra Q i el subíndice i que determina el orden, a que pertenece.

Q1. Representa el primer cuartil o el promedio del 25% de la población analizada y su punto de referencia es n/4.


Para datos no agrupados

n

nQ

)1(11

+=

Para datos agrupados Cn

Nn

LQk

k

×

−+=

−1

114

Donde: n/4; es el punto de referencia del cuartil.

L1; corresponde en la tabla de frecuencias al límite inferior donde se ubica el punto de referencia.

1−kN ; es la frecuencia absoluta acumulada en el intervalo anterior

donde está ubicado el punto de referencia.

kn ; es la frecuencia absoluta en el intervalo donde se ubica el

punto de referencia.

Q2. Representa el segundo cuartil o el promedio del 50% de la población analizada y su punto de referencia es 2n/4.

Para datos no agrupados n

nQ

)1(21

+=


Nn

LQk

k

×

−+=

−1

124

2

Q3. Representa el tercer cuartil, mostrando el comportamiento promedio del 75% de la población y su punto de referencia es 3n/4.

Para datos no agrupados n

nQ

)1(31

+=


Nn

LQk

k

×

−+=

−1

134

3

Ejemplo para datos no agrupados. Si se tiene los siguientes valores 16, 10, 4, 8, 12, 10, 8, 20, 4, 13, 12, 22, 16, 26, 20, calcular el primero, segundo y tercer cuartil.


Para entender el conceptos se ordenan los datos de menor a mayor 4, 4, 8, 8, 10, 10, 12, 12, 13, 16, 16, 20, 20, 22, 26.

n

nQ

)1(11

+=

4

)115(11

+=Q

4

161 =Q 41 =Q

El primer cuartil está ubicado en el cuarto lugar y por tanto corresponde al valor 8.

n

nQ

)1(12

+=

4

)115(22

+=Q

4

322 =Q 82 =Q

El segundo cuartil está ubicado en el octavo lugar y por tanto corresponde al valor 12

n

nQ

)1(13

+=

4

)115(33

+=Q

4

483 =Q

123 =Q

El tercer cuartil está ubicado en el decimosegundo lugar y por tanto corresponde al valor 20.

Estadígrafo de forma

Con estos estadígrafos se pretende determinar si una distribución es simétrica o asimétrica. Si la distribución es simétrica se dice que corresponde a una distribución normal cuya curva representativa es la campana de Gauss.

Cuando una distribución es normal, la media aritmética, la mediana y la moda son iguales. Cuando la media aritmética es menor que la mediana y ésta, a su vez, menor que la moda, la distribución es sesgada a la izquierda o asimétrica negativa. Si la media aritmética es mayor que la mediana y ésta es mayor que la moda, decimos que la distribución es sesgada a la derecha o asimétrica positiva.

Para calcular el grado de asimetría denominado sesgo, se utiliza el coeficiente de Pearson (S´) con cualquiera de las siguientes ecuaciones:

típicadesviación

amedia modS´

−=

s

MoX −=S´

típicadesviación

mediana)-3(mediaS´=

s

MeX −=S´

Para su interpretación se debe tener en cuenta la siguiente clasificación:


• Si el sesgo (S´) es igual a cero, la distribución es simétrica o normal (S´= 0).

• Si el sesgo (S´) es menor a cero, la distribución es sesgada a la izquierda o asimétrica negativa (S´< 0).

• Si el sesgo (S´) es mayor que cero, la distribución es sesgada la derecha o asimétrica positiva (S´> 0).

Grafica 7. Representaciones de simetría

Lección 7: Distribución de Frecuencias

La primera etapa del análisis y la interpretación de un conjunto de datos es la reducción del número de observaciones en un conjunto de estadísticas descriptivas que presenten las características importantes de los datos, ya sea de una muestra o de una población. Dicho resumen se hace con un cuadro llamado cuadro de distribución de frecuencias y posteriormente con gráficas como los histogramas, polígonos, pictogramas, diagramas circulares, etc.

La distribución de frecuencias es un método utilizado para organizar y resumir datos. Bajo este método los datos que componen una serie se clasifican y ordenan, indicándose el número de veces que se repite. La distribución nos permite manejar gran cantidad información en espacios pequeños.

Pasos para elaborar una tabla de frecuencias:

1. Estimar el rango (R)

2. Determinar el número de clases (m)

3. Estimar el ancho de cada clase (amplitud de intervalo, C)

4. Estimar límite inferior y superior de cada clase (xi-1 – xi)

5. Estimar las marcas de clase (Xi).


6. Determinar la frecuencia absoluta (ni)

7. Determinar la frecuencia absoluta acumulada (Ni)

8. Determinar la frecuencia relativa (hi)

9. Determinar la frecuencia relativa acumulada (Hi)

1. Estimación del rango (R). El rango o recorrido es el valor que se obtiene de la distancia entre el menor y el mayor valor de las observaciones.

Ejemplo: si se tiene el siguiente conjunto de datos. 74, 71, 65, 72, 67, 79, 88, 66, 99, 40, 52.

El rango o recorrido se obtendría:

Dato mayor = 94 Dato menor = 40

R = 94 – 40

R = 50

2. Estimación del número de clases (m). Para elaborar una tabla de frecuencias, se establece cierto número de clases (denotada con la letra m) en los valores observados. Dicho número por lo general varía entre 5 y 15 a mayor número de datos, debe disponerse de mayor número de clases. Se debe tener en cuenta que si el número de clases es muy pequeño, se podría estar encubriendo características importantes de los datos debidos al agrupamiento; si se tienen demasiadas clases, pueden aparecer clases vacías y la información no se resume de forma clara.

Existen dos formas de obtener el número de clases a utilizar en un cuadro de frecuencias; partiendo ambos de la cantidad de datos con que se cuenta (en el caso de ser una muestra n o en el caso de ser una población N).

a. Sabiendo que se recomienda tener un número de clases entre 5 y 15, el investigador puede definir de acuerdo al número de datos que tenga, cuantas clases puede manejar.

b. Si se quiere ser más preciso, se puede utilizar la formula Sturges, la cual dice que m=1+3,322(log n); donde m es el número de intervalos de clase. En la mayoría de los casos, la aplicación de esta fórmula da número decimales, por lo que es necesario aproximar para tomar un número entero de clases. Por ejemplo, si la fórmula da que debe tomar 7,8 clases se aproximaría a 8 clases.

Por ejemplo. Si se ha tomado el diámetro en la base de 758 árboles de un bosque que se componía de 14.250 árboles, el número de clases quedaría así:


m=1+3,322(log n)

m=1+3,322(log 758)

m=1+3,322(2,8796)

m=1+9,5662

m=10,5662

m=11 clases.

Para justificar cualquiera de los dos métodos siendo más usado el primero, es preciso que la decisión sea tomada por una persona que conozca muy bien los datos y el uso que se les va a dar.

3. Estimación del ancho de cada clase (amplitud de intervalo, C). Es el valor que va a tener como amplitud en cada una de las clases que se han establecido. Es recomendable estimar un solo valor de amplitud para todas las clases que se pretendan manejar en la tabla de frecuencias, esto le da más confiabilidad y presentación al resumen de datos que se pretende hacer. El ancho de la clase se obtiene dividiendo el rango entre el número de clases.

Ejemplo. Si el rango de un conjunto de datos es 176, y se pretende que en la tabla de frecuencias se presenten 8 clases, entonces, el ancho de cada clase corresponde a:

m

RC = ;

8

176=C ; C = 22

Esto implica que cada una de las 8 clases tendrá un ancho o amplitud de 12 unidades.

En muchos casos al efectuar la división anterior, se obtienen número decimales, por lo que se aconsejan dos decisiones:

a. Cambiar número de clases por uno que permita obtener valores enteros.

b. Aproximar el ancho de clase a un valor por encima del valor que se obtiene para evitar que en momento de agrupar los datos se queden datos sin representar.

Ejemplo: si se tiene un rango de 425 y se pretende dividir en 6 clases, el ancho de las clases quedaría así:

m

RC = ;

6

425=C ; C = 70,8


Esto equivaldría, para facilitar los cálculos y organización de la tabla a 71.

c. En algunos casos se hace necesario ajustar tanto el número de clases como aproximar el ancho de estas para evitar que la última clase quede con muy pocos números que lo representan. Esto recordando que la división de los intervalos está dada en función del rango y este a su vez por el dato mayor y el dato menor del conjunto.

Ejemplo: si se tiene un rango de 254 y se pretende dividir en 9 clases, la amplitud de cada clase sería:

m

RC = ;

9

254=C ; C = 28,22

Si se toma como amplitud de cada clase 28, se perderían 0,22 unidades en cada clase, los que indica que en las 9 clases se perdería (0,22 x 9)= 1,98 unidades. Esto implica que al hacer la tabla de frecuencias se queden datos por fuera, incluido el dato máximo que permitió sacar el rango.

Por otro lado, si se aproxima el 28,22 a 29, se estaría aumentando por cada clase (29-28,22) = 0,78 unidades, que en las 9 clases sería (0,78 x 9)=7,02 unidades. Esto implica que en la última clase del cuadro se tenga un espacio perdido que está por encima del dato mayor con el que se sacó el rango.

En este caso la mejor solución es, hacer un cambio en la cantidad de clases a trabajar y a este nuevo ancho de clase aproximar para evitar lo expuesto anteriormente.

4. Estimar límite inferior y límite superior de cada clase (xi-1 – xi). Una vez determinado el ancho de cada clase, se puede estimar el límite inferior y el límite superior en cada una de las clases. Este se obtiene tomando el dato menor del conjunto de datos (que sería el límite inferior de la primera clase) y sumándole el ancho de clase, este resultado sería el límite superior de dicha clase.

Este último valor obtenido sería el punto de partida (límite inferior) de la siguiente clase, el cual, al sumarle el ancho de clase marcaría el límite superior de la clase correspondiente. En forma sucesiva se sigue haciendo esta operación hasta calcular los límites para todas las clases propuestas, teniendo en cuenta que la última clase debe contener el valor máximo del conjunto de datos.

Ejemplo. Si se tienen las siguientes condiciones:

Dato menor 25


Dato mayor 125

Rango 100

Número de clases 5

Ancho de clase 20

Los límites serian:

Clase limites

(C) (xi-1 – xi)

1 25 - 45

2 45 - 65

3 65 - 85

4 85 - 105

5 105 - 125

Como se puede ver, existe un problema en los límites señalados anteriormente. El problema es que si en el conjunto de datos aparece 45, ¿dónde ubico este valor? En la clase 1 o en la clase 2. Para solucionar esto se tiene dos propuestas:

a. Que los intervalos a partir de la segunda clase, se manejen con números decimales en su límite inferior.


Clase limites

(C) (xi-1 – xi)

1 25 - 45

2 45.1 - 65

3 65.1 - 85

4 85.1 - 105

5 105.1 - 125


b. Que los límites en cada una de las clases se clasifique como intervalos cerrados [ ] o intervalo abierto ( ), o sus combinaciones [ ) ó ( ] , esto implica que cada en cada intervalo se coloque el signo respectivo. En el caso de ser un intervalo cerrado en el límite inferior [ indica que si se tiene el número igual al límite inferior, este se ubica en dicho intervalo; pero si el intervalo es abierto ( , no se tiene en cuenta.


Clase limites

(C) (xi-1 – xi)

1 [25 - 45)

2 [45 - 65)

3 [65 - 85)

4 [85 - 105)

5 [105 - 125]

Se puede observar que en la última clase, el límite superior están como intervalos cerrado, ya que se está seguro que no existen datos por encima de este dato.

5. Marcas de clase. Corresponden al punto central en cada una de las clases que se han tomado. Se obtiene sumando en cada clase el límite inferior y el superior para luego dividirlo en dos.

Con los datos anteriores se tendía como ejemplo:

EJEMPLO DE MARCAS DE CLASE.

Clase limites marcas de clase

(C) (xi-1 – xi) Xi

1 25 - 45 35 = ((25+45)/2)

2 45 - 65 55

3 65 - 85 75

4 85 - 105 95


5 105 - 125 115

6. Frecuencias absolutas (ni). Se define como el número de veces que se repite un fenómeno. Corresponde al número de unidades experimentales que están en cada uno de los intervalos.

Tal vez la tarea más difícil de hacer es la distribución de frecuencia, ya que implica hacer una clasificación de todos los datos en cada una de las clases en las que se están resumiendo. Como se trata de estimar frecuencias, se tienen las siguientes propiedades:

• Las frecuencias absolutas son siempre números enteros.

• La suma de las frecuencias absolutas es igual a n si es una muestra, o N si es una población.

nnnnnn m

n

i

i =++++=∑=

...321

1

7. Frecuencias absolutas acumuladas (Ni). A menudo es importante tener las frecuencias acumuladas entre algunas clases, esto facilita la interpretación y toma de decisiones. Por ejemplo. Si las clases corresponden a edades de un grupo de terneros para engorde y se quiere hace una clasificación de los que son aptos para la etapa de levante, es importante tener definido hasta cierta edad (límite de clase) cuantos animales corresponden o se pueden clasificar en levante.

mi nnnnN ++++= ...321

Esto implica que el valor acumulado en el último intervalo de clase corresponde al total de observaciones o datos que se están trabajando.

8. Frecuencias relativas (hi). Corresponde a la proporción o porcentaje de los valores que se incluyen en los distintos intervalos de clase. Se puede obtener dividiendo la frecuencia absoluta de cada intervalo (ni) sobre el número total de observaciones (n). La multiplicación, de una de estas divisiones, por cien la convierte en un porcentaje sobre el total de casos.

Las frecuencias relativas sin haberse multiplicado por cien, siempre dan un valor decimal y la suma de todas estas debe dar 1.

n

nh ii =


1...321

1

=++++=∑=

m

n

i

i hhhhh

9. Frecuencias relativas acumuladas (Hi). Es la suma sucesiva de las frecuencias relativas obtenidas en cada intervalo de clase.

mi hhhhH ++++= ...321

Para ilustrar todo el proceso completo se presenta el siguiente ejemplo adaptado de Suárez, 1999: Suponiendo los pesos en kilos de los cerdos inscritos en la feria de exposición porcina en un municipio, en determinado año. Con estos puntajes, los directivos de la feria quieren preparar una distribución de frecuencias. Los datos obtenidos fueron:

PESO EN KILOS DE CERDOS INSCRITOS EN LA FERIA

88 91 104 113 125 101 114 105 101 88 126 118

100 111 125 119 91 106 120 129 120 109 104 112

101 113 100 106 105 121 93 89 124 96 105 95

91 106 93 88 89 100 115 98 108 99 120 101

108 118 118 113 114 109 91 104 109 110 113 119

106 106 97 104 105 122 112 124 108 121 96 97

99 101 116 102 127 121 116 100 95 89 103 115

113 129 91 85 108 103 108 98 108 114 102 96

99 108 114 121 107 122 100 116 111 109 104 113

118 110 129 124 105 93 115 120 97 112 94 113

114 106 105 115 98 112 103 92 125 107 115 118

128 92 85 108 114 125 121 122 117 109 128 88

119 119 116 113 122 126

1. Estimar el rango (R).


El examen de los datos revela que los puntajes, más bajos y más altos son 85 y 129 kilos, respectivamente. Entonces, el intervalo inferior de clase debe empezar desde 85 y el intervalo mayor debe tener un límite no menor a 129.

ato mayor = 129 Dato menor = 85

R = 129– 85

R = 44

2. Determinar el número de clases (m)

m=1+3,322(log n)

m=1+3,322(log 150)

m=1+3,322(2,17609)

m=1+7,2289

m=8,22

m=9. Clases.

3. Estimar el ancho de cada clase (amplitud de intervalo, C)

m

RC = ; 88,4

9

44==C ; C = 5

4. Estimar límite inferior y superior de cada clase (xi-1 – xi)


LÍMITES DE CONFIANZA

Clase limites

(C) (xi-1 – xi)

1 [85 - 90)

2 [90 - 95)

3 [95 - 100)

4 [100 - 105)

5 [105 - 110)


6 [110 - 115)

7 [115 - 120)

8 [120 - 125)

9 [125 - 130]

5. Estimar las marcas de clase (Xi).

Marcas de clase.

Clase limites marcas de clase

(C) (xi-1 – xi) Xi

1 [85 - 90) 87,5

2 [90 - 95) 92,5

3 [95 - 100) 97,5

4 [100 - 105) 102,5

5 [105 - 110) 107,5

6 [110 - 115) 112,5

7 [115 - 120) 117,5

8 [120 - 125) 122,5

9 [125 - 130] 127,5

6. Determinar la frecuencia absoluta (ni)

Frecuencias absolutas.

Clase limites marcas de clase frecuencias absolutas

(C) (xi-1 – xi) Xi ni

1 [85 - 90) 87,5 9

2 [90 - 95) 92,5 11


3 [95 - 100) 97,5 14

4 [100 - 105) 102,5 20

5 [105 - 110) 107,5 27

6 [110 - 115) 112,5 22

7 [115 - 120) 117,5 19

8 [120 - 125) 122,5 16

9 [125 - 130] 127,5 12

nnnnnn m

n

i

i =++++=∑=

...321

1

n = 150

7. Determinar la frecuencia absoluta acumulada (Ni).

Frecuencias absolutas acumuladas.

Clase limites marcas de clase Frecuencias absolutas Frecuencias abs. Acumuladas

(C) (xi-1 – xi) Xi ni Ni

1 [85 - 90) 87,5 9 9

2 [90 - 95) 92,5 11 20

3 [95 - 100) 97,5 14 34

4 [100 - 105) 102,5 20 54

5 [105 - 110) 107,5 27 81

6 [110 - 115) 112,5 22 103

7 [115 - 120) 117,5 19 122

8 [120 - 125) 122,5 16 138

9 [125 - 130] 127,5 12 150


8. Determinar la frecuencia relativa (hi)

FRECUENCIAS RELATIVAS

Clase limites marcas Frecuencias Frecuencias Frecuencias

de clase absolutas abs. Acumuladas Relativas

(C) (xi-1 – xi) Xi ni Ni hi

1 [85 - 90) 87,5 9 9 0,06

2 [90 - 95) 92,5 11 20 0,0733

3 [95 - 100) 97,5 14 34 0,0933

4 [100 - 105) 102,5 20 54 0,1333

5 [105 - 110) 107,5 27 81 0,18

6 [110 - 115) 112,5 22 103 0,1466

7 [115 - 120) 117,5 19 122 0,1266

8 [120 - 125) 122,5 16 138 0,1066

9 [125 - 130] 127,5 12 150 0,08

1...321

1

=++++=∑=

m

n

i

i hhhhh

9. Determinar la frecuencia relativa acumulada (Hi)

FRECUENCIAS RELATIVAS ACUMULADAS.

Clase limites marcas Frecuencias Frecuencias Frecuencias Frecuencias

de clase absolutas abs. acum.. Relativas Relat. acum.

(C) (xi-1 – xi) Xi ni Ni hi Hi

1 [85-90) 875 9 9 0,06 0,06


2 [90-95) 92,5 11 20 0,0733 0,1333

3 [95 -100) 97,5 14 34 0,0933 0,2266

4 [100-105) 102,5 20 54 0,1333 0,3599

5 [105-110) 107,5 27 81 0,18 0,5399

6 [110-115) 112,5 22 103 0,1466 0,6865

7 [115-120) 117,5 19 122 0,1266 0,8131

8 [120-125) 122,5 16 138 0,1066 0,9197

9 [125-130] 127,5 12 150 0,08 1

Con esta última tabla se puede iniciar un análisis que permita determinar lo siguiente:

• El peso en el que mayor número de cerdos se presentaron a la feria esta entre [105 y 110) kilos (en valores reales sería entre 105 y 109,99.

• El peso en el que menor cantidad de cerdos se presentó está entre 85 y 89,9 kilos; con solo 9 animales que corresponden al 6% de todos los cerdos de la feria. Esto permite saber que es muy poca la cantidad e cerdos con pesos entre este intervalo y que por ejemplo, la junta de ferias no tomaría consideraciones sobre este pesaje.

• Se podría decir que el 22,66% de lo cerdo (34) están con un peso inferior a 99,9 kilos.

De esta forma se pueden sacar varias conclusiones de un grupo de datos y se pueden presentar de forma resumida, resaltando la importancia desde el punto de vista productivo, económico, de impacto ambiental, etc., sin olvidar que estos resultados o comportamientos de los datos tiene una explicación y/o justificación, la cual solo el profesional correspondiente al área de trabajo estaría en capacidad de argumentar. Desde este punto de vista, la bioestadística deja de ser el uso de simples métodos de cálculo para convertirse en una herramienta de argumentación en el comportamiento o resultado de variables biológicas.


Lección 8: Gráficas

Con frecuencia, el significado de los datos se puede comunicar más efectivamente por medio de gráficos que por medio de tablas. Existe una gran variedad de formas para presentar los datos de una distribución de frecuencias; entre los más conocidos se encuadran:

• Histogramas

• Polígonos de frecuencias

• Ojivas

• Diagrama circular o pastel

• Pictogramas

Martínez 2005, presenta como recomendaciones para la elaboración de gráficas lo siguiente:

• La mejor gráfica es la más simple

• Las gráficas deben ser tan sencillas y claras, de tal manera que sean comprensibles sin la ayuda de las descripciones del texto.

• Las gráficas nunca sustituyen al cuadro, al contrario, deben complementarse.

• La finalidad de la gráfica es visualizar mejor la información.

• La gráfica es considerada como el medio de expresión de la estadística, más llamativa, sugestiva a la vez que presenta la ventaja de dejar en la memoria una expresión más duradera que los cuadros o el texto, en un menor tiempo de lectura.

El histograma.

Es un tipo especial de gráfica de barras para representar distribuciones de frecuencias absolutas o relativas. Tiene las siguientes características:

• Los valores de la variable que se está considerando se representan en el eje horizontal (eje x o independiente). Las frecuencias absolutas o relativas se representan en el eje vertical (eje y o dependiente).

• Cada intervalo de clase tomado en la distribución de frecuencias implica una sección sobre el eje horizontal.

• Por encima de cada intervalo de clase sobre el eje horizontal se levanta una barra rectangular, de modo que su altura corresponde con la frecuencia correspondiente.


Ejemplo. Se presenta el histograma para la distribución de frecuencias realizada con el peso de cerdos y se tendría en valores absolutos:

GRÁFICA 1. HISTOGRAMA DE FRECUENCIAS ABSOLUTAS PARA EL PESO (KG) DE CERDOS INSCRITOS EN LA FERIA

Grafica 2. Histograma de frecuencias relativas para el peso (kg) de cerdos inscritos en la feria

0

5

10

15

20

25

30

cantidad

de cerdos

Peso de los cerdos (kg)

85 90 95 100 105 110 115 120 125 130

0

5

10

15

20

25

30

cantidad

de cerdos


85 90 95 100 105 110 115 120 125 130


0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

85 90 95 100 105 110 115 120 125 130

porcentaje de cerdos

Serie1

De los histogramas que se realicen a partir de una tabla de frecuencias, sin importar si son con frecuencias absolutas o con frecuencias relativas, deben tener una interpretación que cumpla con los objetivos del trabajo que se haya planteado como investigación.

Polígono de frecuencias.

Se construye localizando el punto medio de cada intervalo de clase (marcas de clase) en el eje X y marcando un punto al a altura de la frecuencia correspondiente en el eje Y. Uniendo los puntos medios de las alturas se obtiene un polígono. Es decisión del investigador si inicia o cierra la línea trazada sobre el eje X; esto mostraría hipotéticamente que la frecuencia de un intervalo inferior y uno superior a los que se tomaron, sería cero.

Ejemplo.

Gráfica 3. Polígono de frecuencias absolutas para el peso de cerdos inscritos en una feria.


85 90 95 100 105 110 115 120 125 130


0

5

10

15

20

25

30

87,5 92,5 97,5 102,5 107,5 112,5 117,5 122,5 127,5

peso de los ceredos (kg)

cantidad

de cerdos

En el ejemplo anterior se puede ver que la línea graficada se ha cerrado al inicio y al final como si los intervalos anteriores y posteriores a los considerados en el estudio tuvieran una frecuencia de cero. De la misma forma como se presenta este polígono de frecuencias absolutas, se puede hacer con frecuencias relativas.

Otra forma de resumir los datos en una gráfica, es la combinación de un histograma y un polígono de frecuencias. Para el ejemplo que se ha venido trabajando, se tendría la siguiente gráfica.

Gráfica 4. Histograma y polígono de frecuencia para el peso de cerdos inscritos en una feria.


Ojiva:

Es una representación gráfica para las frecuencias absolutas o relativas acumuladas de una variable continua. Para ello se determinan los puntos de intersección entre cada valor de la variable y su respectiva frecuencia; luego se unen los trazos rectilíneos. Prácticamente es un polígono de frecuencias, con la diferencia de ser aplicado a una tabla de frecuencias acumuladas.

Ejemplo.

Gráfica 5. Ojiva de frecuencias absolutas acumuladas para el peso de cerdos inscritos en una feria.

Diagrama circular, de pastel o torta: en este tipo de gráficas los datos viene sustituidos por superficies de áreas proporcionales al número a representar. Las gráficas son particularmente útiles para visualizar las diferencias en frecuencias entre algunas teorías del nivel nominal. Como ejemplo se puede tomar la siguiente tabla donde se catalogan los cerdos según el peso.

CATALOGO DE LOS CERDOS SEGÚN EL PESO

Clase limites frecuencias absolutas

(C) (xi-1 – xi) ni

Livianos [110 - 115) 22

Semi-livianos [115 - 120) 19


Pesados [120 - 125) 16

Muy pesado [125 - 130] 12

Diagrama circular de clasificación de cerdos según el peso (kg).

Gráfica 9. Clasificación de cerdos según el peso (kg).

Lección 9: Principios de probabilidad

Generalmente en la cotidianidad se maneja el concepto de probabilidad, no solo en lo relacionado con los juegos de azar sino en muchos otros aspectos. Por ejemplo. Cuando se afirma “el consumo excesivo de fibra causa timpanismo en rumiantes”, “es probable que hoy dé cría la yegua que está preñada”, “es probable que hoy llueva”, “caen rayos cuando llueve”. Lo cual indica que el conocimiento que tiene el hombre sobre los fenómenos es generalmente impreciso o incierto. Esta falta de certeza sobre el resultado de un proceso es lo que ha generado el concepto de fenómeno aleatorio, el cual puede decirse que es aquel cuyo resultado no se pude conocer ni predecir con certeza. Los fenómenos aleatorios no son del todo explicable debido, a que generalmente no se conocen en forma exacta los factores que lo determinan y las leyes que los rigen.

La estadística asigna a este grado de incertidumbre un valor entre 0 y 1, de tal modo que resulta posible cuantificar aunque sea en forma relativa, que tan probable o improbable es una determinada afirmación.


El estudio clásico de la probabilidad nace aproximadamente en el siglo XVII, en especial del trabajo de dos matemáticos, Pascal y Fermat. Gran parte de la teoría se desarrolló a través de los dados.

Para entender los principios de las probabilidades, es necesario conocer con anterioridad algunos conceptos relacionados con la teoría de conjuntos.

Experimento. Es un proceso por medio del cual se obtiene una observación o medición. Un experimento aleatorio es aquel cuyos resultados no pueden predecirse y por lo tanto están sujetos al azar.

Espacio muestral. Es el conjunto formado por todos los resultados posibles de un experimento, generalmente se indica con la letra S.

Ejemplo: se toma una semilla al azar y se le hace prueba de viabilidad. El resultado puede ser: viable (V) o no viable (N); entonces el espacio muestral es:

{ }NVS ,=

Si en el caso anterior se toman tres semillas, el espacio muestral será:

{ }NNNNNVNVNVNNVVNVNVNVVVVVS ,,,,,,,=

Se pretende determinar el número de conejos enfermos en un conjunto de 8 animales. El espacio muestral sería:

{ }8,7,6,5,4,3,2,1=S

Si con el caso anterior de los conejos, se pretende estimar el porcentaje de conejos enfermos:

{ }1000/ ≤≤= XXS

Si se pretende estimar el peso de uno de los conejos enfermos

{ }0/ >= XXS

Eventos o sucesos. Es un conjunto de un espacio muestral. Ejemplo. El hecho de que se encuentren tres o más conejos enfermos en el espacio muestral donde se determinan el número de conejos enfermos de los ocho que tiene el conjunto.

{ }8,7,6,5,4,3,2,1=S

{ }8,7,6,5,4,3=A Obsérvese que S contiene a A


Si se divide el espacio muestral en un serie de eventos A1, A2, A3, V An y además A1 ∪ A2 ∪ A3 ∪ V ∪ An= S, entonces esta división se denomina partición del espacio muestral.

Un suceso que no puede ser descompuesto se denomina suceso simple; por ejemplo al tomar una semilla, esta puede ser viable o no viable. Se indican con Ei los sucesos simples:

E1 Semilla viable

E2 Semilla no viable

Para el espacio muestral de la viabilidad de tres semillas, los sucesos simples serían

E1 VVV E5 VNN

E2 NVV E6 NVN

E3 VNV E7 NNV

E4 VVN E8 NNN

De este modo, el espacio muestral es el conjunto de todos los puntos muestrales de un experimento y un suceso es un colección específica de puntos muestrales.

Se pueden considerar como sucesos compuestos a la unión o intersección de otros sucesos.

Unión de sucesos. Sean A y B dos sucesos de un espacio muestral S. la unión de A y B (A ∪ B) se define como el suceso que contiene todos los puntos muestrales que están en A, en B o en ambos.

Intersección de sucesos. La intersección de A y B es el suceso formado por todos los puntos muestrales que están en A y en B, (A ∩ B) o simplemente AB.

Complemento de un suceso. El complemento de un suceso A ( A ) es la colección de todos los puntos muestrales en S que no están en A.

Sucesos mutuamente excluyentes. Se dice que dos sucesos son mutuamente excluyentes si el suceso de AB (A ∩ B) no contiene ningún punto muestral, lo cual equivale a que no se pueden dar los dos eventos simultáneamente. Así como un animal esté enfermo o no.


Definición de probabilidad clásica. Si un evento puede ocurrir en N maneras mutuamente exclusivas e igualmente probables y si m de éstas posee una característica E, la probabilidad de ocurrencia de E es:

N

mEP =)(

Esta definición clásica o a priori, tiene serias limitaciones pues implícitamente contiene el concepto de “igualmente probable”; queriendo decir que de un conjunto de elementos donde se pretende seleccionar uno, todos tiene la misma probabilidad de ser seleccionados. De la misma forma considera a priori que todos los eventos tienen la misma probabilidad de ocurrir. Es así como muchos otros problemas quedarían sin respuesta. Como por ejemplo: ¿cuál es la probabilidad de que un río aumente su caudal a más de 1000 litros por segundo?, ¿cuál es la probabilidad de que bovino aumente más de 850 gramos por día?, ¿cuál es la probabilidad de que un cultivo de arroz de una variedad específica, en cierto tipo de suelo, condiciones de manejo y fertilización produzca más de 40 bultos por hectárea?

La aproximación de la frecuencia relativa a la probabilidad depende de la repetición de algún proceso y de la capacidad de contar el número de repeticiones, así como del número de veces que ocurre algún evento de interés. En este contexto la probabilidad de observar alguna característica E, de un evento, puede definirse como probabilidad frecuentista textualmente quedando:

Si un evento se repite n veces y hay m resultados a favor de un evento E, entonces una estimación de la probabilidad frecuentista de ese evento es

n

mEP =)( .

Ejemplo. Si se hace un muestreo en ardillas de cola roja y se encuentra que de las 80 capturadas, 55 están contaminadas con Salmonella. ¿Cuál es la probabilidad de que al capturar otra ardilla, esta esté contaminada con Salmonella?

De la información se tiene que el evento se repite 80 veces (n=80), de los cuales el resultado “favorable” para Salmonella es de 55 veces (m=55); entonces, la probabilidad de capturar una ardilla con Salmonella P(E) es de:

==80

55)(EP 0,68.


Este punto de vista sostiene que la probabilidad mide la confianza que tiene un determinado individuo en la veracidad de una proposición particular.

Probabilidad bajo un concepto axiomático. Este concepto fue formalizado por el ruso A.N. Kolmogorov. La base de este concepto de probabilidad, se considera desde el cumplimiento de tres axiomas relacionados con la teoría de conjuntos:

1. Todos los eventos deben tener una probabilidad mayor o igual a cero, lo cual es un argumento razonable en vista de la dificultad de obtener una probabilidad negativa. Dicha probabilidad del evento tampoco puede ser mayor a 1.

OEP =≥)( 1)(0 ≤≤ EP

2. la suma de todas las probabilidades de todos los eventos mutuamente excluyentes es igual a 1.

1)( =SP

Esta es la probabilidad de exhaustividad y se refiere al hecho de que el observador de un proceso probabilístico debe tomar en cuenta todos los eventos posibles y cuando se toman en su totalidad, la suma es 1.

1. Si se tiene dos eventos mutuamente excluyentes, Ei y Ej. La probabilidad de que ocurran, es igual a la suma de sus probabilidades individuales.

)()()()( jiji EPEPEPEP +=∪

Las probabilidades se expresan en proporciones de 0 a 1 o en porcentajes equivalentes de 0 a 100%.

Lección 10: Muestreo

En muchos casos, si no es en la mayoría, el investigador de cualquier campo se encuentra con la imposibilidad de estudiar toda una población (todos y cada uno de los elementos que la componen); razón por la cual se han formulado una serie de métodos que permitan determinar el tamaño de una porción de la población, llamada muestra y con la cual es representativo analizar e inferir sobre la población. Una población debe estudiarse bien sea a través de un censo (estudio de toda la población) o en base a una muestra (parte de una población).


El muestreo, técnica para seleccionar el tamaño de la muestra representativa de una población y forma como se selecciona cada uno de los integrantes de la muestra, es una herramienta útil para cualquier estudio de aspecto social, de salud, educación, ambiental, agrícola, pecuario, financiero e incluso de mercadeo entre otros. Ésta es la técnica base para que se utilice la inferencia estadística y con la cual se pueden analizar, concluir y argumentar aspectos relevantes de la población en estudio.

Es preciso determinar el tamaño y forma de seleccionar las unidades que componen la muestra, cuando:

1. La población es grande y su estudio completo excede los recursos asignados.

2. Existe suficiente homogeneidad en las unidades de la población con respecto a lo que se quiere medir, locuaz permite que una muestra adecuada contenga la información suficiente para el interés del estudio.

3. El proceso de selección de la muestra es destructivo, lo cual obliga hacer el estudio sólo en una parte de la población. Ejemplo. Cuando se pretende estudiar la calidad de la carne en animales y por tanto es necesario sacrificarlos. O cuando se pretende estudiar el desarrollo radicular de una especie de plantas y por consiguiente es necesario arrancarlas para tomar las correspondientes medidas.

El muestreo, en general, tiene como objetivo agilizar los procesos de investigación, controlar los gastos excesivos de recursos financieros, humanos y de tiempo, pero también en algunos casos evitar que se creen impactos negativos sobre poblaciones vulnerables al estudio planteado; como sucede cuando se estudian especies silvestres o se hacen muestreos destructivos.

Existe, adicionalmente, otra razón de peso para hacer uso del muestreo estadístico y es el estricto control que se puede ejercer sobre la recolección de la información, muy superior al que se lograría en el caso de un censo (toda la población). Los errores en el estudio, especialmente aquellos conocidos como errores muestrales (no respuesta, inconsistencia, codificación errada, etc.) disminuyen considerablemente cuando se realiza un muestreo en vez de un censo.

En las ciencias agropecuarias y ambientales, donde la mayoría de los estudios de investigación se enfocan en la aplicación de tratamientos, es preciso, por costos, aplicación de los mismos tratamientos y facilidad en la toma de datos, incluso de control de algunos factores, tomar parte de la población para la experimentación y luego inferir.


Las etapas principales en la planificación y ejecución de un muestreo son:

a. Planteamiento de los objetivos. Es necesario definir los objetivos. Por lo general éstos se relacionan con la estimación de los parámetros de interés (usualmente medias y varianzas) o prueba de hipótesis sobre ellos.

b. Definición de la población a ser muestreada. De acuerdo a los objetivos, debe identificarse claramente la población sobre la cual se desea hacer la inferencia.

c. Establecer el tipo de datos que deben recolectarse y los métodos de medición. De esta manera se asegura la obtención de la información que sea pertinente de acuerdo a los objetivos planteados y se evita la tendencia a recolectar datos innecesarios.

d. Selección de la muestra. La cual incluye la selección de la unidad de muestreo, la definición del tamaño de la muestra y la forma como sería seleccionada esta.

e. Ejecución del muestreo. En esta fase, una de las más importantes y de la que depende la confiabilidad de los resultados, se hace la localización de las unidades que componen la muestra. Se hace necesario planear de forma detallada el proceso a seguir para la ejecución del muestreo. Para esto se debe formalizar un cronograma a cumplir por personas idóneas y con conocimiento del estudio para que le brinden responsabilidad y criterio profesional, cumpliendo con lo programado.

f. Análisis de datos. Por lo general las estimaciones se dan por medio de intervalos de3 confianza para los parámetros. El conocimiento de las varianzas permite además planear ajustes o mejores alternativas para los futuros esquemas de muestreo. En el caso de investigaciones experimentales, el análisis debe estar encaminad a la aplicación de modelos matemáticos que permitan cumplir con los objetivos planteados en la investigación.

De cualquier población de tamaño N, pueden extraerse cierto número de muestras distintas de tamaño n. Haciendo esta afirmación bajo la hipótesis que N es lo suficientemente grande como para garantizar el muestreo. Por razones obvias, las poblaciones pequeñas no se muestrean, sino que se estudia la población completa.

De esta forma el muestreo se puede resumir en la siguiente gráfica:

Forma de muestreo:


De esta forma, se definen las medidas de una población como parámetros y las de una muestra como estimadores, teniendo para cada una y de acuerdo al tipo de medida una simbología.

SÍMBOLOS DE PARÁMETROS ESTIMADORES

MEDIDA POBLACIÓN (Parámetros)

MUESTRA (Estimadores)

V. continua V. Binomial V. continua V. Binomial TAMAÑO PROMEDIO DESVIACIÓN VARIANZA

N

µ

σ

σ2

N P

σ

σ2

n

YóX

s s2

N p

s s2

Muestreo probabilístico.

Existen condiciones que deben cumplirse para poder hablar de una muestra probabilística. Ellas son:

1. poder definir el conjunto total de muestras posibles que pueden seleccionarse de una población de acuerdo con el procedimiento muestral.

2. Conocer para cada una de las muestras posibles la probabilidad de que sea seleccionada (π(s)).

3. el procedimiento utilizado debe dar a cada elemento de la población una probabilidad de selección diferente de 0.

4. la selección, debe ser aleatoria, esto es, el mecanismo de probabilidad diseñado para la selección, de tal manera que cada multar posible tenga la probabilidad de selección asignada previamente (π(s)).

Muestreo no probabilistico.

Una muestras probabilística es una muestra que es extraída de una población, de tal manera que todo miembro de esta última tenga una probabilidad conocida de estar dentro de la muestra.


En general todo muestreo que no cumpla con alguna de las condiciones enumeradas anteriormente es un muestreo no probabilístico. Se cumpliría lo siguiente:

1. La muestra se restringe a una parte de la población que es fácilmente accesible.

2. La muestra es seleccionada teniendo en cuenta el azar, más no la aleatoriedad (se seleccionan los elementos que estén más a la mano).

3. Con una población heterogénea y pequeña, el muestrista inspecciona la población y selecciona una multar pequeña de unidades “tipo” (cercanas a la impresión que pueda tener de la media general o a un criterio justificado por la profesión).

4. La muestra se compone esencialmente de unidades voluntarias o impuestas.

Bajo condiciones apropiadas, cualquiera de los casos anteriores, pueden presentar resultados útiles. Sin embargo, en ellos no se puede aplicar estrictamente la teoría del muestreo ya que ella se basa en el supuesto de selección aleatoria donde todas las unidades tienen una probabilidad de ser seleccionadas.

Al muestrear poblaciones finitas hay tres maneras bien distintas de hacer la selección:

1. Muestreo aleatorio. Puede introducirse en e procedimientote muestreo de varias maneras que nos dan diversos diseños de muestra. Gracias a la aleatorización pueden obtenerse estimaciones validas del error. Se puede aplicar la teoría de probabilidades u se pueden sacar conclusiones válidas.

2. Muestreo sistemático. Se usa cuando cada uno de los individuos de una población se incluye en la muestra, tal procedimiento es fácil pero insatisfactorio si en la población se presentan tendencias o ciclos no reconocidos aun. Dado que las poblaciones se deben enumerar antes del muestreo, pueden introducirse en forma inconsistente ciertas relaciones entre una o más características investigadas y orden de numeración. En general, no es seguro suponer que no existe tal relación. El muestreo sistemático puede efectuarse en forma tal, que puede obtenerse una estimación no sesgada de error de muestreo. Esto requiere de más de una muestra sistemática.

3. Muestreo autoritario. Exige que una persona, bien familiarizada con el material que va a muestrearse, extraiga la muestra sin tener en cuenta la aleatorización. Tal procedimiento depende completamente del conocimiento y pericia de la persona que hace el muestreo. Puede producir buenos resultados en algunos casos, pero rara vez se recomienda.


Muestreo aleatorio simple.

Este esquema constituye la base de la mayoría de todos los muestreos los muestreos. Si se estudia una población dividida en n unidades de muestreo (árboles, parcelas, individuos, animales, etc.), el método consiste en tomar a l azar n unidades de las n, de tal manera que cada combinación posible de las n unidades tengan la misma probabilidad de ser escogida. Las unidades de muestreo se extraen de forma independiente.

Una manera de seleccionar una muestra aleatoria simple es utilizar una tabla de números aleatorios simples.


NÚMEROS ALEATORIOS SIMPLES.

Supóngase que la población de interés consta de N cantidad de valores. Se desea extraer de esta población una muestra de tamaño 15, utilizando los números aleatorios. Como primer paso, se debe localizar un punto de partida


aleatorio en la tabla. Esto puede hacerse de varias formas; una de las cuales es quitar la vista de la página, mientras que se toca con la punta de un lápiz. El punto de partida aleatorio es el dígito más próximo al punto donde el lápiz tocó la página. Supóngase que, siguiendo este procedimiento, se llegó a un punto de partida aleatorio en la intersección de renglón 15 con la columna 20. El dígito en este punto es 3. Dado el número N de valores, sólo se puede elegir este número en aleatorios (de 1 a N); en ocasiones es necesario elegir número de dos, tres o más dígitos. Para el caso de tres dígitos se buscarían números de 0001 a N que no sería mayor a 999. El primer valor aleatorio inicia en el punto de partida, seleccionándose para la muestra los que correspondan de 001 a N, recorriendo la columna hacia abajo. Cuando se termia la columna de selección y no se ha completado el tamaño de la muestra, se puede continuar en la siguiente columna de abajo hacia arriba o de arriba hacia abajo; hasta completar el n, en esta caso 15.

La varianza muestral de la media. Cuando el muestreo es con reemplazo o la población muestreada es muy grande, la varianza de promedios o error estándar está dad por:

n

ssx

2

=

Si el muestreo es sin reemplazo es error estándar es:

−=N

n

n

ssx 1

2

En donde el término

−N

n1 constituye un factor de corrección por finitud. Cuando

N→α o la fracción n/N es menor que 0,05, se ignora el factor por finitud.

Cuando se estudian proporciones, la varianza de la media está dada por:

−=N

n

n

Pqs p 12

Tamaño de la muestra. Para estimar el tamaño de la muestra es necesario decidir que tan grande es el error que se está dispuesto a tolerar con el estimador, de acuerdo a la precisión exigida por el investigador.

Considerando una población normal o aproximadamente normal:


xs

X µ−~ N

Si se desea cierta precisión en la estimación de µ, de tal modo que EX =− µ sea

el máximo error de muestreo permisible, entonces utilizando un nivel de

confiabilidad de 1-α, se plantea:

2/2/ αα t

n

s

Et

s

E

x

=⇒= por lo cual: 2

2/

2

E

tsn α=

En donde n es el tamaño mínimo de la muestra requerido para garantizar la

precisión deseada bajo la confiabilidad de 1-α.

La ecuación anterior supone que la población finita; cuando se justifique utilizar el factor de corrección por finitud se pude obtener un tamaño de muestra más ajustado mediante la siguiente relación:

N

n

nn

0

0

1+=

En donde n0 es la primera estimación de tamaño de muestra utilizando la expresión anterior.

Cuando la población en estudio no se comporta de forma aproximada a la distribución normal, se puede justificar el muestreo por el teorema central de límite y de lamisca forma se puede analizar bajo cualquier modelo estadístico. Por otro lado, teniendo en cuenta que para determinar el tamaño de la muestra, es necesario contar con un valor de varianza de la población, que en la mayoría de los casos no se tiene, éste se puede obtener a partir de la información de estudios previos o con un muestreo preliminar.

Cuando no se cuenta con la disponibilidad e un valor de varianza (estimador), se puede utilizar la fórmula de Freese, con la cual se puede aproximar al valor real.

2

2

4

=R

s

Donde, R corresponde al rango (dato mayor – dato menor) de la distribución de datos encontrados en una información previa.


Para obtener el tamaño adecuado de la muestra, el valor de E es fijado por el

investigador, lo mismo que el nivel de confianza 1-α. Pero para obtener el valor de

tα/2 se requiere contar con los grados de libertad (n-1), lo cual se conoce el valor de n y esto no es posible. Para solucionar este impace, se sugiere utilizar el valor de t aproximado y con base en este, se obtiene:

• Cuando 1-α = 0,95, el valor de aproximado es 2≈t .

• Cuando 1-α = 0,99, el valor de aproximado es 3≈t .

Ejemplo. Un Ingeniero Agrónomo se enfrenta a realizar un estudio de productividad de tomate de árbol en un cultivo, por costo y facilidad en la toma de datos, el Ingeniero necesita estimar una muestra confiable que le permita inferir sobre la población. La variable de estudio corresponde a la cantidad de producción (peso en Kg.) que puede tener cada uno de los árboles. Para ello estima un error

E de 0,5 kg. de producción por árbol y una confiabilidad de 1-α = 0,95. El investigador ha realizado un estudio preliminar y ha determinando que la varianza de producción de árboles de de 5,32.

Datos obtenidos.

2

32,5

95,01

5,0

2/

2

=

=

=−

=

α

α

t

s

E

Y la ecuación de tamaño de muestras es:

2

2

2/

2

1

)(

E

tsn α=

2

22

15,0

)2(32,5=n

25,0

)4(3024,281 =n

25,0

2096,1131 =n

45383,4521 ≈=n


Si se quiere, como ya se tiene un n para los grados de libertad (n-1), se puede

ajustar el valor de tα/2 con el valor real de la distribución teniendo en cuanta que

2/αt (4532) = 2,24

2

22

5,0

)24,2(32,5=n

25,0

)01,5(3024,28=n

25,0

01,142=n

56804,568 ≈=n

De la aplicación de método se puede determinar que para la confiabilidad de 1-α =0,95 y un error de 0,5 kg., el estudio necesita tomar una muestra de 568 árboles, los cuales serían confiable para calcular estimadores e inferir sobre la población.

Si el número total de la población fuera de 10000 árboles, entonces se debe corregir el valor de n con la ecuación para muestras de poblaciones finitas. En este caso sería:

N

n

nn

0

0

1+=

10000

5681

568

+=n

538507,537 ≈=n

De esta forma, para que la muestra sea confiable en una población de 10000 árboles, es necesario tomar una muestra de 538 árboles.

Otra expresión para estimar el tamaño del a muestra puede obtenerse cuando se fija la precisión de P (probabilidad de éxito) deseada como un proporción de la media y se utiliza el coeficiente de variación en lugar de la varianza.


XCVsX

sCV

XPEX

EP

=⇒=

=⇒=

Sustituyendo estos valores en la fórmula para el tamaño de la muestra se tiene:

( ) ( )

2

22

22

222

2

22

p

tCV

Xp

tXCV

E

tsn ===

Ejemplo. Si se tiene una población de cerdos en una región, donde se pretende estudiar la ganancia diaria de peso en esta producción y hacer un estudio de competitividad, la cual para dicha variable (ganancia de peso) tiene un coeficiente de varianza estimado en 42,5% y se desea una precisión de P=0,2. Estimar el tamaño de la muestra necesaria para dar confiabilidad al estudio de 0,95.

Se tiene que:

CV = 42,5%

P = 0,2

T0,05/2 = 2

Entonces:

( )

2

22

p

tCVn =

( )

2

22

2,0

2425,0=n

( )

04,0

41806,0=n

04,0

7225,0=n

1906,18 ≈=n

Si la población de cerdos en la región de estudio es de 30000, el ajuste por finitud corresponde a:


N

n

nn

0

0

1+=

30000

06,181

06,18

+=n

1905,18 ≈=n

Si la variable corresponde a una variable binomial, la estimación del tamaño de la muestra de una población por proporciones corresponde a:

2

2

2/ˆˆ

E

qpZn α=

En donde p̂ y q̂ son estimadores obtenidos en muestras preliminares y E es la

precisión o máximo alejamiento deseado entre la proporción estimada en la muestra y la verdadera proporción de la población.

CAPITULO 3: Inferencia estadística

Lección 11: Inferencia puntual

El objeto de la inferencia estadística es la de recoger información mediante la realización de una muestra, con el fin de utilizarla en el cálculo de estimaciones y así obtener conclusiones respecto los valores estadísticos de la población; en otras palabras, es poder afirmar acerca de una población basándose en la información contenida en una muestra.

La inferencia puede ser de dos tipos: pruebas de hipótesis sobre los parámetros y estimaciones sobre el valor de los mismos. La clase de inferencia depende de los objetivos que tenga el investigador con respecto a las poblaciones de estudio. Partiendo de esto, en inferencia se pueden considerar dos formas de estimación: puntual y por intervalos. La estimación puntual utiliza la información contenida en la muestra para llegar a un solo número o punto que estima el parámetro de interés. La estimación por intervalo determina el rango en el que se encuentra el parámetro con cierta probabilidad.


Simbología que se utilizará

MEDIDAS POBLACIÓN Parámetros

MUESTRA Estimadores

Media Aritmética µ X Varianza σ2 s2

Desviación Típica Σ s Tamaño N n

Inferencia por estimación puntual.

La estimación puntual se realiza con base en el valor de un estimador obtenido a partir de una muestra. El estimador es estadístico, o sea una función de las observaciones que se espera refleje las características del parámetro

desconocido. Por ejemplo, la media aritmética X es un estimado de µ el parámetro de la población.

Es posible proponer varios estimadores para u parámetro dado y además, como variable aleatoria, los estimadores tienen distribuciones de probabilidades; por lo cual el estimado de un parámetro puede estar muy cerca o muy lejos del valor verdadero. Por esto es importante seleccionar un estimador que esté cerca del valor verdadero del parámetro. Para hacer una buena selección de un estimador, se deben seguir por lo menos dos criterios.

a. Insesgamiento. Sea a. el estimador del parámetro A; se dice que a es un estimador insesgado de A si la esperanza matemática de la variable aleatoria a es igual a A. Esto es:

E (a) = A

De lo contrario, se dice que el estimador es segado y está dado por:

Sesgo de a = E (a-A).

Cuando se manejan muestras muy grandes, los estimadores generalmente no son insesgados y en el caso de presentarse un grado de sesgo, este es muy pequeño; es decir, es más confiable trabajar con muestras grandes. El concepto de sesgo no es el único, ni el más importante para poder hacer estimación puntual, para esto se debe tener en cuenta también:

b. Eficiencia. Con este criterio se pretende estimar el grado de explicación que cubre un estimador sobre una población. En muchas ocasiones cuando se tiene dos estimadores y por lo general uno es más eficiente que el otro.


La varianza del estimador nos indica el grado de dispersión de los diferentes valores que pueden tomar alrededor del parámetro. Es por esto que la varianza es un indicador de la eficiencia, deduciendo que entre menor sea la varianza, mayor es la eficiencia que se tiene con el estimador. Este es quizá el mejor indicador para iniciar una estimación puntual.

Estimación puntual del promedio.

Como se ha visto hasta el momento, el promedio es la medida más susceptible de trabajar para representar un grupo de datos sin importar si son de una población o de una muestra. Por eso la estimación puntual se hace para el promedio pero no para la varianza.

Si se tiene una población de tamaño N y de esta se toma una primera muestra de

tamaño n1, se obtendría un promedio 1X , si se tomara una muestra de tamaño n2

(que no puede ser del mismo tamaño de n1), se obtendría un promedio 2X y así

sucesivamente hasta tener nX promedios; el promedio de todos estos promedios sería la estimación del parámetro de la población µ. En pocas palabras, el promedio de los promedios es una representación puntual del parámetro.

Esquemáticamente sería:

µ⇒

⇒

⇒

⇒

⇒

⇓

∑

N

X

X

Xn

Xn

Xn

Xn

N

n

nn

.

.

.

33

22

11

Ejemplo. Si se tiene una población de 200 terneros de los cuales se requiere estimar el promedio de peso al nacimiento, por facilidad de trabajo se toman muestras que se promedian para luego calcular una estimación puntual del parámetro.


De acuerdo a las muestras, los promedios obtenidos fueron:

DATOS OBTENIDOS.

Muestra Promedio (Kg/animal) Muestra 1 (n=10) Muestra 2 (n=15) Muestra 3 (n=10) Muestra 4 (n=20) Muestra 5 (n=12)

44 40 42 44 43

Promedio de promedios 42,6 Esto quiere decir que el promedio para la población es de 42,6 kilos/animal al nacimiento. Se debe aclarar que para validar como apropiados los promedios muéstrales y poder sacar un promedio poblacional, se debe tener en cuenta la variabilidad de cada uno de estos ya sea con la desviación estándar o con la varianza.

Estimación puntual para varianza.

Lo contrario a lo que sucede con la media aritmética, la varianza no se puede calcular por promedio del resultado de algunas muestras. Para comprobar esta teoría, se presenta el siguiente ejemplo. Si se tienen 4 elementos en un espacio muestral (a, b, c, d) de los cuales se quieren sacar muestras de a 2 elementos. Todas las muestras posibles de tamaño 2 sin importar el orden, corresponde a:

Muestras posibles = [ ] 62

12

!2!2

!44

2 ==×

=

Las 6 muestras serían:

a,b a,c a,d b,c b,d c,d

Si de cada una de estas muestras, en el caso de ser numéricas, se calculará la varianza, el promedio de estas varianzas no es representativo para la población, o sea que no se puede hacer inferencia con este para decidir sobre la población. Es por esto que si se trata de una muestra, y para que esta sirva para inferir en la población, se ajusta la fórmula tradicional con n-1 en el dividendo.

1

2

2

−

−= ∑

n

Xxs

i


Inferencia por estimación de intervalos.

La inferencia estadística está basada en el supuesto de tomar muchas muestras, todas con igual probabilidad de ser seleccionadas y a través de una de ellas calcular datos que representen la población para poder tomar decisiones, interpretar o analizar según el comportamiento de la variable. No se quiere decir con esto, que siempre se obtengan los resultados esperados o los que mejor representen a la población, ya que desde el punto de vista teórico y práctico, esto también depende de una distribución de probabilidades.

Cualquier inferencia que se haga sobre una población siempre tiene un error, de lo contrario, la varianza del dato que se obtiene debería ser 0 lo cual nunca sucede. Por tal razón, y para asegurar la validez del estimador sobre el parámetro, en muchas ocasiones si no son todas, es preciso hacer inferencia por intervalos, en los cuales se calculen un límite superior y un límite inferior que enmarcan el parámetro esperado que representa la población. Sin embargo, esto límites siempre siguen guardando un error sin importar si son para promedio, varianza o proporciones.

Para hacer más preciso el cálculo de intervalos para medias aritméticas y proporciones, se han propuesto dos distribuciones de probabilidades que son útiles para tal fin. En el caso de tener muestras grandes (n > 30) se dispone de la distribución normal o Gaussiana, mientras que para muestras pequeñas (n ≤ 30) se cuenta con la distribución t-student; la cual no se ha tratado hasta el momento y que se explicará cuando corresponda. En el caso de hacer inferencia para varianza, se utiliza la distribución F (de Fisher) o ji-cuadrado.

Estimación de intervalos para grandes muestras.

A pesar de que la X y la s2 son estimadores de µ y σ2, sería sorprendente que fueran realmente µ y σ2 en cambio de encontrarse la aproximación de éstos. Esto

permite deducir que puede ser más apropiado dar un intervalo en torno a la X y la s2 y decir que se está razonablemente confiado en que µ y σ2, se encuentran en ese intervalo. Esto puede hacerse con la ayuda de la distribución normal para cuando se tienen muestras grandes (n > 30). Además del tamaño de la muestra, en otro criterio para inclinarse por el uso de la distribución norma, es cuando se conoce la varianza de la muestra.

Se usa distribución Z (normal o Gaussiana) cuando:

1. La varianza de la muestra (σ2) se conoce.

2. La varianza de la muestra se desconoce, pero n >30


Se usa distribución t cuando:

1. La varianza de la muestra se desconoce (σ2)

2. El tamaño de la muestra es menor a 30 (n ≤ 30)

Los intervalos, en la estadística se denominan intervalos de confianza. Este concepto permite que el investigador asocie el valor de una probabilidad con el intervalo aleatorio de tal modo que la probabilidad de que un intervalo de confianza incluya el parámetro sea relativamente alta; este valor se conoce como coeficiente de confianza.

Si se tiene la muestra aleatoria procedente de una población con parámetro A, entonces un intervalo de confianza (L1 y L2) para dicho parámetro es:

α - 1 = )LA (L P 21 ≤

Donde:

L1 y L2 Se conocen como límites del intervalo y son estadísticos obtenidos de la muestra aleatoria.

1-α Es el coeficiente de confianza.

α Es el error que se permite como probabilidad de que el valor del parámetro no esté entre el intervalo hallado.

El intervalo debe interpretarse como la probabilidad de que se contenga al parámetro en 1-α y no “la probabilidad de que el parámetro caiga en el intervalo” porque A es un número fijo. Se puede considerar que si se toman muestras repetidas de la misma población y se obtienen los intervalos de confianza respectivos para el parámetro A entonces se espera que (1 – α) por ciento de estos intervalos incluirán a A.

Intervalo de confianza para la media.

Considerando una población normal en donde se ha tomado una muestra grande para estimar los parámetros, los límites de confianza para el coeficiente de confianza 1-α, tendría como base la distribución normal.

N(0,1)~X

XZ

σµ−

=

Si se indica como zα/2 el valor de la tabla Z tal que el área de la derecha zα/2 es

igual a α/2, entonces P(Z< -zα/2) = α/2 por la simetría de la curva.


P (-zα/2< Z < zα/2) = 1-α

Gráfica . Intervalo de confianza a dos colas

De acuerdo con lo anterior:

P (-zα/2< Z < zα/2) = 1-α

P (X

σ x zα/2 < X -µ < X

σ zα/2) = 1-α

P ( X -X

σ ) x zα/2 < -µ < ( X +X

σ ) x zα/2) = 1-α

P (L1< µ < L2) = 1-α

En donde:

2/2/2

2/2/1

zz

zz

αα

αα

σσ

σσ

×+=+=

×−=−=

nXXL

nXXL

X

X

Con las ecuaciones L1 y L2 se han obtienido los intervalos con una confianza de 1-

α para el parámetroµ. Los estadísticos L1 y L2 se denominan intervalos de confianza inferior y superior.

Ejemplo. En un cultivo de sorgo (Sorgum bicolor) se quiere promediar la altura alcanzada por las plantas cuando el fruto se encuentra en estado de leche. Del cultivo, se ha tomado una muestra aleatoria de 250 plantas de la cuales se tiene que el promedio de altura en centímetros fue de 135, con un desviación estándar de 15 centímetros. Como el tamaño de la muestra se pude catalogar como grande, se usa la distribución Z para calcular los intervalos de confianza e inferir


entre cuanto está el promedio de altura de todo el cultivo con una confiabilidad del

95%, es decir 1-α =. 1-0.95= 0.05.

2/2

2/1

z

z

α

α

σ

σ

×+=

×−=

nXL

nXL

Como es claro que la confiabilidad es del 95% y el error del 5%, para cumplir con

el α/2, el error se debe dividir en dos colas, lo que quiere decir que el error en cada punta o cola de la gráfica de la distribución estándar es de 0,025 o lo mismos que 2,5%.

X = 135

σ = 15

α = 0.05/2 =0.025

1-α = 0,95

n = 250

2/2

2/1

z

z

α

α

σ

σ

×+=

×−=

nXL

nXL

96,1250

15135

96,1250

15135

2

1

×+=

×−=

L

L

85,136

14,133

2

1

=

=

L

L

Con este resultado, se estima que la altura promedio de todo el cultivo de sorgo está entre 133,4 y 136,85 centímetros, con un coeficiente de confianza de 0.95. Este coeficiente de confianza explica que al repetirse el muestreo se espera que el

95% de los intervalos obtenidos en esta forma contengan a µ.

De esta forma se pude resumir que la ecuación para hallar límites de confianza cuando se tienen muestras grandes corresponde a:

2/zα

σ×±=

nXLC

Se debe notar que uno de los principales factores que afecta la amplitud de los límites es la variabilidad de los datos expresada en la desviación estándar, la cual,


entre mayor sea la desviación para un conjunto de datos, mayor es la amplitud de los límites. Otro factor que influye en la amplitud de los límites es la confiabilidad con la que se quiera trabajar; es decir, si 1-α es la confiabilidad para zα/2 a medida que esta aumente mayor es la amplitud.

Por ejemplo. Si se quiere tener una confiabilidad del 95% (0,95) donde 1-α

corresponde al 5% (0,05) y zα/2 sería 2,5% (0,025) no es lo mismo que si exige

una confiabilidad del 99% (0.99) donde 1-α corresponde al 1% (0,01) y zα/2 sería 0,005% (0,005). En el primer caso se deja un mayor espacio o para el error que en el segundo y por eso, en el segundo, por ser más preciso implica que el intervalo sea más amplio.

Es posible que aún se tenga duda sobre el valor de zα/2 utilizado para calcular los límites de confianza. Este valor se toma como una constante calculada con la distribución Z, y los cuales se expresan en la siguiente tabla.

VALORES DE ERROR Y CONFIABILIDAD

Coeficiente de Confianza

(1-α)

Error

α

zαααα/2 a una cola a dos colas Porcentaje

Probabilidad

Porcentaje

Probabilidad

Porcentaje

Probabilidad

90 0,90 10 0,10 5 0,05 1,64

95 0,95 5 0,05 2,5 0,025 1,96

99 0,99 1 0,01 0,5 0,005 2,58

Para aclarar de donde salen los valores de zα/2; se estima que en la distribución normal, para que se incluyan el 90% de los datos de una muestra o población, se le debe restar o sumar 1,64 desviaciones estándar y crear un intervalo. Si el requerimiento es tener el 95% de los datos, al promedio se le debe sumar y restar 1,96 desviaciones estándar y si se quiere tener el 99% de los datos dentro de un intervalo, se debe sumar y restar 2,58 desviaciones estándar.

De forma resumida, para obtener intervalos estrechos o cortos se deben cumplir uno más de las siguientes condiciones.


1. Si aumenta el tamaño de la muestras n el valor del X debería estar más

cercano al parámetroµ, por lo cual es de esperar un intervalo más estrecho.

2. En poblaciones más uniformes (con menor varianza) los intervalos de confianza son más cortos, lo que hace que la estimación de la media poblacional sea más precisa.

3. La elección del valor 1-α depende del grado de confiabilidad que desee el investigador en su estimación. Por fines prácticos, en la mayoría de los casos se estiman con 0.95; lo cual no indica que no es posible aplicar otro valor. Esto implica que entre menos confiabilidad se desee, más estrecho es el intervalo.

Es posible que se tengan muestras, las cuales no se comportan de forma aproximada a la distribución normal, sin embargo, si son muestras grandes, se puede aplicar el teorema central de límite y desarrollar la metodología propuesta

Intervalos de confianza para varianza.

Como se ha venido trabajando y demostrando, la varianza es una medida importante para el cálculo de otros valores y como no tiene interpretación ni unidades reales, se puede transformar en desviación estándar y así determinar la variabilidad de un conjunto de datos. Por esta razón, es importante en muchas ocasiones encontrar límites de confianza para la varianza y así poder inferir desde una muestra en una población. Tal es el caso de las empresas productoras de farmacéuticos, vacunas, alimentos, y muchos otros, que deben garantizar baja variabilidad del resultado obtenido por usar el producto. Para esto, se hacen las pruebas en una muestra y luego se infiere sobre el total de la población que usaría el producto. En el caso de procedimientos de mejoramiento genético, son importantes ya que a pesar de la influencia de muchos factores incluidos lo ambientales, los resultados a obtener en una población dependen de la variabilidad de los ensayos con las muestras.

En la parte inicial de este modulo se estudiaba que la varianza de una población y de una muestra cambiaban en su notación para hacer el cálculo y que correspondía a:

Para una muestra 1

)(2

2

−

−= ∑

n

XXs

i

Para una población n

XX i

2

2)(∑ −

=σ


En donde n es el tamaño de la muestra y s2 es el valor de un estimador insesgado

de la varianza poblacional (parámetros) σ2.

Si se extraen muestras de tamaño n de una población con distribución normal, esta cantidad tiene un distribución conocida como distribución ji-cuadrada con n-1

grados de libertad, la cual sigue la cantidad (n-1)s2/σ2 y es útil para encontrar

intervalos de confianza para σ2 cuando se cumple la hipótesis de que la población tiene una distribución aproximadamente normal.

Es claro que para la obtención de un intervalo de confianza para σ2 se utiliza la

distribución ji cuadrado o chi-cuadrado (χ2), la cual se es necesaria de describir por lo menos en forma breve.

Distribución chi cuadrado.

La distribución χ2 puede deducirse a partir de la distribución normal. Supóngase

que a partir de una variable aleatoria Y distribuida normalmente con media µ y

varianza σ2 se seleccionan aleatoria e independientemente muestras de tamaño n

= 1. Cada valor seleccionado pude transformase en la variable normal unitaria z a través de la fórmula ya conocida:

σµ−

=x

z

Cada valor de z puede elevarse al cuadrado para obtener z2. Cuando se estudia la distribución muestral de z2, se encuentra que sigue una distribución χ2 con un grado de libertad. Es decir:

2

2

2

)1( zx

=

−=

σµ

χ

Si se seleccionaran aleatoria e independientemente muestras de tamaño n = 2 de la población de valores Y con distribución normal. Dentro de cada muestra, puede transformarse cada valor x en una variable normal unitaria z y elevarla al cuadrado como antes. De esta forma quedaría:

2

2

2

1

2

2

2

12

)2( zzxx

+=

−+

−=

σµ

σµ

χ


Puede repetirse el procedimiento para cualquier tamaño de n de muestras. En cada caso, la suma de los valores z2 resultantes se distribuirá como una

distribución χ2, con n grados de libertad, para obtener en general:

)2/(1)2/(

2/2

1

!12

1)( uk

keu

kuf −− ××

−=

Donde e es el número irracional 2,71828, k es el número de grados de libertad. La

variable u se designa por la letra griega ji (χ) y en consecuencia la distribución se

conoce como distribución χ2. Para evitar complicaciones con su cálculo, esta distribución se ha tabulado.


PERCENTILES DE LA DISTRIBUCIÓN JI-CUADRADO

La media y la varianza de la distribución χ2 son, respectivamente k y 2k. el valor modal de esta distribución es k – 2 para valores de k mayores o iguales a 2 y es de 0 para k = 1. La forma de la distribución para varios valores de k corresponde a:

Gráfica Distribución ji-cuadrado para varios valores de grados de libertad k.


En esta gráfica se observa que las formas para k = 1 y k = 2 son bastante distintas a la forma cuando k>2. También se observa que la distribución toma valores desde cero hasta el infinito. No puede tomar valores negativos ya que es la suma de los valores de z elevados al cuadrado.

INTERVALOS DE CONFIANZA si se ha obtenido una muestra aleatoria de tamaño n a partir de una población normal, es posible determinar que:

)1(2

2

~)1(

−−

n

snχ

σ

Teniendo en cuenta esta propiedad, es posible derivar un intervalo de confianza

para la varianza de la población. Utilizando la tabla χ2(n-1)

se encuentran valores 21χ y 2

2χ tales que:

αχχχ −=≤≤ 1)( 2

2

22

1p

Los valores 21χ y 2

2χ corresponde en la tabla a:

)1)(2

(

)1)(2

1(1

22

2

22

−

−−

=

=

n

n

α

α

χχ

χχ

Por lo cual


αχ

σχ

αχσ

χ

−=

−≤≤

−

−=

≤

−≤

1)1()1(

1)1(

2

1

22

2

2

2

2

22

22

1

snsnp

snp

De donde:

2

1

2

2

2

2

2

1

)1(

)1(

χ

χ

snL

snL

−=

−=

Ejemplo. (Adaptado de Gómez, 2007). Se desea evaluar un método para la determinación de aflatoxinas en cereales almacenados. Para ello se efectuó una contaminación previa de 100 ppm (partes por millón) en una porción de material. Después de homogeneizar la sustancia se obtienen 10 determinaciones, cuyos valores en partes por millón fueron: 104, 96, 102, 99, 103, 100, 98, 103, 97, 102. Se desea obtener el intervalo de confianza para la varianza la 90% de confiabilidad.

Se podría desarrollar por pasos.

1. Calcular el valor de varianza (s2) y determinar el n.

n = 10 s2 = 7,82

2. Determinar la confiabilidad deseada (1-α) y el error (α).

1-α = 0,90 α = 0,10

3. Encontrar en la tabla χ2 los valores de 21χ y 2

2χ .

)1)(2

(

)1)(2

1(1

22

2

22

−

−−

=

=

n

n

α

α

χχ

χχ

)9(05,022

2

)9(95,022

1

χχ

χχ

=

=

92,16

32,3

2

2

21

=

=

χ

χ

Para encontrar los valores de la tabla, se debe buscar dependiendo si es 21χ ó 2

2χ . Para el caso del primero se busca en la parte superior el valor de

1-α/2 y en la primera columna los grados de libertad (n-1). Para el caso del

segundo valor de la distribución, se busca en la parte superior el α/2 y en la primera columna los grados de libertad (n-1). En algunos textos, se simbolizan los grados de libertad como v.


4. Calcular los límites de confianza para el parámetro σ2.

2

1

2

2

2

2

2

1

)1(

)1(

χ

χ

snL

snL

−=

−=

20,2132,3

82,79

15,492,16

82,79

2

1

=×

=

=×

=

L

L

5. Con los cálculos, se ha estimado que al 90% de confiabilidad la varianza del método para estimar aflatoxinas en cereales almacenados (σ2) se encuentra entre los valores de (4,15 y 21,20). En algunos casos, recordando el paso de varianza a desviación (sacar raíz cuadrada), se puede dar el resultado en desviaciones. De esta forma quedaría: con un 90% de confiabilidad, el método para determinar aflatoxinas, siempre y cuando se aplique bajo las mismas condiciones tiene una desviación estándar de entre 2.04 y 4.6 ppm.

Lección 12: Pruebas de hipótesis

Desde cuando se inició la inferencia estadística se planteó que la otra forma de hacerla, es por medio de las pruebas de hipótesis. La inferencia está basada en el supuesto de tomar muchas muestras, todas con igual probabilidad de ser seleccionadas y a través de una de ellas determinar aproximaciones de los parámetros de la población, permitiendo hacer aseveraciones, estableciendo un error, incluso en algunos casos incorrectos. En esta parte del módulo se prenderá a identificar, si el valor del estimador obtenido en la muestra es representativo del parámetro o valor estadístico poblacional de la cual se extrajo.

La prueba de hipótesis denominada también prueba de significancia, tiene como objeto principal evaluar suposiciones o afirmaciones acerca de los valores estadísticos de la población, denominados parámetros.

Estas suposiciones se llaman hipótesis estadísticas, las cuales son supuestos acerca de un parámetro o de algún valor estadístico de una población. Esto quiere decir que no todas las hipótesis son estadísticas. Se debe tomar un parámetro como referencia, ya sea una media, una proporción, una varianza, etc.

La hipótesis estadística, también puede considerarse, como la afirmación acerca de una característica ideal de una población sobre la cual hay inseguridad en el momento de formularla y que, a la vez, es expresada de forma que puede ser rechazada.


De esta forma, se puede aclarar que los investigadores tratan con dos tipos de hipótesis: la hipótesis de investigación y la hipótesis estadística. La hipótesis de investigación es la conjetura o suposición que motiva la investigación. Puede ser el resultado de años de observación por parte del investigador. Un Médico Veterinario por ejemplo, puede haber notado que ciertos equinos respondieron más rápidamente a un tratamiento para cólico. Los proyectos de investigación suelen resultar del deseo de los profesionales para determinar si sus teorías o sus sospechas pueden ser apoyadas o no cuando se someten a los rigores de la investigación científica.

Las hipótesis de investigación conducen directamente a hipótesis estadísticas. Las hipótesis estadísticas se establecen de tal forma que pueden ser evaluadas a través de técnicas estadísticas apropiadas. En este módulo las hipótesis que se estudiarán serán de este tipo.

Es importante, sin decir que es camisa de fuerza, tener en cuenta algunos pasos o aspectos para poder aplicar pruebas de hipótesis estadísticas.

1. Datos. Debe comprenderse la naturaleza de los datos que forman la base de los procedimientos de prueba, ya que estos determinan la particularidad que debe utilizarse.

2. Suposiciones. Un procedimiento general se modifica, dependiendo las suposiciones. Se ha visto que éstas incluyen, entre otras, suposiciones de la normalidad de la distribución de la población, igualdad de varianzas e independencia de las muestras.

3. Hipótesis. En la prueba de hipótesis se trabaja con dos supuestos o hipótesis estadísticas que deben enunciarse explícitamente. La primera es la hipótesis que debe probarse, por lo común conocida como hipótesis nula y que se designa con el símbolo Ho. Esta hipótesis se conoce por algunos autores como hipótesis de no diferencia, ya que es una proposición de conformidad con (o no diferencia respecto de) condiciones verdaderas en la población de interés. En general, la hipótesis nula se establece con el propósito expreso de ser rechazada. En consecuencia, el complemento de la conclusión que el investigador desea alcanzar se convierte en el enunciado de la hipótesis nula. En el proceso de la prueba, la hipótesis nula se rechaza, o bien, no se rechaza. Si la hipótesis nula no se rechaza, se dirá que los datos sobre los cuales se basa la prueba no proporcionan evidencia suficiente que provoque el rechazo. Si el procedimiento del aprueba conduce al rechazo, se concluye que los datos disponibles no son compatibles con la hipótesis nula, pero son apoyo de alguna otra hipótesis. Esta otra hipótesis se conoce como hipótesis alternativa y puede designarse con el símbolo Ha.


Debe señalarse que, en general, la prueba de hipótesis o la inferencia, simplemente indican si esta es apoyada o no por los datos disponibles. Por lo tanto cuando no es posible rechazar esta hipótesis nula, no se dice que es verdadera, si no que puede ser verdadera.

4. Estadística de prueba. Es alguna estadística que puede calcularse a partir de los datos de la muestra. Como regla, existen muchos valores posibles que pueden tener la estadística de prueba, dependiendo del valor particular observado de la muestra particular extraída. La estadística de prueba sirve como un producto de decisión de rechazar o no la hipótesis nula. En forma general, se puede representar bajo una fórmula que resume cualquier tipo de estadística para aplicar en pruebas de hipótesis.

relevanteaestadísticladeestándarerror

uestoparámetrorelevanteaestadísticpruebadeaestadístic

sup−=

Un ejemplo de ésta puede ser:

n

Xz

σµ−

=

Donde: X Es la estadística relevante.

µ Es el supuesto

n

σ Es el error estándar de la X

5. Distribución de la estadística de prueba. La clave de la inferencia estadística es la distribución muestral. Esto hace necesario que se especifique cuál es la distribución de probabilidad que se usará para satisfacer las suposiciones. (distribución N, t, χ2, etc).

6. Regla de decisión. Todos los valores posibles de la estadística de prueba puede tener puntos sobre el eje horizontal de la gráfica de la distribución y se dividen en dos grupos; uno de los grupos constituye lo que se conoce como región de rechazo y el otro grupo forma la región de aceptación.


Gráfica Regiones de aceptación y de rechazo.

La regla de decisión señala que se rechaza Ho si el valor calculado de la estadística de prueba cae en la región de rechazo y se acepta Ho si cae en la región de aceptación. Esta regla establece que se calcule un valor de estadística de prueba a partir de los datos de la muestra y que se rechace Ho si se obtiene un valor igual o mayor 1,96 o, igual o menor a -1,96. Entonces se aceptaría Ho, si se obtiene cualquier otro valor.

El valor del error (α) y en consecuencia, la regla de decisión, debe establecerse antes de reunir los datos. Esto evita que los resultados de la muestra influyan sobre la decisión que se va a tomar. Esta condición, por su importancia e ingerencia, debe conservarse en todas las pruebas.

Otra forma de tener una regla de decisión, sin importar el estadístico de prueba, es bajo los siguientes preceptos:

• Si el valor calculado es menor que el valor de la tabla, se acepta Ho.

• Si el Valor calculado es mayor que el valor de la tabla, se rechaza Ho.

7. Conclusión. Se concluye dependiendo de la hipótesis aceptada. Es preciso concluir si el estimador es igual al parámetro o no en el caso de rechazar Ho. La conclusión debe tener coherencia con criterios, conceptos, teorías, postulados, leyes, etc. que expliquen la respuesta; para esto se deben tener en cuenta argumentos que se presentarán en el análisis de resultados y recomendaciones extraídas de cualquier trabajo de investigación.

8. Análisis. Una vez aplicada alguna de las formas de tomar la decisión, ésta se debe ser analizada bajo los conceptos teóricos o prácticos que existan y que puedan fortalecer la hipótesis que se ha aceptado. Es de gran importancia, para el profesional cumplir con este punto, ya que le permite conocer de forma conceptual o práctica el resultado de la investigación que


se esté realizando y es así como se puede justificar la inferencia estadística.

9. Conclusiones. Todos los puntos planteados hasta el momento deben llevar a que el investigador esté en capacidad de organizar una conclusión, basándose especialmente en la hipótesis que acepta y en el análisis que se haya hecho.

Prueba de hipótesis para la media de una población.

Se desea estudiar la hipótesis de que la media de la población es igual a un valor dado (µ0) frente a una alternativa conveniente. Para esto, como se ha venido estudiando, se plantean dos hipótesis:

Ho: µ = µ0

HA: µ ≠ µ0 (prueba a dos colas)

o bien: Ho: µ = µ0

HA: µ > µ0 (prueba a una cola)

HA: µ < µ0

Debe notarse que, cuando la hipótesis alternativa se plantea como un

desconocido para el parámetro (µ), el cual tiene como resultado un dato mayor y/o

menor que el estimador (µ0) y se simboliza con diferente a (≠); en este caso, la distribución se trabaja a dos colas (bilateral). En el caso contrario, cuando se tiene un punto de referencia para decir en la hipótesis alternativa que, el parámetro es mayor que (>) el estimador o que el parámetro es menor que (<) el estimador, se trabaja la distribución a una cola (unilateral).

Ejemplo. Si se sabe que en unas condiciones específicas, el cultivo de maíz para ensilar da un rendimiento de 20 toneladas por hectárea y se pretende probar la hipótesis alterna de obtener un resultado diferente con el aumento de la densidad de plantas sembradas; El resultado obtenido no se estima si es mayor o menor a las 20 toneladas que ya se sabe normalmente se obtiene, por tanto la hipótesis se indica con el símbolo ≠. Si el estudio consistiera en manejar el cultivo bajo las mismas condiciones pero agregándole un fertilizante foliar, se sabe por efecto del proceso fisiológico que se obtendría un mayor rendimiento, por lo tanto la hipótesis a probar sería que la nueva producción es mayor que la tradicional y se simboliza con (>)


Una vez definido el nivel de significancia α, la metodología para adelantar la prueba consiste en obtener la muestra, calcular el estadístico de prueba y verificar si este se ubica dentro de la región de rechazo o aceptación, la cual definirá a aceptar o rechazar la H0. Los estadísticos usuales son:

XS

Xt 0µ−

= Para muestras pequeñas,

X

Xz

σµ0−

= Para muestras grandes o con σ conocida.

PRUEBA DE UNA COLA. También llamada prueba unilateral, es aquella en la cual la zona de rechazo o zona crítica está completamente comprendida en uno de los dos extremos de la distribución. La prueba es unilateral a la derecha (de la curva); cuando la hipótesis alternativa de los que se quiere probar, hace mención a que el parámetro es mayor que (>) el estimador. Si por lo contrario la hipótesis alternativa se refiere a que el parámetro es menor que el estimador, corresponderá a una prueba unilateral izquierda.

Prueba unilateral a la derecha: Ho: µ = µ0

HA: µ > µ0

Prueba unilateral a la izquierda: Ho: µ = µ0

HA: µ < µ0

El estadístico a utilizar depende de la cantidad de datos que se tengan, tal como se determinó para los límites de confianza o como se explicó anteriormente; dependiendo del tamaño de la muestra o del conocimiento de la varianza. En este caso se puede definir entre la distribución t-student o la distribución normal (Z). Para hacer la demostración se hará con la distribución t-student por dos razones:

a. El tamaño de la muestra es pequeña.

b. No se tiene una varianza conocida y se debe hallar de los valores obtenidos.

XS

Xt 0µ−

=

El valor de t en las tablas que define la zona de aceptación o rechazo es tα, de este modo la región de rechazo es:


( ){ }1/ −≥= ntttR α

Si t ∈ R entonces se rechaza Ho

Si t ∈ R entonces se acepta Ho

Ejemplo. El contenido de proteína cruda (PC) del pasto estrella morado (Cynodon

nlefluencis) es de 8% en prefloración. Por procesos de fertilización en el suelo de acuerdo los requerimientos se supone que aumenta el nivel de proteína comparado con el cultivo tradicional. Se toman aleatoriamente 15 muestras y se determina el contenido de PC para cada una. De los valores encontrados se tiene que el promedio nuevo de proteína es de 12%, con una varianza de 48.

48

%12

2 =

=

s

X

Se desea saber si el contenido de proteína cruda (PC) sí ha cambiado o no; por tanto las hipótesis a plantear son:

Ho: µ = µ0

HA: µ > µ0

Se puede notar que se usa la prueba unilateral a la derecha por que se pretende probar si el nuevo valor promedio encontrado de proteína cruda (PC) es mayor que el obtenido bajo condiciones normales o no.

Para calcular el valor estadístico t, primero se debe obtener el valor de error

estándar de la media xs .

78,115

482

===n

ssx

24.278.1

8120 =−

=−

=X

cS

Xt

µ

Si se toma un error de experimentación al 5% (α=0,05), se tiene el valor en la tabla t con (n-1 grado de libertad) es de 1,7613

7613.1)14(05.0 =glt


Es importante tener en cuenta que en la tabla se busca a una sola cola (unilateral);

para el ejemplo del 0.05 como α, se busca al 95% de confiabilidad.

Para facilitar la interpretación de la parte superior de la tabla t se puede tener en cuenta el siguiente cuadro.

FORMAS DE SIMBOLIZAR LAS COLUMNAS EN LA TABLA T.

Confiab*

Formas de simbolizar las columnas en la tabla t

Una cola (Unilateral) Dos colas (Bilateral)

% error

P** error (L)

% Confiabilidad

P** confiabilidad

% error

P** error (L)

% confiabilidad

P** confiabilidad

90 10 0,1 90 0,90 5,0 0,05 95 0,95 95 5 0,05 95 0,95 2,5 0,025 97,5 0,975 99 1 0,01 99 0,99 0,5 0,005 99,5 0,995 * Confiabilidad

** Probabilidad

En vista de que |tc| > t0.05(14), entonces se rechaza Ho con un nivel de significancia del 0.05 y se puede afirmar que con un nivel de confiabilidad del 95%, el nivel de proteína de pasto estrella morado (Cynodon nlefluencis) fertilizado de acuerdo a los requerimientos del suelo es mayor que cuando se tiene como un cultivo convencional sin fertilización.

PRUEBA DE DOS COLAS. También llamada bilateral, es aquella en la cual la zona de rechazo se divide en los dos extremos de la distribución (cola de la derecha y cola de la izquierda). Se utiliza esta prueba de hipótesis cuando no se tiene referencia de un dato mayor o menor del promedio obtenido en el estudio; es decir, cuando en la hipótesis alterna se plantea que el promedio de la población es diferente al obtenido (sin saber si es mayor o menor).

Ho: µ = µ0

HA: µ ≠ µ0 ; no se podría plantear de la forma µ > µ0 ó µ < µ0

Los estadísticos de prueba siguen siendo t-Student o Z (normal) dependiendo de las condiciones de tamaño de muestra o de la disponibilidad de varianza.

XS

Xt 0µ−

= Para muestras pequeñas,


X

Xz

σµ0−

= Para muestras grandes o con σ conocida.

Es importante tener en cuenta que, en este caso, como se tienen dos posibles respuestas simbolizadas en la hipótesis al decir que es diferente sin saber si es mayor o menor que el parámetro de comparación, se debe trabajar la distribución de forma bilateral; donde el nivel de significancia α es divido en dos partes (α/2) que indican la porción de rechazo en la distribución de los datos; tal como se muestra en la siguiente gráfica.

Gráfica. Región de aceptación y rechazos en una prueba a dos colas

En este caso la región crítica R está formada por dos partes: R1 y R2, donde;

Ejemplo. El historial de una finca ganadera muestra que los animales que se encuentran en ceba tienen como promedio de ganancia de peso 930 g/día/animal. Para evaluar un lote que está en esta etapa de producción y saber si se encuentra dentro de los parámetros de producción de la finca, se hace un muestreo aleatorio de 15 animales, obteniéndose los siguiente valores como ganancia diaria de peso: 740, 890, 910, 915, 1000, 980, 960, 870, 856, 798, 979, 863, 982, 791, 916.

Las hipótesis a probar son:

Ho: µ = 930

HA: µ ≠ 930 (prueba a dos colas)

}{}{ 2/1

2/1

/

/

α

α

tttR

tttR

≥=

−≤=


Para hacer los cálculos con la distribución t se deben hallar los valores de

promedio y error estándar de la media xs .

67,896=X

09,61122 =s

XS

Xt 0µ−

= donde; 18,2015

09,161122

===n

ssx entonces;

65,118,20

93067,8960 −=−

=−

=X

cS

Xt

µ

Si se usa un α de 0,05, se tiene que el valor de la distribución t corresponde se

buscaría con tα/2, o sea 0,025 y con n-1 grados de libertad.

t0,025 (14) = 2,14

Teniendo en cuenta que |t| < tα/2 entonces, se acepta la hipótesis nula (Ho) con una confiabilidad del 95% y se puede concluir que: Estadísticamente al 95% de confiabilidad, la ganancia de peso del lote de ceba en la finca está acorde con el promedio que se tiene como registro.

Lección 13: Comparación de dos medias muestrales

La prueba de hipótesis que comprende la diferencia entre la media de dos poblaciones de utiliza con más frecuencia para determinar si es razonable o no concluir que las dos son distintas. En tales casos, se podrían plantear una de las siguientes hipótesis:

0:,0:

0:,0:

0:,0:

21210

21210

21210

>−≤−

<−≥−

≠−=−

µµµµ

µµµµ

µµµµ

A

A

A

HH

HH

HH

Así como se muestra, es posible probar que la diferencia es igual a, mayor que, o menor o igual que algún valor distinto a cero.


Comparación cuando el muestreo es a partir de una población normal y las

varianzas de las poblaciones son conocidas:

Ejemplo. Un investigador desea saber si los datos tomados en un lote de novillos alimentados con ensilaje amonificado, proporcionan evidencia suficiente para indicar una diferencia en las concentraciones de Nitrógeno Ureico en Sangre (BUN) entre los individuos que no recibían la fuente de Nitrógeno No proteico (NNP) y los que sí. Para hacer la prueba correspondiente, se plantean 9 pasos a seguir:

1. Arreglo de campo. Los datos corresponden a las lecturas de BUN hechas a 12 novillos suplementados con fuente de NNP y 15 novillos que no recibían este tipo de suplementación. Con los datos se obtiene que los grupos suplementados con NNP tenían un promedio de 4,5 niveles de BUN (mg de nitrógeno/ ml de sangre), mientras que los novillos sin suplementar tenían en promedio 3,4 mg/ml sangre.

2. Supuestos. Los datos constituyen dos muestras aleatorias independientes, cada una extraída de una población con distribución normal y varianza igual a 1.

3. hipótesis.

0:,0: 21210 ≠−=− µµµµ AHH

Una forma alternativa de enunciar las hipótesis sería:

21210 :,0: µµµµ ≠= AHH

4. Estadístico

( ) ( )

2

2

2

1

2

1

2121

nn

xxZ

σσ

µµ

+

−−−=

En este caso, se supone que la diferencia entre los dos promedios de la

población (µ1-µ2) es cero (0).

( ) ( )82,2

39,0

1,1

15

1

15

1

04,35,4==

+

−−=Z

5. Regla de decisión. Decidiendo probar con α = 0,05, los valores críticos de Z son 1.96; por tanto:

Zcalculado = 2,82 Zcrítico = 1,96


2,82 > 1,96; por tanto se rechaza H0

6. Conclusión. se puede concluir que, con un nivel de confianza del 95% el nivel de urea en sangre de novillos suplementados con ensilaje amonificado es diferente a cuando no se suplementan con esta fuente de NNP.

Comparación cuando el muestreo es a partir de una población normal y las

varianzas de las poblaciones son desconocidas:

Cuando se desconocen las varianzas de las poblaciones, pero se supone que son iguales, éstas se pueden hallar de la siguiente forma:

( ) ( )2

11

21

2

22

2

112

−+

−+−=

nn

snsns p

Una vez halladas las varianzas, se puede proceder como en el caso anterior, utilizando el valor hallado para reemplazar en la ecuación de la distribución Z.

Comparación cuando el muestreo es a partir de una población que no se comporta

aproximadamente a la distribución normal.

Cuando el muestreo se realiza a partir de una población que no presenta distribución normal, pueden utilizarse los resultados del teorema central de límite si el tamaño de la muestra es grande. Esto indica que, si la muestra es grande, se puede utilizar el teorema normal.

( ) ( )

2

2

2

1

2

1

2121

nn

xxZ

σσ

µµ

+

−−−=

Comparación en parejas (comparación de dos medias muestrales)

En los procesos prácticos o de investigaciones en el área agropecuaria es común tener que efectuar comparaciones entre dos medias de muestras aleatorias de una misma o diferente población bajo algún parámetro de estudio. Por ejemplo, el comportamiento bajo una dieta para machos y hembras de una especie; el criollo de maíz de una zona contra algún material mejorado o la comparación entre razas de animales. Esto implica la utilización de algún estadístico de prueba que nos permita definir sobre una hipótesis planteada

Ho: µi = µj.

Lo primero y más importante por hacer es identificar si la muestra corresponde a muestras apareadas o a muestras no apareadas y para ello se deben seguir los siguientes criterios.


Muestras apareadas.

• Tienen igual número de elementos entre las dos muestras.

• Una muestra depende de la otra, es decir, se analiza el mismo grupo con el efecto de dos tratamientos. Cuando se habla de dependencia, no se refiere a variables dependientes e independientes en modelos lineales; esto hace referencia a que una muestra fue tomada después de terminar de aplicar la anterior y en los mismos ejemplares, terreno, etc.

Muestras no apareadas.

• Puede contener igual o diferente número de datos entre las dos muestras.

• Siempre se refiere a la aplicación de tratamientos o medidas en dos grupos diferentes.

Comparación de medias para dos grupos con datos apareados

En este caso, trataremos con muestras del mismo tamaño; además, cada valor de la primera muestra corresponde precisamente un valor de la segunda. Comúnmente, a este tipo de comparaciones se le denomina observaciones

apareadas, en virtud de que los elementos de una muestra son homogéneos respecto de la contrastante o son los mismos; sólo que el estímulo o tratamiento es diferente. En lugar de llevar al análisis con observaciones individuales, se utiliza como variable de interés la diferencia entre pares individuales de observaciones.

Sucede con frecuencia que no hay diferencias reales entre las poblaciones en lo que respecta a la variable de interés, pero la presencia de fuentes extrañas de variación provocan el rechazo de la hipótesis nula de no diferencia. Por otra parte, las diferencias reales pueden también ser enmascaradas por la presencia de factores extraños.

El objetivo en las pruebas de comparaciones apareadas es eliminar un número máximo de fuentes de variación extraña, haciendo a las parejas semejantes con respecto a tantas variables como sea posible. Las observaciones apareadas pueden obtenerse de varias formas. Los individuos pueden registrarse antes y después de recibir algún tratamiento. Camadas del mismo sexo pueden ser asignadas al azar para que reciban algún tratamiento. Parejas de gemelos o hermanos pueden ser asignados al azar para que reciban dos tratamientos. O siendo más explícitos; la respuesta de un cordero a una dieta antes y después de la aplicación de un medicamento; o la producción de un árbol antes y después de la poda. La hipótesis planteada lógicamente será la misma:

Ho: µi = µj


Ha: µi ≠ µj

Pasos Para Realizar Prueba De Medias Apareadas

1. Identificar los tipos de muestra.

2. Cálculos estadísticos

• Calcular la media para cada uno de los grupos jYyiY

• Calcular diferencias ji yyd −=

• Calcular diferencias al cuadrado d2

• Hallar sumatoria de d y d2

• Hallar promedios para d ( )d

3. Planteamiento de hipótesis para medias

Ho=µi = µj

Ha=µi ≠ µj

4. Comparación de medias (t-student)

t

)1(

)( 2

2

−

−

=∑∑

nn

n

dd

dc

i

i

tα= (n-1)gl

5. Comparación y regla de decisión.

6. Análisis y Conclusiones.

Ejemplo. Las curvas de crecimiento de plantas de sorgo forrajero (Sorgum bicolor) arrojaron los siguientes datos como máximo de altura prefloración (cm), para identificar si existe diferencia en producción de forraje entre plantas germinadas y plantas rebrotadas después del primer corte. Cabe anotar que para el estudio se tuvieron en cuenta las mismas plantas.

1. Identificación de la muestra. Teniendo claro que se utilizaron las mismas plantas en el mismo cultivo y por tanto se guarda homogeneidad en las unidades experimentales, se pude clasificar esta comparación de dos muestras con observaciones apareadas.

2. Cálculos estadísticos.


OBSERVACIONES DE DOS MUESTRAS APAREADAS.

Germinadas (yi)

Rebrotadas (yj)

Diferencias (d) Yi –Yj

d2

105 96 9 81 89 90 -1 1 78 92 -14 196

120 98 22 484 115 94 21 441 114 90 24 576 102 96 6 36

87 93 -6 36 95 97 -2 4 96 94 2 4

105 96 9 81 79 89 -10 100 88 91 -3 9 92 90 2 4

103 92 11 121 106 96 10 100 112 98 14 196

97 95 2 4 102 94 8 64

18851

=∑=

n

n

iy ∑=

=n

n

yj1

1781 1041

=∑=

n

n

id 25381

2 =∑=

n

n

id

21,99=iY 74,93=jY 47,5=id 58,1332 =i

d

3. Planteamiento de hipótesis: a partir de este tema, es necesario iniciar el proceso de formulación y redacción de hipótesis. Para el ejemplo, se presentan dos formas de plantear las hipótesis.

Ho=µi = µj.

• La altura máxima promedio de crecimiento (cm) de sorgo forrajero germinado y rebrotado en el primer corte es igual estadísticamente.

• Se estima que la altura (cm) de crecimiento máximo en prefloración de plantas sorgo forrajero germinado y los mismas rebrotadas después del primer corte no tienen diferencias estadísticamente significativas.

Ha: µi ≠ µj:


• La altura máxima promedio de crecimiento (cm) de sorgo forrajero germinado y rebrotado en el primer corte es diferente.

• Se estima que la altura (cm) de crecimiento máximo en prefloración de plantas de sorgo forrajero germinado y los mismas rebrotadas después del primer corte tienen diferencias estadísticamente significativas.

4. Comparación de medias (t-student)

)1(

)( 2

2

−

−

=∑∑

nn

n

dd

dtc

i

i

tα (n-1gl)

)119(19

19

1042538

47,5

2

−

−

=tc t0.05(18)=2.10

)119(19

19

108162538

47,5

−

−

=tc

342

73,1968

47,5=tc

756,5

47,5=tc

39,2

47,5=tc

27,2=tc

5. Comparación y regla de decisión.

tc =2,27 > t0.05(18)=2,10; por lo tanto se rechaza H0

6. Análisis y Conclusiones.


Estadísticamente al 95% de confiabilidad, se estima que la altura máxima promedio (cm) alcanzada por el sorgo antes de cortar y en el rebrote del primer corte es estadísticamente diferente. Esto indica que si se tiene en cuenta que el

sorgo antes de cortar tiene un promedio de 99,21±11,85 cm, es mayor que en el

rebrote 93.74±2.86; lo cual significa que con la primera producción se puede obtener mayor cantidad de forraje, pero también con mayor variabilidad como lo muestra la desviación estándar.

Lección 14: Análisis de varianza

El análisis de varianza fue ideado por Sir Ronald Fisher en 1925. Esta técnica estadística ha resultado de gran aplicación en aquellas investigaciones que tienen como propósito analizar los efectos de uno o más factores sobre el comportamiento de una cierta característica. En sus inicios se aplico básicamente en el campo de la experimentación biológica, y muy especialmente en la agricultura; pero hoy en día es utilizada con éxito en diferentes ramas del trabajo experimental. Puede considerarse además, que esta técnica ha contribuido al desarrollo de algunos métodos estadísticos, entre ellos, en los llamados métodos de regresión, y que una de sus más frecuentes aplicaciones se encuentra en el propio diseño de experimentos.

Su aplicación en el diseño de experimentos se debe a que el análisis de varianza es considerado como una de las técnicas más útiles para aumentar la sensibilidad de dicho diseño, ya que a través de él se puede suprimir las variables que intervienen en un fenómeno dado y que no son de la importancia experimental.

El análisis de varianza, es esencialmente un procedimiento aritmético que descompone una suma total de cuadrados en componentes asociados con fuentes de variación reconocida. Se ha usado con provecho en todos los campos de la investigación en los que los datos se miden cuantitativamente.

Supuestos del análisis de Varianza

• Aditividad.

La aditividad se refiere a que los efectos de las diferentes fuentes de variación pueden sumarse para explicar la variabilidad entre las observaciones. De este


modo, cualquier unidad experimental puede considerarse como una suma de componentes a través de un modelo lineal aditivo. Un caso común de no aditividad se presenta cuando los efectos son de tipo multiplicativo. La falta de aditividad en los efectos conduce a cierto grado de heterogeneidad en el error, no permitiendo estimar una varianza común para todos los tratamientos, por lo cual puede ocasionar niveles falsos de significancia para la comparación de los efectos de tratamiento. La falta de aditividad puede probarse mediante el método propuesto por Tukey (1949).

• Normalidad. Los errores experimentales y por lo tanto las observaciones deben presentar distribución normal. Este supuesto se requiere para sustentar las pruebas de hipótesis y los intervalos de confianza aunque no es necesario para la estimación de las varianzas. Afortunadamente en la mayor parte de los casos prácticos este supuesto se cumple en forma aproximada, lo cual se debe a que la distribución normal es muy común en la naturaleza, especialmente cuando se estudian variables continuas, además, el teorema del límite central permite aproximar a la normal la mayor parte de los promedios.

• Independencia. Se supone que los errores que afectan las unidades experimentales son independientes. La distribución al azar (aleatorización) de los tratamientos sobre las unidades experimentales (teniendo en cuenta las restricciones de cada diseño), se considera como una medida adecuada para garantizar este supuesto.

• Homogeneidad de varianzas. Supone que las varianzas dentro de cada tratamiento son homogéneas, o sea que constituyen estimaciones de una varianza común de errores.

Cuando se presenta la heterogeneidad de varianzas puede ser de dos tipos, regular o irregular. En el tipo regular generalmente existe cierta relación funcional entre las medias de los tratamientos y las varianzas, por ejemplo en las ciencias biológicas se encuentra con alguna frecuencia una correlación positiva entre la media y la varianza, o sea que grupos de organismos con medias grandes tienden a tener varianzas grandes y viceversa. Este problema puede solucionarse aplicando una transformación apropiada a los datos, de tal manera que en la variable transformada resulten independientes (o casi independientes) estos parámetros.

En el tipo irregular, ciertos tratamientos poseen considerablemente mayor variación que otros sin que exista una relación clara entre media y varianzas. En este caso a veces es posible descartar ciertos tratamientos


responsables de la heterogeneidad y analizar los restantes o dividir el error en grupos y hacer las comparaciones entre los tratamientos de cada grupo donde las varianzas resulten homogéneas.

Para verificar si se cumple el supuesto de homogeneidad de varianzas se han propuesto diferentes pruebas, tales como la de Hartley descrita en forma detallada por Gill (1978) que involucra la relación entre la varianza mayor y la varianza menor de los diferentes grupos. Sin embargo la más generalizada es la de Barlett (1937) que puede utilizarse para tratamientos con desigual numero de replicaciones.

Lección 15: Análisis de Covarianza

El análisis de covarianza es un procedimiento muy importante en experimentación. Utiliza el análisis de varianza y el de regresión para eliminar la variabilidad que existe en la variable independiente X; también ajusta medias de tratamiento y así estima mucho mejor el efecto de la variable independiente X sobre la variable dependiente Y.

El análisis de covarianza trata de dos o más variables medidas y donde cualquier variable independiente medible no se encuentra a niveles predeterminados, como en un experimento factorial. Este aparte trata de la covarianza lineal. A menudo, una relación lineal es una aproximación razonablemente buena para una relación no lineal con tal que los valores de las variables independientes no cubran un intervalo muy amplio.

La variable independiente X es una observación hecha en cada unidad experimental antes de aplicar los tratamientos, e indica hasta cierto grado la respuesta final Y de la unidad experimental. Por ejemplo, en un experimento con cerdos se tienen pesos iniciales X, y consumo de alimento Y; si se hubieran usado varias raciones las diferencias entre sus efectos podrían o no ser significativas, es decir, puede o no haber diferencias en cuanto a la calidad de las raciones. Sin embargo, antes de llegar a conclusiones hay que preguntarse, de existir la variación de los pesos iniciales de las camadas, la diferencia en los pesos finales de los cerdos se puede atribuir a la bondad de alguna de las raciones?, O alguna parte en las diferencias en los pesos finales se debe a la diferencia en los pesos iniciales de dichas camadas? Con respecto a esta ˙última pregunta se sabe que los lechones de mayor peso al nacer son más agresivos y,


en consecuencia, consumen mayor cantidad de alimento y aumentan de peso con mayor facilidad que los lechones pequeños de poco peso.

Al ajustar los valores de Y, de acuerdo con los valores correspondientes de X, es posible analizar con mayor precisión los resultados del ensayo. Por medio del análisis de covarianza se puede calcular y eliminar la parte correspondiente a las diferencias en los pesos iniciales. En general, en ensayos de alimentación con animales, las diferencias entre medias de tratamiento no ajustadas se deben al valor nutritivo de las raciones, a la cantidad consumida por los animales, o a ambas causas. Si se ajustan las diferencias de aumento de peso a un peso inicial común y se aplican las raciones, las medias ajustadas indicaran si en realidad las dietas tienen valor nutritivo diferente.

Usos del análisis de Covarianza

Los usos más importantes del análisis de covarianza son:

1. controlar el error y aumentar la precisión

2. Ajustar medias de tratamientos de la variable dependiente a las diferencias en conjuntos de valores de variables independientes correspondientes.

3. Ayudar en la interpretación de los datos, especialmente en lo concerniente a la naturaleza de los efectos de los tratamientos.

4. Particionar una covarianza total o suma de productos cruzados en componentes.

5. Estimar datos faltantes.


UNIDAD 2. DISEÑO DE EXPERIMENTOS

CAPITULO 4: Diseño de experimentos

Lección 16: El experimento y sus elementos

¿Qué es un experimento?

Experimento, tiene dos acepciones, una general y una particular. La regla general se refiere a "tomar una acción" y después observar las consecuencias. Se requiere la manipulación intencional de una acción para analizar sus posibles efectos y la aceptación particular (sentido científico). "Un estudio de investigación en el que se manipulan deliberadamente una o más variables independientes (supuestas efectos), dentro de una situación de control para el investigador".

¿Cuál es el primer requisito de un experimento puro?

El primer requisito es la manipulación intencional de una o más variables independientes. La variable independiente es considerada como supuesta causa en una relación entre variables; es la condición antecedente, y al efecto provocado por dicha causa se le denomina variable dependiente (consecuente). El investigador no puede incluir en su estudio a dos o más variables independientes.

Un experimento se lleva a cabo para analizar si una o más variables independientes afectan a una o más variables dependientes y por qué lo hacen. En un auténtico experimento, la variable independiente resulta de interés para el investigador por ser la variable hipotética, que será una de las causas que producen el efecto supuesto. Para obtener respuesta de esta relación causal supuesta, el investigador manipula la variable independiente y observa si la dependiente varía o no. Manipular es hacer variar o dar distintos valores a la variable independiente.

La variable dependiente se mide, no se manipula. Se mide para ver el efecto de que la manipulación de la variable independiente tiene de ella.

La manipulación o variación de una variable independiente puede realizarse en dos o más grados. El nivel mínimo de manipulación es dos: presencia-ausencia de


la variable independiente. Cada nivel o grado de manipulación implica un grupo en el experimento.

Presencia-ausencia implica, un grupo a la presencia de la variable independiente y otro no. Luego los dos grupos son comparados para ver si el grupo que fue expuesto a la variable independiente difiere del grupo que no fue expuesto. Al primer grupo se le conoce como "grupo experimental" y al segundo se le denomina "grupo de control".

A la presencia de la variable independiente se le llama "tratamiento experimental" o "estímulo experimental".

En general, en un experimento puede afirmarse lo siguiente: si en ambos grupos todo fue "igual" menos la exposición a la variable independiente, es muy razonable pensar que las diferencias entre los grupos se deban a la presencia-ausencia de la variable independiente.

Manipular la variable independiente en varios niveles tiene la ventaja de que no sólo se puede determinar si la presencia de la variable independiente o tratamiento experimental tiene un efecto, sino también si distintos niveles de la variable independiente se producen diferentes efectos. Es decir, si la magnitud del efecto (Y) depende de la intensidad del estímulo (X1, X2, X3, etcétera). Debe haber al menos dos niveles de variación y ambos tendrán que diferir entre sí. Cuantos más niveles mayor información, pero el experimento se va complicando: cada nivel adicional implica un grupo más.

En ocasiones, la manipulación de la variable independiente conlleva una combinación de cantidades y modalidades de ésta. Finalmente, es necesario insistir que cada nivel o modalidad implica, al menos, un grupo. Si tiene tres niveles (grados) o modalidades, se tendrán tres grupos como mínimo.

Experimento aleatorio.

La investigación en las ciencias agropecuarias se caracteriza en parte porque se puede repetir bajo las mismas condiciones siguiendo un procedimiento estándar. En el caso de la aplicación de un insumo (nutrimento, fungicida, fitohormona, etc.) a una especie vegetal. De la única forma como un investigador puede obtener información de tal acción es inmediata la ejecución de un EXPERIMENTO. Cada experimento termina con un “resultado”, pero la característica de estos


experimentos es que el “resultado final” no se puede predecir con seguridad, sino hasta la realización del experimento.

Esta clase de experimento, con tres características esenciales: repetición bajo las mismas condiciones, desconocimiento del “resultado final” y conocimiento de todos los posibles resultados antes de la ejecución del experimento, se conoce como experimento aleatorio.

El propósito fundamental de la estadística es el de proveer modelos matemáticos para estos experimentos aleatorios. Una vez que se provee el experimento aleatorio de tal modelo, el estadístico y el investigador puede realizar la inferencia (inducción–deducción), acerca del experimento aleatorio en cuestión. Un alto porcentaje de la generación de tecnología en las ciencias agropecuarias está basado en experimentos aleatorios. Con estas notas se buscará fundamentalmente, establecer los diferentes modelos estadísticos que se adecuan a este tipo de experimentos.

Además de la caracterización del experimento aleatorio. Se define el concepto de experimento como tal. La palabra EXPERIMENTO, para nuestro propósito, es un ensayo físico, planeado con el fin de confirmar los resultados de experimentos anteriores o como resultado de la formulación de una hipótesis a ser probada mediante procedimientos experimentales. Con los experimentos se genera la tecnología, los cuales contribuyen a la solución de los problemas del sector agropecuario.

Los experimentos, en general se pueden dividir en tres amplias categorías, así: básicos, críticos y demostrativos. En un experimento básico el investigador prueba un gran número de tratamientos con el objetivo de tener guía para trabajos futuros o bien es aquel que conduce a la obtención de nuevos conocimientos a partir de los cuales se desarrolla la investigación aplicada.

En experimentos críticos, el investigador compara la respuesta diferentes tratamientos, usa un mayor número de observaciones para asegurar mas la bondad de un conjunto de tratamientos sobre otro conjunto particular, se busca obtener conocimiento de origen: nuevos insumos, bienes o servicios, los cuales conducen a que se incorpore una tecnología y practicas adecuadas dentro de los diferentes sistemas de producción.

Los demostrativos ocurren ya con agentes de extensión donde se compara lo obtenido en una granja experimental contra un estándar regional de amplio uso; es una etapa fundamental dinámica y se basa en adecuar la tecnología básica a nivel de los sistemas de producción local.


Se puede agregar que cada experimento es un conjunto de respuestas a una o más preguntas. Con esto en mente el investigador decide qué comparación de tratamientos produce la información más relevante. Se conduce entonces un experimento para medir o probar hipótesis sobre diferencias entre los tratamientos bajo condiciones comparables, se toman observaciones y medidas sobre el material experimental.

En general, el objetivo de un experimento agropecuario o ambiental es obtener información (datos) que resuelva un limitante tecnológico en una especie animal, vegetal parámetro ambiental o dar solución a un interrogante ya planteado en investigaciones anteriores. En consecuencia, un buen diseño experimental es el resultado de un análisis muy preciso del problema o limitando tecnológico. Al estadístico con frecuencia se le solicitara asesoría para hacer inferencias (inducciones y deducciones) de los resultados experimentales. Puesto que las inferencias que se puedan hacer dependen solamente de la forma como se ejecuto el experimento, el asesor requerirá de una descripción detallada del ensayo y sus objetivos. Entonces es posible que no se puedan hacer las inferencias requeridas y aquellas variables no responden a los interrogantes planteados por el investigador; es decir, un refinamiento que se proponga en la técnica estadística, no sustituye la claridad que se tenga a la problemática. La estadística provee de herramientas que facilitan y otorgan medios a la solución del interrogante planteado, pero no que decida sobre el problema como tal.

En un diseño de experimentos, se establecen los objetivos, se clasifican los interrogantes, se plantean las hipótesis, se estiman los efectos, se jerarquizan los objetivos y finalmente con base al análisis se producen las recomendaciones.

Lección 17: ORIENTACIONES GENERALES EN LA EXPERIMENTACION AGRICOLA En la planificación agrícola o biológica y en el desarrollo de una investigación en particular, son de interés las siguientes aspectos:

a. Especificar los problemas, con el fin de probar hipótesis o encontrar respuestas. Es necesario considerar que los experimentos sean:

� Experimentos simples, cuando se estudia un solo factor de variación; por ejemplo, probar cinco variedades de sorgo, estudiar cinco dosis de nitrógeno en trigo, etc.

� Experimentos factoriales, cuando se estudian simultáneamente dos o más factores que influyen en la producción; por ejemplo, estudiar tres


variedades, cada una sembrada a tres densidades de siembra, o bien tratamientos de fósforo, nitrógeno y potasio, cada uno a cuatro dosis por unidad de superficie.

b. Ubicar el lugar adecuado para la realización de los experimentos, para lo cual se debe elegir una localidad accesible y representativa de áreas agrícolas, de suelo uniforme, con unidades experimentales lo más uniforme posible, y escoger el material adecuado para experimentos, de manera que pueda estratificarse (agruparse unidades experimentales con características homogéneas) el terreno correctamente para formar grupos uniformes y de fácil manejo.

c. Reducir las fuentes de error, tanto del experimento como de aquellos errores o equivocaciones operacionales. Es muy importante que en la selección de datos, muestreo, etc., el personal responsable esté constituido por técnicos o personas con entrenamiento.

d. Mantener constante los diversos factores que pueden afectar a la producción o a la calidad del producto, de manera que los únicos factores de variación sean los tratamientos objeto de estudio.

e. Extremar precauciones y ser cautos en los resultados experimentales, considerando que un experimento es una observación de una muestra en una población de experimentos.

f. Repetir experimentos uniformes en diferentes localidades, suelos y años.

g. Tener conocimiento de la tecnología de campo y saber cuáles son los problemas del productor.

En la planeación o diseño de un experimento agronómico, es necesario aplicar un conjunto de disciplinas y conocimientos biológicos con el fin de encontrar una respuesta correcta a un problema específico. Por ejemplo, si se comparan diversas variedades de trigo, todos los factores de la producción que influyen en el comportamiento de las variedades deben permanecer constantes y las únicas fuentes de variación o diferencias serán presentadas por las variedades de trigo, si tales fuentes existen. Para lograr lo anterior, es necesario contar con ciertos conocimientos sobre:

a) Suelos, a fin de elegir el terreno más uniforme y adecuado para realizar el experimento.

b) Fertilización, para cuando sea necesario planear experimentos con fertilizantes químicos orgánicos o abonos orgánicos.


c) Topografía e hidráulica, para trazar parcelas, niveles, riegos, etc.

d) Especialidades afines como: Botánica, entomología, fitopatología, fisiología, genética, ecología, etc. para poder trabajar con seres vivos.

e) Tecnologías de Cultivos, sistemas agroforestales, agrosilvo pastoriles y zootecnia, para manejar las unidades experimentales.

f) Estadística (biometría o bioestadística), para evaluar y separar las diversas causas de variación y para realizar la interpretación de los resultados experimentales.

Pasos al planear un experimento:

El método científico sugiere que en el planeamiento de la experimentación se debe tener presente las siguientes etapas:

• Definir el problema: En esta etapa se debe determinar los antecedentes, importancia, objetivos, hipótesis a probar y revisión de la bibliografía.

• Planeamiento y diseño del experimento: En esta etapa se debe tener en cuenta: Lugar de ejecución del experimento, tamaño de la parcela o unidad experimental, número de repeticiones por tratamiento, equipos e instrumentos a utilizar y métodos de evaluación de los resultados

• Ejecución del experimento.

• Recolección de datos del experimento.

• Ordenamiento de la información experimental.

• Discusión de los resultados obtenidos.

• Análisis económico de los tratamientos que se probaron y utilidad práctica.

• Conclusión final y recomendación.

Lección 18: Diseño experimental.

Kempthorne (1952) plantea que el experimento general del método científico es formular hipótesis y después verificarlas mediante la experimentación o medir sus consecuencias. Para hacer la verificación se requiere de la observación y es el


diseño de experimentos quien señala la forma como provienen esas observaciones. El diseño experimental permite establecer si una hipótesis puede ser verificada o no, de si las observaciones que se toman son relevantes con la hipótesis y capaces de dar las respuestas correctas a lo que se plantea. Observaciones que se toman de cierta forma no proveen la información necesaria para probar una hipótesis, mientras que si se toma de otra forma sirven para la verificación de la hipótesis. Kempthorne, agrega que una investigación estadísticamente diseñada consistiría de los siguientes pasos:

1- Establecer el problema.

2- Formular las hipótesis.

3- Señalar la técnica y el diseño experimental.

4- Examinar los posibles resultados y revisar las razones del problema, para asegurarse de que el experimento le provee de la información adecuada a sus interrogantes.

5- Considerar los resultados desde el punto de vista de los procedimientos estadísticos que serian aplicados, para asegurarse de las condiciones necesarias para que estos sean validos.

6- Realizar el experimento.

7- Aplicar las técnicas estadísticas de los datos experimentales.

8- Obtener conclusiones, de acuerdo con la estimación estadística que se haga; se debe tener consideración cuidadosa de la validez de las conclusiones de acuerdo con la población para la cual se aplica.

9- Evaluación de toda la investigación, especialmente con otras investigaciones realizadas con el mismo o problemas similares.

Por diseño experimental se entenderá la forma o procedimiento de cómo se asignan los tratamientos a las unidades experimentales o bien la restricción que se hace al asignar los tratamientos a las unidades experimentales.

Unidad experimental y tratamiento

Una unidad experimental es una unidad material (física biológica) a la cual se aplica un tratamiento el tratamiento es un procedimiento o estimulo, cuyo efecto se desea medir o comparar con otra serie de tratamiento.


La unidad experimental puede ser un animal (vaca, novilla, pollo, árbol, muestra de agua, muestra de suelo, etc.) o grupo de las anteriores especies, una parcela, plantas de maíz, fríjol, naranja, etc. Al seleccionar un conjunto de tratamientos es importante definirlos clara y precisamente con cada uno de ellos y considerarlos uno con respecto a los demás y así dar una respuesta eficiente a los objetivos de experimentación.

Error experimental

En general una característica de las unidades experimentales usadas en investigaciones agropecuarias, es la variación existente en las unidades cuando se ejecutan las medidas pertinentes. La variabilidad de las unidades experimentales en las ciencias agropecuarias es el producto de su misma constitución: son seres vivos y en ellos su condición natural es la variabilidad, dinámicos en su expresión, los resultados finales de un experimento son inciertos, se requiere de la probabilidad para medir su incertidumbre y en consecuencia de modelarlos a través de los así llamados experimentos aleatorios. A esta variabilidad Cochran y Cox (1952) la denominaron variabilidad inherente o propia del material experimental. La incertidumbre del resultado final o variabilidad propia de las unidades experimentales, se conoce estadísticamente como error experimental. También se interpreta como error experimental al hecho por el cual las unidades experimentales no producen los mismos resultados aun así estén tratadas igualmente y manejadas bajo las mismas condiciones experimentales. Existe otra variabilidad en la experimentación agropecuaria y es la resultante de no conducir técnica o adecuadamente el experimento, son los errores de medición, de atención, de la falla en la técnica experimental de campo o laboratorio que ocurre al desarrollo de un experimento. Es de vital importancia hacer todos los esfuerzos posibles para reducir el error experimental, para mejorar así la eficiencia de la investigación y asegurar el éxito de la misma. Esto se puede obtener si se considera:

1- Tomar material experimental en el cual la variabilidad que lo caracteriza sea mínimo.

2- Refinar la técnica experimental de campo o laboratorio.


Replicación y su función

Cuando un tratamiento se aplica más de una vez, se dice que el tratamiento se ha replicado.

Las funciones de la replicación son:

1- Proveer de un estimativo del error experimental.

2- Mejorar la precisión del experimento al reducir el error estándar del promedio de un tratamiento.

3- Aumentar el alcance de la inferencia del experimento, seleccionar y usar el número apropiado de unidades experimentales.

La estimación del error experimental es necesaria para ejecutar las pruebas de hipótesis y para establecer los intervalos de confianza para los promedios. Un experimento en el cual el tratamiento aparece solo una vez se dice que es un experimento y una replicación o repetición; de este experimento no se logra una estimación del error experimental; aquí es posible observar la diferencia entre tratamientos es debida a la naturaleza de una unidad experimental. En otras palabras, cuando no exista un, método de estimar el error experimental no hay forma de determinar si las diferencias observadas son debidas a los tratamientos o son causa de la estructura de la unidad experimental.

Cuando el número de replicaciones se incrementa, los estimadores de los promedios son más precisos, así si n aumenta y el error tiende a decrecer.

En cierto tipo de experimentos, la replicación indica un enlace mayor de la inferencia estadística. Por ejemplo, deseamos saber si existe un efecto real de un nutriente sobre dos razas diferentes. Si el objetivo del experimento es sacar conclusiones sobre ambas razas, es obvio que dichas razas deben estar en un periodo de años. La razón es obvia puesto que las condiciones varían de un año a otro y es importante conocer el efecto de los años sobre los diferentes tratamientos, puesto que las recomendaciones usualmente son hechas para los años futuros. Igualmente se usan diferentes localidades para evaluar los tratamientos bajo los diferentes ambientes. Las replicaciones en el tiempo (años) y en el espacio (localidades) son consideradas como “repeticiones” y su propósito es el de aumentar el alcance de la inferencia. Los mismos principios se usan con frecuencia en experimentos de laboratorio.


Control del error experimental.

El error experimental puede ser disminuido mediante los siguientes pasos:

1. Diseño experimental.

2. Uso de información adicional.

3. Tamaño y forma de la unidad experimental.

1. El uso del diseño experimental como un medio de reducir el error experimental ha sido ampliamente investigado desde los años veinte del año actual. Esta es una materia de alta discusión y solo se presenta y solo se presentan principios básicos. Para ver Cochran y Cox, Federer y Kempthorne.

El control del error por medio del diseño consiste en planear de tal forma que la variación natural en las unidades experimentales no contribuyan a falsear la diferencia debido a tratamientos cuando, por ejemplo, las unidades experimentales se agrupan en bloques (un bloque que posea todos los tratamientos), de tal forma que la variación entre las unidades del bloque sea menor que entre bloques, la precisión del error experimental incrementa. Tales bloques se denominan replicaciones. El error experimental se basa el la variación de las variación de las unidades dentro del bloque, puesto que la variación entre bloques puede ser eliminada.

Cuando el número de tratamientos se aumenta, el número de unidades por bloque se incrementa.

Ciertos diseños permiten dividir los bloques en sub-bloques los cuales poseen una porción total de tratamientos. Tales diseños se denominan diseños de bloques incompletos donde la precisión de ciertas comparaciones se incrementa a expensas de otras

2. Uso de información adicional. En muchos experimentos la precisión se puede aumentar mediante el uso de una técnica estadística llamada covarianza.

Unos de los principales ejemplos de covarianza es el peso inicial de los animales, la edad de los animales y el número de partes al inicio del ensayo.

3. Tamaño y forma de la unidad experimental. El tamaño óptimo de una parcela en la experimentación de un cultivo particular depende de factores como la forma de la variabilidad del suelo y el costo de los procedimientos experimentales, los cuales son determinados por los tratamientos, se debe agregar que existe


variación de año a año en las parcelas donde se experimenta, como resultado de las condiciones ambientales que interactúan con la fertilidad natural de las parcelas.

En los experimentos agronómicos existen los llamados ensayos en blanco o de uniformidad los cuales conducen a determinar el tamaño y la forma de la parcela experimental, al igual que el número de repeticiones. Otros factores de importancia son la clase de cultivos, el número de variedades o tratamientos, clase de maquinaria agrícola a usar, costo de mano de obra y presupuesto con que se cuenta.

Parcelas pequeñas serian convenientes, cuando un número alto de tratamientos se están comparando, o cuando por ejemplo se dispone de muy poca cantidad de semillas.

Selección de tratamientos

En casi la totalidad de las investigaciones agropecuarias y ambientales (variables biológicas), los tratamientos son los entes que van a solucionar los limitantes tecnológicos planteados en el estudio; son hasta cierto punto la hipótesis o supuestos del problema. En consecuencia, son muy importantes en el concepto de la investigación; se requiere un serio análisis para su selección, debe dedicarse un buen tiempo de reflexión, revisión bibliográfica, para tener antecedentes de los mismos y así hacer una buena decisión de aquellos que hagan parte de la experimentación final. El investigador debe plantearse una pregunta como: ¿es necesario testigo?, ¿Cuál?, ¿el del productor convencional?, ¿el comercial?, ¿se adiciona o sustrae A o B tratamientos, se resuelven las hipótesis planteadas?, ¿o hacen más complejos los interrogantes?.

La consulta al estadístico, en esta etapa de la experimentación, es de fundamental importancia y de gran ayuda para el investigador.

La selección de tratamientos es substancial para la precisión y conclusiones a llegar; en general, es el investigador quien mejor conoce sus tratamientos, este conocimiento es el que ayuda a menudo a decidir sobre la cantidad de dosis de un tratamiento particular.

Técnica experimental de campo

Una técnica cuidadosa en la conducción física del ensayo es básica para las conclusiones y recomendaciones finales del mismo. Es la responsabilidad del


investigador que cada paso de la experimentación debe ser ejecutado con el mayor cuidado posible para asegurarse así de buenos resultados. En general, la variación resultante de la no atención adecuada del experimento no es una variación aleatoria por tanto no sujeta las leyes de probabilidad en las cuales esta basada la inferencia estadística. Esta variación puede denominarse “incapacidad técnica”, en contraste con las variaciones mencionadas. Entonces se debe ser cuidadoso en:

• Tener unidades uniformes en el caso de que el diseño así les exija.

• Precisión en las cantidades de raciones o fertilizantes al suministrarlas a las unidades experimentales.

• Es fundamental el manejo uniforme a todo grupo de unidades del experimento.

• Asegurarse en que los técnicos ejecuten las medidas con la precisión necesaria.

• Tomar las observaciones en el momento adecuado y preciso (las plantas y los animales no tienen días festivos)

• Asegurarse de que se transcriban correctamente las informaciones tomadas.

Aleatorización

La principal función de la aleatorización es la de proporcionar estimadores insesgados para los promedios y la validez de las pruebas de hipótesis. La aleatorización es una de las nuevas características de los modernos diseños experimentales. La idea y estructuración de la misma se debe a Fisher. Generalmente envuelve procedimientos como el lanzamiento de una moneda, o el uso de tablas de números aleatorios y se define como el procedimiento mediante el cual se asignan los tratamientos a las unidades experimentales según el diseño empleado.

Hay que tener en cuenta que cada tratamiento debe tener igual oportunidad de ser asignado a cualquier unidad experimental, sea ella favorable o no. Cochran y Cox señalan: “la aleatorización es análoga a un seguro, en el sentido de que es una precaución contra eventualidades que pueden o no ocurrir y que pueden ser o no serias si ocurren”.


La Idea De Significancia Estadística

Pearse (1976) presenta el siguiente razonamiento al término estadístico “significativo y no significativo”. Suponga que en un experimento se encontraron diferencias estadísticas al nivel del 1%. Esto entonces significa que el investigador tiene que escoger una de dos alternativas completamente incompatibles y tiene que aceptar que la diferencia se debe al efecto de los tratamientos o que el resultado es una coincidencia de uno en cien. En efecto, un nivel de significancia indica que una probabilidad muy baja de que tal coincidencia ocurra, lo cual es diferente a lo que se espera como resultado de tratamientos.

Para mayor claridad, significativo al 1% no quiere decir que existe una probabilidad del 99% de que las diferencias corresponden a lo encontrado en el experimento.

Por otra parte, cabe anotar que la selección que haga el investigador dependerá de la naturaleza de los tratamientos y de sus conocimientos. Así por ejemplo suponga que a un grupo de plantas se les ha humedecido un tratamiento y que estas produjeron más que el grupo control. Si dicho tratamiento hubiese sido una invocación y una danza ritual a la diosa luna un investigador podría en algún momento pensar en la invocación y danza ritual a la diosa luna como explicación al mayor rendimiento.

El investigador daría el redimiendo por la aplicación de sulfato de amonio y no por la invocación claro que es visto que las dos razones tienen su interpretación. En general si (p < 0,05) la evidencia en favor de una diferencia verdadera, es suficientemente fuerte para merecer su publicación.

1. si (p < 0,01) el efecto se considera bien establecido.

2. si (p < 0,001) la evidencia se considera como real

Lección 19: Modelo estadístico

TIPOS DE MODELOS ESTADISTICOS

De acuerdo a la selección de los tratamientos y otros factores se tiene la siguiente clasificación:

Modelo I (Efectos Fijos):


Se presenta cuando los tratamientos y demás factores que intervienen en un experimento son fijados por el investigador; es decir, no se efectúa una elección aleatoria. En estos casos las conclusiones del análisis de variancia solamente son válidas para los tratamientos y otros factores usados en el experimento. En el presente trabajo se ha considerado únicamente el caso de modelo de efectos fijos, por ser el que se presenta con mayor frecuencia en la experimentación agraria.

Modelo II (Efectos aleatorios):

Se presenta cuando los tratamientos y demás factores que intervienen en un experimento son elegidos al azar de una población. En estos casos las conclusiones del análisis de variancia son válidos, tanto para los tratamientos y demás factores usados, asi como para todas las poblaciones de tratamientos y factores.

Modelo III (Modelo Mixto):

Este modelo es la combinación de los dos anteriores y se presenta cuando algunos factores son fijados y otros son elegidos al azar. En estos casos las conclusiones del análisis de variancia se- rán válidas para toda la población de factores cuando estos son elegidos al azar, y solamente para los factores usados cuando estos son fijados

SUPUESTOS ACERCA DEL MODELO ESTADISTICO

Los supuestos necesarios del modelo estadístico son:

� Aditividad: Los factores o componentes del modelo estadístico son aditivos, es decir la variable respuesta es la suma de los efectos del modelo estadístico.

� Linealidad: La relación existente entre los factores o componentes del modelo estadístico es del tipo lineal.

� Normalidad: Los valores resultado del experimento provienen de una distribución de probabilidad «Normal» con media y variancia 2 .

� Independencia: Los resultados observados de un experimento son independientes entre sí.

� Variancias Homogéneas (Homocedasticidad): Las diversas poblaciones generadas por la aplicación de dos o más tratamientos tienen variancias homogéneas (variancia común).


Lección 20: Transformación de datos

La razón principal de la transformación de datos es que de llevarse a cabo un análisis esta- dístico con resultados que no cumplan con los supuestos acerca del modelo estadístico, se puede llegar a una conclusión equivocada.

Un cambio de escala puede variar la media y la variancia de la variable así como su relación con respecto a otras variables. La forma de la distribución de una variable cambia con la escala. Mediante una transformación adecuada puede conseguirse que un variable que no se distribuye normalmente pase a tener una distribución casi normal. Las poblaciones con variancias desiguales pueden convertirse en homocedásticas (variancias homogéneas) mediante una transformación apropiada.

Las transformaciones más usadas son:

a. Transformación logarítmica

El modelo lineal (por ejemplo Yij = µ + i + j + eij) indica que el efecto del bloque , el efecto del tratamiento y el error experimental, son todos ellos aditivos. Si los bloques y los tratamientos aumentan o disminuyen las mediciones en un determinado porcentaje en lugar de una determinada cantidad, entonces se dice que los efectos son multiplicativos y no aditivos. En estos casos, una transformación logarítmica transformará en aditiva la relación multiplicativa y en consecuencia el modelo lineal podrá ser aplicado a los nuevos datos.

Para ciertos tipos de análisis, el investigador prefiere la escala que elimina las interacciones mientras que para otras puede preferir la escala que restituye los efectos lineales. Lo que hay que recordar es que la relación entre las variables está muy influenciada por las escalas con las que se miden dichas variables. Las interpretaciones de los datos sólo son válidas en relación con la escala particular adoptada en un caso determinado.

b. Transformación de la raíz cuadrada

Cuando los datos están dados por números enteros procedentes del conteo de objetos, como por ejemplo el número de manchas en una hoja o el número de bacterias en una placa, los números observados tienden a presentar una distribución de Poisson más que una distribución normal. Las consideraciones


teóricas conducen a la transformación de la raíz cuadrada de los números observados. Normalmente esta transformación determina que las variancias de los grupos sean más iguales. También es aplicable a las distribuciones sesgadas puesto que acorta la cola larga.

Si y es el número observado, para el análisis estadístico y la prueba de significación utiliza- remos y1/2 . Cuando los números observados son pequeños (de 2 a 10), se prefiere la transformación (y+0.5)1/2, en especial cuando algunos de los números observados son cero.

CAPITULO 5: Clases de Diseños experimentales

Lección 21: Diseño Completamente al azar

Características generales del diseño completamente al azar

En la actualidad los investigadores de las ciencias agrícolas, pecuarias y ambientales (en general las que tengan están relacionadas con variables biológicas) están interesados en detectar diferencias estadísticas, tan pequeñas como sean posibles. Para su obtención se requiere del uso eficiente de diseño experimentales y métodos estadísticos, que reduzcan lo más efectivamente le error experimental. En el logro de este propósito, el análisis de varianza es una de las principales herramientas del investigador. Esta técnica se aplican en una amplia gama de experimentos, los cuales van desde la simple comparación de un par de tratamientos, hasta ensayos más complejos que envuelven varios factores como por ejemplo: raza, sexo, ambiente, manejo, especie, edad, finca, lote. La simple extensión de comparar tres o más tratamientos, constituyen el diseño experimental al azar.

El diseño completamente al azar es el más simple de todos los diseños que se utilizan para comparar dos o más tratamientos, dado que solo considera dos fuentes de variabilidad: Los tratamientos y error aleatorio. Por eso es común encontrar casos de uso y abuso de esta diseño en situaciones en las que no eran lo más adecuado, sobre todo porque había la presencia de otras fuentes importantes de variabilidad (Factores de bloque por ejemplo),por lo que al final se


tienen comparaciones burdas y no confiables de los tratamientos objeto del estudio.

Este diseño se llama completamente al azar por que todas las corridas experimentales se realizan en orden aleatorio completo, ya que al no haber bloques (generados por otro factor adicional al factor de interés), no existe ninguna restricción a la aleatorización. Más específicamente, si durante el estudio se hacen en total N pruebas estas se corren al azar, de manera que los posibles efectos ambientales y temporales se vayan repartiendo equitativamente entre los tratamientos.

Este tipo de diseño es el más simple de todos y también se le conoce con los nombres de diseño completamente randonizado o diseño completamente aleatorio o diseño de una sola vía. En él se asignan al azar los tratamientos a un grupo de unidades experimentales previamente determinadas. Asimismo todas las variables, excepto las que están en estudio, se mantienen constantes. Sin embargo R. A. Fisher señala que claramente que este tipo de diseño es inadecuado para muchos problemas de investigación, en virtud de que las leyes naturales de hecho son controladas e influenciadas por causas (variable)

Este diseño se puede aplicar a ensayos de campo cuando se cuente con condiciones de suele y ambientes relativamente uniformes. También en útil en experimentos con animales cuando existe cierta uniformidad bien sea genética, por peso, edad, etc.

En general este diseño no es el más adecuado para la experimentación de campo con plantas o animales mayores, pero es el más funcional para la evaluación de cierto tipo de tratamientos en laboratorios e invernadero o cuando dichos tratamientos son aplicados a unidades experimentales homogéneas.

El diseño experimental proporciona el máximo número de grados de libertad para la estimación del error experimental; además no requiere estimar datos faltantes; es decir el diseño puede analizarse con igual número de repeticiones por tratamiento (diseño balanceado) o diferentes números de repeticiones por tratamiento (diseño desbalanceado).

Ventajas

• No tiene límite en el número de tratamientos (tres o más), según se hayan planteado los objetivos de la investigación.


• El número de repeticiones puede variar dentro de cada tratamiento, aunque es preferible que el número sea igual.

• El análisis estadístico es sencillo aún cuando se hayan perdido una o más unidades experimentales.

• En condiciones homogéneas, se puede aplicar cuando aún cuando el material experimental es escaso.

• En cierta media, aunque puede ser una desventaja en confiabilidad, no requiere la medición de variables que influyen sobre los resultados y que pueden ser costosas o difíciles de medir por el uso de equipos o materiales especializados.

Desventajas

• La principal desventaja consiste en que a veces resulta ineficiente ya que toda la variabilidad resulta de unidades experimentales (exceptuando los tratamientos) y esta pasa a formar parte del error experimental.

• El grado de precisión de los resultados se pueden reducir por el efecto de aleatorización de las unidades experimentales, evitando que los tratamientos sean aplicado a unidades similares u homogéneas.

• Cuando el investigador no tiene experiencia en la decisión del modelo (diseño) a aplicar, tiende a tomar como única alternativa el Diseño completamente al alzar, sin ser el más confiable para el tipo de experimentación propuesta. En estos casos, se puede desconfiar de los resultados y creer que es el método el ineficiente, cuando realmente es que se ha tomado la decisión errada en la selección de método base de experimentación.

Modelo estadístico

Para este tipo de diseño (con igual o diferente número de repeticiones) se plantea estadísticamente el siguiente modelo matemático:

i =1,2,..,r repeticiones y

j = 1,2, Vt tratamientos.

Representa la observación de la repetición i-ésima en el tratamiento j-ésimo.


Es la media global de las poblaciones combinadas

Es el efecto producido por el tratamiento j-ésimo

Es el error experimental aleatorio en la observación

Llámese error a la cantidad en la que cualquier valor difiere de la media de su grupo y se representa con el símbolo εij. El término error no significa equivocación. Este término se utiliza para referirse a la variación no controlada que existe entre los miembros de cualquier población. Dada la población de plantas de maíz para ensilar (72 días), por ejemplo, se sabe que la altura de algunas plantas está por arriba de la altura media verdadera de la población, mientras que algunas alturas muestran lo contrario. Esta variación se debe a diversos factores hereditarios y ambiéntales. Si cualquier media de grupo, µj se le agrega un error dado, εij, el resultado será Yij, la observación que se desvía de la media del grupo por la cantidad εij.

Hipótesis y regla decisión

El propósito principal del análisis de varianza es descubrir las posibilidades entre los tratamientos para lo cual se requiere plantear una hipótesis nula y una alterna.

Hipótesis nula Ho. T = T. (igualdad)

Hipótesis alterna Ha T ≠ T (desigualdad)

Como regla de decisión se tendría.

Si Fc > Ft (α) se rechaza Ho

Si Fc < Ft (α) se rechaza Ha

Análisis de varianza.

FV

GL

SC

CM

FC

1-α

0,05 0,01

Tratamientos

Entre, factor A

t-1

tr

y

r

yt

i

i ...22

1

−∑=

1−t

SCttos

CMee

CMttos


Error experimental

n-t SCtotal – SC tratamientos )( tn

SCee

−

Total n-1 n

yY

r

i

k

j

ij

...2

1 1

2 −∑∑= =

Se cataloga como diseño completamente al azar desbalanceado el que por algunas circunstancias se han perdido unidades experiméntales o que al iniciar la experimentación se han tomado tratamientos con diferentes números de repeticiones. Como se puede ver en el análisis de varianza presentado anteriormente, la suma de cuadrados del error experimental está dividida sobre el número de repeticiones; el cual para un diseño balanceado sería uno solo, pero para un diseño desbalanceado, cada sumatoria se dividiría entre el número de repeticiones.

Una vez planteada la investigación, planteado el problema y definido el método estadístico a segur para el análisis de datos; incluido el diseño experimental, en forma práctica, se plantea una secuencia para desarrollar los cálculos del diseño experimental seleccionado. Estos pasos funcionan para todos los diseños que se plantearán en este módulo y es una metodología que aunque en algún momento para el experto puede resultar engorrosa, para el aprendizaje es válida ya que deja ver la secuencia de cálculos y facilita el entendimiento del proceso.

Es preciso recalcar que estos pasos se aplican una vez se hayan tomado los datos para aplicar los cálculos, aceptar o rechazar hipótesis y presentar resultados. A media que el investigador se vuelve experto en el manejo de datos, planteamiento y desarrollo de diseños, se pueden obviar pasos de los que se proponen a continuación:

1. Arreglo de campo.

2. Planteamiento de Hipótesis.

3. Cálculo del análisis de varianza.

4. Regla de decisión.

5. Comparación.

6. Conclusión.

7. Otros estadísticos (desviación estándar y coeficiente de varianza).

8. Cuadro de promedios.


9. Gráficas.

10. Análisis, conclusiones y recomendaciones.

Lección 22: Diseño en Bloques Completos al azar

Características del diseño de bloques aleatorizado.

De todos los diseños experimentales que se utilizan en la actualidad, parece ser que el Diseño de Bloques Completos Aleatorizados es el que hasta ahora se utiliza con mayor frecuencia. Este diseño fue desarrollado por el año de 1925 por R. A. Fisher, quien estaba buscando métodos para mejorar los experimentos en el campo de la agricultura. El nombre del diseño refleja su origen en los experimentos agrícolas, donde la tierra se dividía en bloques y éstos en parcelas que recibían los tratamientos bajo investigación.

El Diseño en Bloques Completos Aleatorizados (DBCA), también conocido como Diseño de Bloques Completamente Randonizados o diseño de dos vías, es un diseño en el que las unidades experimentales a las que se les aplican los tratamientos, se subdividen en grupos homogéneos llamados bloques, de modo que el número de unidades experimentales en un bloque es igual número de tratamientos que se están estudiando. Se asigna entonces al azar los tratamientos a las unidades experimentales dentro de cada bloque. Debe tenerse en cuenta que cada tratamiento aparece en todos los bloques y que cada bloque recibe todos los tratamientos.

El objetivo de utilizar el diseño en bloques completos aleatorizados es aislar y eliminar del término de error la variación atribuible a los bloques, a la vez que se asegura que las medias de los tratamientos estén libres de los efectos de bloque. La efectividad del diseño depende de la habilidad para lograr bloques homogéneos de unidades experimentales. La habilidad para formar bloques homogéneos depende del conocimiento del investigador sobre el material experimental. Cuando el diseño se utiliza apropiadamente, disminuye el cuadrado medio del error (CMEE) en la tabla ANAVA, aumenta la Razón de Varianzas (FC) y mejora la oportunidad de rechazar la hipótesis nula.

En experimentos con animales, si se tiene la sensación de que las diferentes razas de animales responderán de manera distinta al mismo tratamiento, la raza


del animal puede utilizarse como factor para formar bloques. Las camadas pueden utilizarse también como bloques, caso en el cual un animal de cada camada recibe un tratamiento. En experimentos en los que intervienen seres humanos, si se desean eliminar las diferencias que resultan de la edad, pueden agruparse entonces los individuos de acuerdo con su edad, de modo que una persona de cada edad reciba cada tratamiento. El diseño en bloques completos aleatorizados puede utilizarse también convenientemente cuando un experimento debe llevarse a cabo en más de un laboratorio (bloque), fincas, zonas, o cuando se requieren varios días (bloques) para concluirlo.

Se pueden resumir las características en:

• Los BLOQUES son conjunto de unidades experimentales seleccionadas con anterioridad.

• La variabilidad es minimizada dentro de los bloques (homogeneidad dentro de los elementos de cada uno) y maximizado entre bloque y bloque (se busca heterogeneidad).

• Los tratamientos se deben aplicar al mismo tiempo en cada bloque y el mismo número de veces.

• Los grados de libertad se reducen para controlar el error.

• La variabilidad del bloque se elimina a partir del error experimental. Cuando encontremos mayor variabilidad entre bloques mayor es la posibilidad de encontrar diferencia entre los tratamientos.

• Una vez conformados los bloques es aconsejable manejar cada uno de ellos como una unidad experimental para mantener su homogeneidad interna.

• El número de tratamientos debe ser el menor posible.

• En posible trabajar con bloques de igual número de elementos para evitar la variabilidad dentro del bloque.

• Es bueno diferenciar entre bloques, repeticiones o réplicas: Repeticiones: tiene que ver con el número de repeticiones de los tratamientos en un experimento. Bloques: implican la agrupación de unidades y se debe procurar la menor variabilidad dentro de cada uno.

• El número de repeticiones es igual al número de bloques

• En el análisis de varianza se consideran tres fuentes de variabilidad, el factor de tratamientos, el factor de bloques y el error aleatorio.


Ventajas

Algunas de las ventajas del diseño en bloques completos aleatorizados comprenden el hecho de que es fácil de comprender y sencillo de calcular. Además, ciertas complicaciones que pueden surgir en el curso de un experimento se resuelven fácilmente cuando se utiliza este diseño.

• En general es posible agrupar las unidades experimentales de modo que se logre mayor precisión con el diseño completamente aleatorizado.

• No hay restricción en cuanto al número de tratamientos o de bloques. Si se desea usar repeticiones adicionales para cientos tratamientos, esto se puede aplicar a dos o más unidades por bloque con aleatorización adecuada para dar un diseño de bloques completo al azar aleatorizado.

• Si faltan datos de unidades individuales pueden estimarse fácilmente de tal manera que no se pierda la comodidad en los cálculos.

• Si el error experimental es heterogéneo, puede obtenerse componentes no sesgados aplicables de comparaciones específicas.

Desventajas

La principal desventaja de los bloques completos al azar es que cuando la variación entre unidades experimentales dentro de un bloque es grande, resulta un término de error considerable. Esto ocurre frecuentemente cuando el número de tratamientos es grande; así puede no ser posible asegurar grupos de unidades suficientemente uniformes para los bloques. En tal situación, se dispone de otros diseños para controlar una mayor proporción de la variación.

Modelo estadístico.

Cuando se decide utilizar un diseño de bloques al azar el experimentador piensa que cada medición será el resultado del efecto del tratamiento donde se encuentre, del efecto del bloque al que pertenece y de cierto error que se espera sea aleatorio. Si actuara otro tipo de efecto o factor adicional a estos tres, dicho efecto se carga en el error, el cual deja de ser aleatorio y como consecuencia puede enmascarar el efecto del factor de interés al realizar el ANAVA.


De aquí la importancia de aplicar el principio de bloqueo evitando que otro factor no contemplado en el experimento afecte los datos del experimento

El modelo es semejante al modelo para Diseño Completamente Aleatorizado (DCA), la única diferencia es que se le agregado el efecto de los bloques.

Yij =µ + βi +τj +εij

i =1,2,..,n repeticiones

j = 1,2Vk tratamientos.

Yij = Es un valor típico de la población total.

µ = Es la media global de las poblaciones combinadas.

βi = Representa el efecto del bloque, que refleja el hecho de que la unidad experimental cayó en el i-ésimo bloque

τj = Representa el efecto del tratamiento, que refleja el hecho de que la unida experimental recibió el j-ésimo tratamiento.

εij = Es un componente residual que representa todas las fuentes de variación que no sean los tratamientos ni los bloques.

Hipótesis y regla decisión

La afirmación a probar es que las respuestas de media poblacional lograda con cada tratamiento es la misma para los k tratamientos y que por tanto cada respuesta media si es igual a la media global poblacional, De otra forma, se puede afirmar que todos los efectos de tratamiento sobre la variable de respuesta son nulos, por que cuando el efecto ti:µi-µ=0, entonces necesariamente la respuesta media del tratamiento es igual a la media global µi=µ.

Teniendo en cuenta que se analizan los tratamientos, sería:

Como hipótesis alterna, se tendría que por lo menos el promedio obtenido por un tratamiento es diferente a los demás o de otra forma se podría afirmar que por lo menos el promedio de un tratamiento e diferente al promedio de toda la población.

Como el diseño implica el análisis de un factor más que influye sobre los resultados de la experimentación, es necesario plantear hipótesis para este factor. Por lo tanto las hipótesis para los bloques, siendo similares las de tratamientos serían:


Como regla de decisión se tendría para tratamientos y para bloques.

Si Fc > Ft (α) se rechaza Ho

Si Fc < Ft (α) se rechaza Ha

Análisis de varianza.

FV

GL

SC

CM

FC

1-α

0,05 0,01

Tratamientos, factor A

t-1

tb

y

b

yt

i

i ...22

1

−∑=

1−t

SCttos

CMEE

CMttos

Bloques, factor B

b-1

tb

y

t

yt

i

j ...22

1

−∑=

1−tSCbloques

CMEE

CMbloques

Error Experimental

(t-1)(b-1) SCT–SCttos–

SCbloques. )( tn

SCEE

−

Total

n-1

n

yY

r

i

k

j

ij

...2

1 1

2 −∑∑= =

Lección 23: Experimentos factoriales

El experimento factorial puede ilustrarse mediante un ejemplo. Considérese un experimento para evaluar rendimientos de variedades de pastos. En el caso de un solo factor, todas las variables diferentes a las variables se mantienen tan uniformes como sea posible, esto es, se escoge un solo nivel de los otros factores. Supóngase que también es de interés un segundo factor, distancia entre surcos. Se puede planear un experimento con dos factores en que los tratamientos consisten en todas las combinaciones entre las variedades y los espaciamientos elegidos de los surcos, esto es, cada variedad se encuentra presente en todos los espaciamientos de surcos. En un experimento de un solo factor, todas las variedades se sembraran a un solo espaciamiento de un surco, o una sola variedad en todos los espaciamientos entre surcos. En suelos, puede diseñarse un experimento para comparar todas las combinaciones de varios niveles de fertilizante de fósforo y potasio. En un experimento de nutrición animal,


los factores en consideración pueden ser las cantidades y clases de suplementos de proteínas.

El termino nivel se refiere a los diferentes tratamientos dentro de un factor. Se deriva de alguno de los primeros experimentos factoriales. Estos trataban de fertilidad de suelos donde las combinaciones de diferentes cantidades, o niveles, de los diferentes fertilizantes eran los tratamientos. Hoy esa palabra tiene un sentido más general, que implica una cantidad o estado dados de un factor. Así, si se comparan 5 variedades de un cultivo, usando tres diferentes practicas de manejo, el experimento se llama experimento factorial 5 x 3, con cinco niveles del factor variedad y tres niveles del factor manejo. El número de factores y niveles que pueden compararse en un solo experimento solo se limita por consideraciones prácticas.

Así, un experimento factorial es aquel en el que el conjunto de tratamientos consiste en todas las combinaciones posibles de los niveles de varios factores. En la palabra factorial está implicado el concepto de diseño de tratamientos.

Notación y definiciones

Los sistemas de notación que se usan en experimentos factoriales son similares, pero presentan diferencias suficientes como para que el lector tenga que comprobar con cuidado cuando utilice nuevas referencias. Se sigue una notación parecida en muchos aspectos a la sugerida por Yates (1933). Las tres letras mayúsculas se usan para designar factores,

Arreglos Factoriales

A los diseños completamente aleatorios, bloques completos al azar, cuadrados latinos, cuadrados grecolatinos, e hipergrecolatinos se pueden utilizar para estudiar el efecto de un solo factor y eliminar el efecto de otros factores externos.

A un experimento, con la característica anterior, se lo denominamos experimento unifactorial. Cuando nos interesa estudiar el efecto simultaneo de dos o más factores, con diferentes niveles, a los cuatro diseños anteriores debemos agregarle lo que se denomina arreglo factorial o simplemente factorial.


Un investigador interesado en conocer, por ejemplo, el efecto de tres factores que tienen dos niveles, cada uno, tiene que recurrir a los experimentos factoriales. Si analizamos varios factores simultáneamente obtenemos mayor información que si estudiamos los factores en forma individual. Cuando utilizamos los arreglos factoriales tenemos la oportunidad de analizar las interacciones entre los factores.

Ventajas de la experimentación factorial cuando los factores son independientes.

Las ventajas de la experimentación factorial dependen naturalmente de la finalidad del experimento. Supóngase por ahora, que el propósito es investigar los efectos de cada factor, sobre algún intervalo preasignado que está cubierto por los niveles de ese factor usados en el experimento. En otras palabras: el objeto es obtener un cuadro amplio de los efectos de los factores, más bien que encontrar, por ejemplo, la combinación de los niveles de los factores que dan una respuesta máxima. Un procedimiento para esto es conducir experimentos separados, cada uno de los cuales considere un solo factor. Otro procedimiento es incluir todos los factores simultáneamente por medio de un experimento factorial.

Si todos los factores son independientes en sus efectos, el método factorial significara un ahorro considerable de tiempo y material dedicado a los experimentos. El ahorro se deriva de dos hechos: primero como se ha visto, cuando los factores son independientes todos los efectos simples de un factor son iguales a su efecto principal, de tal manera que los efectos principales son las ˙nicas cantidades necesarias para describir completamente las consecuencias de las variaciones en el factor. Segundo, en un experimento factorial cada efecto principal se estima con la misma precisión que si todo el experimento se hubiese dedicado a ese solo factor.

Lección 24: Otras Clases de diseños experimentales

Existen otras clases de diseños que sirven de apoyo a la labor investigativa, y su aplicación está relacionada con situaciones más específicas de investigación. La bibliografía complementaria amplia las aplicaciones de estos diseños, los cuales se mencionan de manera bosquejada.


Diseño Cuadrado grecolatino:

Podríamos definir un cuadrado grecolatino como el producto de dos cuadrados latinos, este tipo de producto da origen a un tipo de investigación entre los especialistas conocido como teoría de grupos de Galois. La cual después de una amplia sofisticación, permite extender los factores no homogéneos a los que se deseen. Esta extensión es muy utilizada en experimentos en genética y se sale de nuestros objetivos.

El diseño de cuadrado grecolatino, se considera un diseño de agrupamiento triple, como producto de la superposición de dos cuadrados latinos, se denota uno con letras griegas y otro con letras latinas, de tal modo que el par correspondiente que se obtiene, no se repite, ni por fila ni por columna.

Diseño Bloques Incompletos

Existen ciertos experimentos, en particular aquellos que se utilizan en fitogenética, que tienen muchas líneas. Por tal motivo, es necesario encontrar las más representativas para cierta zona de estudio. En dichos experimentos se presenta un alto número de tratamientos y es imposible trabajarlos mediante un diseño de bloques completos al azar, porque no se podría controlar la variación existente dentro de cada bloque.

Ya se dijo que cuando existe un gran número de factores y tratamientos se recurre al principio de confundido para tratar de confundir varias interacciones, al dividir cada repetición en varios bloques incompletos para disminuir la excesiva heterogeneidad existente en el suelo debido al alto número de tratamientos, y así evitar bloques muy grandes.

Diseño Parcelas Divididas

En la lección anterior sobre experimentos factoriales, se suponían que el conjunto de todas las combinaciones de tratamientos se aplicaba a las unidades experimentales de acuerdo con el proceso de Aleatorización apropiado para el diseño completamente aleatorio, de bloque completos aleatorizados o de cuadrado latino. Pero son posible s otros procesos de Aleatorización. Una de las aleatorizaciones alternas da lugar al diseño de parcelas divididas, que es una clase especial de diseño de bloques incompletos. El de parcelas divididas y algunas de sus aplicaciones es el tema siguiente.


Al aumentar la complejidad de un diseño, disminuyen los grados de libertad del error. Esto se debe al incremento de las fuentes de variación de los diseños que repercuten en los grados de libertad del error.

Al usar el diseño de parcela dividida, los decrementos no suceden para la subparcela o parcela chica, sino que son iguales a medida que aumentan dichos diseños experimentales. La razón como se menciono previamente es que la primer aparte del diseño de parcela dividida es el diseño completamente al azar, bloques al azar o cuadro latino, y la segunda parte es el arreglo factorial, o sea que la parcela dividida está formada por un arreglo con su respectiva distribución.

Lección 25: Búsqueda de unidades perdidas (Método Yates)

Cuando por efectos ajenos al tratamiento nos encontramos con unidades experimentales perdidas será necesario calcular estas antes de iniciar el análisis de datos. El método considera que si falta una observación en la variable respuesta, entonces se debe: a) Estimar la información completa.

b) Imputar el dato faltante.

La justificación del procedimiento se basa en dos ventajas:

1. Produce estimaciones correctas vía mínimos cuadrados

2. Se logra una estimación correcta de la suma de cuadrados de los errores.

Existen varias maneras de calcular las observaciones perdidas a través de promedios, ya sean entre bloques, tratamientos o con el total; sin embargo, estos procedimientos incrementan en gran forma el error, lo cual resta eficiencia en el análisis de los datos.

El método de YATES, que se definirá a continuación, es el que menos incrementa el error al calcular los datos faltantes. De acuerdo con este método, cuando falta una observación se aplica la formula siguiente:

Cuando falta una observación.

Donde:

x = la observación faltante.


b = número de bloques.

B = suma de las observaciones presentes en el bloque donde falta la observación.

t = número de tratamientos.

T = suma de las observaciones presentes en el tratamiento donde falta la observación.

G = suma del total de las observaciones presentes en el cuadro de concentración donde faltan la observación.

Una vez calculado el dato, se sustituye en el cuadro de concentración para analizar los datos, reduciendo en uno los grados de libertad del error y del total al efectuar el análisis de varianza.

Cuando son dos las observaciones que faltan, estas pueden ser del mismo tratamiento, del mismo bloque o de diferente bloque y diferente tratamiento.

Cuando faltan dos observaciones del mismo tratamiento:

En este caso se debe definir si los dos datos corresponden a un solo tratamiento, a un solo bloque o a un tratamiento y un bloque diferentes. Los datos faltantes se catalogan como x1 y x2; para lo cual:

� Si los datos faltantes corresponden al mismo tratamiento.

Donde:

T12 = Suma de las observaciones presentes en el tratamiento donde falta x1 y x2.

B1 = Suma de las observaciones presentes en el bloque donde falta x1.

B2 = Suma de las observaciones presentes en el bloque donde falta X2.

� Si los datos faltantes corresponden al mismo bloque.

Donde:

B12 = total de las observaciones presentes en el bloque donde faltan x1 y x2.

T1 =total de las observaciones presentes en el tratamiento donde falta x1.

T2 = total de las observaciones presentes en el tratamiento donde falta x2


� Si los datos faltantes corresponden diferente bloque y diferente tratamiento:

Donde:

En muchas situaciones experimentales, la misma unidad experimental recibe dos o más tratamientos en periodos diferentes; cuando esto sucede, el diseño experimental se conoce como crossover, el cual puede estudiarse en Jones & Kenward (2003).

CAPITULO 6: Análisis estadístico

Lección 26: usos de las comparaciones múltiples de medias

Cuando en el diseño se rechaza la hipótesis nula, parecería innecesario plantear más preguntas. Sin embargo, considerar solo con el ANAVA el conjunto de tratamientos en el experimento, hace pensar que ésta es una simplificación exagerada. Por lo general, el investigador se haría la pregunta ¿dónde están las diferencias reales?

Tradicionalmente, la técnica frecuente del análisis de los datos, recurre a un análisis de varianza con su correspondiente prueba de F. sin embargo, por sí misma la prueba no proporciona diferencia sobre comparaciones específicas entre los grupos que a menudo son de interés. En la práctica, algunas de las comparaciones pueden ser planeadas o preespecíficadas (antes de observar los datos), mientras que otras pueden ser no planeadas o seleccionadas luego de examinar los datos (seleccionadas post-hoc).

Los diseños permiten comparar la diferencia entre tratamientos a nivel de un conjunto, sin embargo, en ocasiones es conveniente hacer comparaciones particulares con el fin de determinar la eficiencia precisa de los diferentes tratamientos aplicados en un experimento, por tanto, se recurre al método de comparación múltiple de medias.

Este método se puede efectuar aplicando varias pruebas realizadas por algunos estadísticos. Se debe buscar la más adecuada para cada uno de los casos. Las


recomendaciones para hacer comparaciones múltiples en pruebas de hipótesis son las siguientes:

1. Llevar a cabo la prueba F para igualdad de medias (ANAVA).

2. Si el estudio F es significativo al 5%, lleve a cabo las comparaciones planeadas que quiera, usando la metodología de los contrastes ortogonales o el método de Diferencia Mínima Significativa. Si se tiene igual número de repeticiones por tratamiento, puede usarse el método de Duncan.o Tukey.

3. Si el estadístico F para igualdad de medias no es significante, el experimentador aún podrá considerar las comparaciones planeadas pero deberá usar el método de t-multivariado o el método de Bonferoni. En este caso no debe hacerse ningún tipo de selección post-hoc o comparaciones sugeridas de los resultados. En realidad, dado que la prueba F no es significante para igualdad de medias, la prueba de comparación múltiple no producirá ninguna diferencia significativa.

Lección 27: Prueba de Tukey

El procedimiento de Tukey, también llamado HDS de Tukey (Diferencia Verdaderamente Significativa de Tukey) ó DSH de Tukey (Diferencia significativa Honesta de Tukey). Este método hace uso de la amplitud “estudentizada” y es aplicable a pares de medias; necesita de un solo valor para juzgar la significancia de todas las diferencias y por tanto es fácil y rápido de usar. Ya que solo se hacen comparaciones por pares, el valor crítico es menor que el exigido por otros métodos.

Para efectuar la prueba se utiliza la tabla de “puntos porcentuales superiores de amplitud estudentizada” o de “Tukey”. Con un número de tratamientos y los grados de libertad del error experimental se obtiene el valor T.

Pasos para aplicar el método Tukey.

1 Para facilitar la comparación de datos es aconsejable ordenar las medias de forma decreciente.

2. Determinar el número de comparaciones posibles.

2

)1( −=°

aaescompracionn


3. Calcular el valor teórico común, mediante la aplicación de la siguiente ecuación.

r

CMEExs

xsTw

=

= α

Tά = valor estándar de la tabla teniendo como gl (ttos y (n°datos –ttos), es decir; en el numerador en número de tratamientos y en el denominador, los grados de libertad del error experimental.


4. Comparación de las medias:

Diferencia entre medias.


• Si D(diferencia entre medias) >= w la diferencia se debe considerar significativa

• Si D(diferencia entre medias) < w, la diferencia se debe considerar no significativa.

COMPARACIÓN DIFERENCIA (D) DECISIÓN TUKEY

RESULTADO

A vs B X1 – X2 = d >, ≥ ó < valor W NS ó *, **

A vs C X1 – X3 = d >, ≥ ó < valor W

A vs D X1 – X4 = d >, ≥ ó < valor W

B vs C X2 – X3 = d >, ≥ ó < valor W

B vs D X2 – X4 = d >, ≥ ó < valor W

C vs D X3 – X4 = d >, ≥ ó < valor W

En la columna de resultados, NS representa la no diferencia significativa; * indica que existe diferencia significativa al 95% y ** representa diferencia significativa al 99%

5. Representación de resultados.

a. Cuadro de diferencias de medias.

Promedios X1 X2 X3 X4 X4 0 X3 0 X2 0 X1 0 b. Con líneas.

c. Con letras.

d. con gráficas y letras.

6. Comparación de medias en forma decreciente.

Medias Xn Xn Xn Xn Xn


% relativo % % % % %

El último valor o menor, se toma como 100% y luego se saca por regla de tres el valor en % para los demás. Ejemplo. Un zootecnista tiene como estudio comparar la ganancia de peso de terneros destetos hasta el sacrificio suplementando con diferentes fuentes nitrogenadas que faciliten la formación de proteína bacteriana. Como se sabe que entre el destete y sacrificio la edad del animal implica fisiológicamente cambios en la eficiencia digestiva el zootecnista decide hacer grupos de animales por edades y poderlos comparar además de los tratamientos.

Ganancia de peso (g/dia/animal) de terneros Suplementados con NNP, del destete al sacrificio

EDAD MESES TESTIGO UREA AMONIACO GALLINAZA 8....12 605 720 740 740 12....16 630 750 760 780 16.....20 650 790 800 815 20....24 670 800 805 832 24......26 615 750 790 790

Estadísticos para la ganancia de peso (g/día/animal) de terneros Suplementados con NNP de acuerdo a la edad.

EDAD Cuenta Suma Promedio Varianza

8....12 4 2805 701,25 4206,25 12....16 4 2920 730 4600 16.....20 4 3055 763,75 5856,25 20....24 4 3107 776,75 5262,25 24......26 4 2945 736,25 6889,58333

Estadísticos para la ganancia de peso (g/día/animal) de terneros Suplementados con NNP de acuerdo a los tratamientos

TRATAMIENTOS Cuenta Suma Promedio Varianza

TESTIGO 5 3170 634 692,5 UREA 5 3810 762 1070 AMONIACO 5 3895 779 780 GALLINAZA 5 3957 791,4 1244,8

Análisis de varianza para la ganancia de peso (g/día/animal) de terneros suplementados con NNP


Origen de las

variaciones

Grado

s de

liberta

d

Suma de

cuadrado

s

Promedio de

los

cuadrados F

Probabilida

d

Valor crítico

para F

Edad 4 14069,8 3517,45 39,1045025 8,598E-07

3,25916005

Tratamientos 3 79363,6

26454,5333 294,10265 1,708E-11 3,4902996

Error 12 1079,4 89,95 Total 19 94512,8

Teniendo en cuenta que se encontró significancia para el factor edad (bloques) y para el factor tratamientos, se deben hacer las comparaciones múltiples de medias para los dos factores; pero para ejemplarizar el procedimiento, se tomará únicamente el efecto de los tratamientos.

Comparación de medias para tratamientos por el método de Tukey.

1. Ordenar los promedios de forma decreciente.

GALLINAZA AMONIACO UREA TESTIGO 791,4 779 762 634

2. Determinar el número de comparaciones posibles.

2

)1( −=°

aaescompracionn

62

)14(4=

−=° escompracionn

1. Gallinaza-amoniaco 4.Amonicao-urea 6. Urea-testigo

2. Gallinaza-urea 5.Amoniaco-testigo

3. Gallinaza-testigo

3. Cálculo del valor teórico.


r

CMEExs

xsTw

=

= α

5

89,95=xs

24,4=xs xsTw α= T0,05 = 3,80

)24,4)(80,3(=w

11,16=w

4. Comparación de las medias.

5. Representación de resultados.

a. Cuadro de diferencias de medias.

Promedios Gallinaza Amoniaco Urea Testigo Gallinaza 0 Amoniaco 12,4 NS 0 Urea 29,7* 17* 0 Testigo 157,4* 145* 128* 0 b. Con líneas.

Gallinaza Amoniaco Urea Testigo

791,4 779 762 634

c. Con letras.

Gallinaza Amoniaco Urea Testigo

COMPARACION DIFERENCIA DECISION W RESULTADO Gallinaza-amoniaco 12,4 < 16,11 NS Gallinaza-urea 29,4 > 16,11 * Gallinaza-testigo 157,4 > 16,11 * Amoniaco-urea 17 > 16,11 * Amoniaco-testigo 145 > 16,11 * Urea-testigo 128 > 16,11 *


791,4 779 762 634

a b c d

d. Con gráficas y letras.

634 c

762 b779 a791,4 a

0

100

200

300

400

500

600

700

800

900

GALLINAZA AMONIACO UREA TESTIGO

6. Comparación de medias en forma decreciente.

Gallinaza Amoníaco Urea Testigo 791,4 779 762 634 124,82% 122,87% 120,19% 100%

Lección 28: Prueba de rango múltiple de Duncan

La prueba de Amplitudes Múltiples de Duncan es la más popular por su sencillez y aunque no es muy rigurosa, utiliza ciertos niveles de protección para las comparaciones entre las medias de los tratamientos que están más alejados entre sí, una vez que se han ordenado por la magnitud de sus medias. De esta manera se busca obviar las diferencias en cuanto a nivel de significación que pueden existir al comparar los promedios que están alejados. Sin embargo, la solución al problema es solo parcial y algunos autores prefieren recomendar pruebas más rigurosas como la de Tukey o la de Sceffe.

A continuación se describen los pasos a seguir para efectuar la prueba, utilizando las tablas de Amplitudes Estudiantizadas Significativas o tablas de Duncan

1. Calcular el error estándar de los promedios.


r

CMES x =

2. Con los grados de libertad del error se consultan las tablas de Amplitudes Estudiantizadas Significativas de Duncan ó A.E.S. escogiendo el nivel de significancia deseado (α = 0,05 ó 0,01) y se buscan los valores de hilera correspondiente hasta un "p" (grado de separación entre los promedios que se comparan) igual al número de tratamientos.

P2: tDuncan, P3: tDuncan, P4: tDuncan, V Pn: tDuncan,

Estos valores son multiplicados por el error estándar de los promedios xS con el

fin de obtener los valores de amplitudes límites de significación de Duncan ó A.L.S.; tal como se presenta en la siguiente tabla.

Valores de A,E.S. y A.L.S. para efectuar la prueba de Duncan.

Valores de P. 2 3 4 A.E.S. tDuncan tDuncan tDuncan

A.L.S. = A.E.S x xS Duncan Duncan Duncan

3. Se organizan en orden creciente los promedios de los tratamientos, tal como se indica a continuación:

4. Se efectúan las comparaciones en el siguiente orden: el promedio más bajo con los que están a su derecha, luego el siguiente promedio con los que están a su derecha y así sucesivamente. En cada comparación de promedios se evalúa si la diferencia (D) entre el par de promedios supera al A.L.S. correspondiente. Si la diferencia D > A.L.S., entonces se concluye que los promedios difieren significativamente. Si D < A.L.S., la diferencia no es significativa.

En cada comparación el A.L.S. escogido tiene en cuenta la ubicación de los promedios en el arreglo ordenado, así:

A.L.S. con P = 2: Cuando los promedios que se comparan son consecutivos. Por ejemplo A vs B, B vs C, C vs D.

A.L.S. con P = 3. Cuando entre los promedios que se comparan hay un tratamiento de por medio. Por ejemplo A vs C, B vs D.

A.L.S. con P = 4. Cuando entre los promedios que se comparan existen dos tratamientos de promedio. Por ejemplo A vs D.

y así sucesivamente.


A continuación se indica el detalle de la prueba para el ejemplo planteado:

COMPARACIÓN DIFERENCIA (D) DESICIÓN A.L.S. RESULTADO

A vs B X1 – X2 = d >, ≥ ó < valor DUNCAN NS ó *, **

A vs C X1 – X3 = d >, ≥ ó < valor DUNCAN

A vs D X1 – X4 = d >, ≥ ó < valor DUNCAN

B vs C X2 – X3 = d >, ≥ ó < valor DUNCAN

B vs D X2 – X4 = d >, ≥ ó < valor DUNCAN

C vs D X3 – X4 = d >, ≥ ó < valor DUNCAN

Para indicar todas las comparaciones entre los promedios se puede utilizar una notación resumida a base de líneas o letras, así:

a. Utilizando líneas. Los promedios ordenados por magnitud se subrayan con líneas así: Los promedios que no sean significativamente diferentes se subrayan con una línea común; los promedios que difieren no aparecen unidos. Para el ejemplo anterior, la notación queda en la siguiente forma:

Tratamientos

A B C D V

Promedios prom 1. prom 2. prom 3. prom 4. V

_________________________

De acuerdo con la prueba de Duncan el tratamiento D, es diferente a los tratamientos restantes. Entre los tratamientos A, B, C no se encontró diferencia significativa.

b. Utilizando letras. En este caso, los promedios que no difieren significativamente aparecen con una letra en común. Los promedios que difieren significativamente no tienen letras en común. Así:

A B C D x. prom 1. Prom 2. prom 3. prom

4.


a a A b El uso de letras para resumir las comparaciones tiene la ventaja de que los tratamientos pueden presentarse en el orden que interese al investigador, en cambio para "la notación con líneas se requiere ordenar los promedios por magnitud.

C. cuadro de diferencias de medias.

Promedios X1 X2 X3 X4 X4 0 X3 0 X2 0 X1 0 Comparación de medias en forma decreciente.

Medias Xn Xn Xn Xn Xn

% relativo % % % % %

• El último valor o menor, se toma como 100% y luego se saca por regla de tres el valor en % para los demás.

Para ilustrar más detalladamente estos sistemas de notación consideremos el siguiente ejemplo: Al estudiar comparativamente 7 tratamientos bajo un D.C.A. con replicaciones se obtuvo los siguientes promedios:

TRATAMIENTOS A B C D E F G 75,18 63,75 60,18 64,18 92,1 67,68 80,0

Los valores de A.L.S. obtenidos en la prueba de Duncan con α= 0.05 fueron:

P 2 3 4 5 6 7

A.L.S. 10.63 11.17 11.49 11.71 11.88 11.99

Utilizando el sistema de líneas con los promedios ordenados por magnitud se obtiene:

C B D F A G E

60.18 63.75 64.18 67.68 75.18 80.0 92.1

______________________

_________


_________

Puede observarse que el tratamiento E supera a los restantes en forma significativa. El tratamiento G supera a los tratamientos F, D, B, e, pero no al tratamiento A. A su vez A supera a D, B, y C pero no a F. Finalmente no se encuentra diferencia significativa entre C, B, D, y F.

Utilizando el sistema de letras, la prueba queda en la siguiente forma:

C B D F A G E

60.18 63.75 64.18 67.68 75.18 80.0 92.1

A a a ab bc c d

Lección 29: Análisis de regresión y Correlación

El análisis de regresión, trata de establecer la naturaleza de la relación entre variables es decir, estudiar la relación funcional entre las variables y, por tanto, proporcionar un mecanismo de predicción, o pronostico. El segundo, análisis de correlación, tiene como objetivo determinar el grado de relación entre variables.

El análisis de regresión y correlación es el estudio de la relación entre varias variables. El conocimiento de esta relación nos permite pronosticar el comportamiento de un evento cuando sospechamos que está siendo afectado por otro u otros eventos.

El análisis de regresión consiste en generar un modelo o ecuación que nos permita pronosticar, aproximadamente, el valor de la variable dependiente Y a través de valores conocidos de X.

TIPOS DE REGRESIÓN: Graficas:


Regresión lineal: Es un modelo matemático mediante el cual es posible inferir datos acerca de una población. Se conoce como regresión lineal ya que usa parámetros lineales. Sirve para poner en evidencia las relaciones que existen entre diversas variables.

Característica:

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros.

Determina la relación de dependencia que tiene una variable respecto a otra.

Ecuación: y = a + bx

Donde:

y = valor esperado

a = intercepto entre la línea proyectada en el eje y

b = pendiente de la línea proyectada x = cualquier valor sobre el eje x

Grafica:


En la regresión lineal interesa cuantificar la intensidad de la relación entre dos variables (dependiente e independiente). El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal o coeficiente de de correlación de Pearson, cuyo valor oscila entre -1 y 1.


Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa mayores valores de (X implican mayores valores de Y) y se aproxima a -1 cuando la relación tiende a ser inversa.

Esquema de interpretación de correlaciones.

Coeficiente de correlación. Es el grado de asociación entre las variables. Se simboliza con la letra griega p (rho), para el parámetro, y "r" para el estimador.

El coeficiente de correlación varia entre -1 y 1; en símbolos: -1< r S 1. Valores muy cercanos a -1 y 1 indican un alto grado de asociación entre las variables, por el contrario, valores cercanos a cero. Se interpretan como un bajo grado de relación entre las variables.

Observamos entonces que hay coeficientes negativos y positivos. Un coeficiente de correlación negativo significa que la relación entre las variables es inversa; esto quiere decir que al incrementarse la variable x", se produce una disminución de "y"; por otra parte, una correlación positiva, significa una relación directa: un incremento de "x" produce un crecimiento en los valores de "y"

Coeficiente de Determinación (r2). Se calcula elevando al cuadrado el coeficiente de correlación,

Por ejemplo si el coeficiente de correlación calculado es de 0.965, el coeficiente de determinación es = 0.965)2 = 0.9312.

Esto significa que el 93.12% de las variaciones en la variable dependiente son debidas a cambios en la variable independiente, y el resto 6.88% son cambios debidos a errores de muestreo, o mediciones mal hechas.

Lección 30: Análisis de varianza para la regresión

El análisis de varianza nos permite conocer las diferencias, si las hay, entre dos o más tratamientos y así estaremos en capacidad de seleccionar la mejor metodología bajo estudio. Si no hay diferencia entre los tratamientos la técnica estatifica nos está indicando que es indiferente utilizar cualquiera de ellos.


Ejemplo: se tienen el Peso promedio X y consumo de alimento Y de 50 gallinas provenientes de 10 razas White leghorn Periodo 350 días

Peso del Consumo de

Cuerpo Alimento

X X¥ = X- 4.0 Y Y¥ = Y- 80

4.6

0.6

87.1

7.1

5.1 1.1 93.1 13.1 4.8 0.8 89.8 9.8 4.4 0.4 91.4 11.4 5.9 1.9 99.5 19.5 4.7 0.7 92.1 12.1 5.1 1.1 95.5 15.5 5.2 1.2 99.3 19.3 4.9 0.9 93.4 13.4 5.1 1.1 94.4 14.4

Σ (X- X)2 = 1.536 Σ (Y- Y)2

=135.604

Cada una con 9 gl

Fuente: Steel Y Torrie, 1990)

Vemos que hay una relación bastante definida entre las dos variables. Como observamos antes, de los datos de la tabla 6.1 podemos obtener diagrama de dispersión, recta de mínimos cuadrados, coeficientes de regresión, e determinación, y también realizar una análisis de varianza a la regresión.

Para Nuestro caso la recta de regresión, de mejor ajuste o de mínimos cuadrados para el ejemplo anterior es: Y= 55.26 +7.69 X, que significa que para aumentar una libra de peso, el consumo de alimento debe ser de 7.69 libras de alimento.

Las fuentes de variación que afectan una variable no siempre son controlables mediante un plan experimental. Cuando el plan no puede efectuar el control, es posible medir algunas características de la fuente de variación. Por ejemplo, la cantidad de alimento consumido por las gallinas es una variable de importancia económica. Sería de esperar que se viera afectada por otras variables medibles, tales como el peso del cuerpo y el número y peso de los huevos


puestos. Para los datos de la tabla anterior, el peso del cuerpo fácilmente explica la mayor variabilidad en el alimento consumido. La importancia económica es obvia.

Ahora usamos la tabla anterior para ilustrar el control estadístico de una fuente de variabilidad mediante el uso de una observación concomitante. La

desviación estándar de Y antes de la variación en X es √Σ(Y-Y)2 /(n-1)

=√135.604/9 =3.88 lbs. Hemos visto que luego de ajustarla es Sy.x = 2.37 lbs.

La parte de la suma de cuadrados de Y atribuible a la variación en X la da la ecuación siguiente:

Reducción en SC = SC (regresión = SC (Y/X) = [Σ (X - X) (Y-Y)]2 = (11.812)2

Σ (X-X)2 1.536 = 90.386

Para nuestro ejemplo, tiene un grado de libertad. También podemos observar que la proporción de la suma de cuadrados de Y atribuible a la variación en Y es

[Σ (X ñ X) (Y- Y)]2 / Σ (X ñ X)2 = 90.386 = 0.67 (o 67 por ciento)

Σ (Y ñ Y)2 135.604

La suma de cuadrados de Y reducida o residual se encuentra por diferencia y tiene n-2 grados de libertad.

SC (residual para Y) = 135.604 ñ 90.836 = 44.768 con 8 grados de libertad.

A continuación se presenta la tabla de análisis de varianza de los datos de las gallinas.

Análisis de varianza para la regresión:

Fuente gl Sc simbólica Ejemplo gl Sc CM F X

1[(∑X−X)(Y−Y)]2/Σ(X−X)2 1 90.836 90.836 16.22**


Residual n−2 por sustracción 8 44.768 5.60

Total n−1 ∑(Y−Y)2 9 135.604


FUENTES BIBLIOGRAFICAS

American Association for the Advancement of Science. La naturaleza de la ciencia.

http://www.project2061.org/esp/publications/sfaa/online/chap1.htm. Accesado Junio 2005.

Box, G.E.P., Hunter, W.G.S., y Hunter, J.S. 1993. Estadística para investigadores: Introducción al diseño de experimentos, análisis de datos y construcción de modelos. Edit. Reverte, España. 422 p.

Bunge, M. La ciencia, su método, y su filosofía. Ediciones Siglo XX. Buenos Aires. 1972.

Cabria, S. (1994). Filosofía de la estadística. Servicio de Publicaciones de la Universidad de Valencia

Chou, Ya-Lun. An•lisis estadÌstico. Edit. Mc Graw Hill, MÈxico. 1992. 808 p.

Clarke, G and Kempson, R. E. 1997. Introduction to the design and analysis of experiments, Arnod, London.

Cliford, G.J. A history of the impact of research on teaching. In R. M.W. Travers (Ed), Second handbook of research on teaching. Chicago: Rand Mc nally,1973, pp 1-46.

Cooper H, Hedges LV. The Handbook of Research Synthesis. New York: Russell Sage Foundation, 1993.

Collins, C. Statistical Experiment Design and interpretation. An introduction with agricultural examples. Wiley& Sons, New York, 1999

Cochran, W.G. y , y G.M. Cox. Diseños Experimentales, Ed. Trillas, México,1989. 661 p.

Dean, A and S. Voss, D. Design and Analysis of experiments. Springer Editors, new York, 1999.

De La Loma, J.L. Experimentación Agrícola, 2 ed. Uteha, México. 1966. 493 p.


Dixon ,J.W. y Massey, F.J. Introducción al análisis estadístico. Edit. McGraw Hill.1965. 489 p.

Domínguez, C. D. Diseño Experimental para Zootecnistas UNAD, Ediformas.2001.127 p.

Gómez, H. Estadística Experimental Aplicada a las Ciencias Agrícolas. Universidad Nacional de Colombia, Medellín, Colombia. 1997. 571 p.

Guenther, W.C. Introducción a la inferencia estadística. Edit. McGraw Hill. 1977. 357 p.

Infante, S. G, y Zarate de Lara, G.P. Métodos Estadísticos: Un Enfoque Interdisciplinario. Edit. Trillas, México, México. 1984. 643 p.

Kuehl, R. O.2001. Diseño de Experimentos: Principios estadísticos de diseño y Análisis de investigación Thompson Learning, México.

Lastra, O. J. Estadística al alcance de todos: Un dialogo autodidacta. Orlastra Bogotá D.C. 2004. 486 p.

Little, M. T. y Jackson, F.H. Métodos Estadísticos Aplicados a la Investigación en Agricultura. Ed. Trillas, Mexico.1976. 270 p.

Martínez, B. C. Estadística. Ecoe, Bogotá- 1992. 774 p.

Martínez, G. A. Diseños experimentales: Métodos y Elementos de teoría. Ed. Trillas, MÈxico.1988. 756 p.

Martínez, B. R., y Martínez, B. N. Diseño de experimentos: Análisis de datos estándar y no estándar. Editora Guadalupe. Fondo Nacional Universitario. Universidad Nacional de Colombia. Bogotá D.C. 1997. 479 p.

Montgomery, D.C. 2002. Diseño y análisis de experimentos. Edit. Limusa, México. 686 p.

Moore, D. S. (1992). Teaching statistics as a respectable subject. In F. Gordon & S. Gordon (Eds.), Statistics for the twenty-first century (pp. 14-25). Washington, DC: Mathematical Association of America.

Morris, T.R. Experimental Design and Analysis in Animal Sciences. Cabi Publishing, Reading, UK.1999. 208 p.


Munch, L. y Ángeles, E. Métodos y Técnicas de Investigación. Ed. Trillas, Mexico.1993. 166 p.

Reyes, C. P. Bioestadística Aplicada: Agronomía, Biología, Química. Edit. Trillas, México. 1995. 216 p.

Reyes, C. P. Diseño de Experimentos Aplicados. Ed.Trillas, México. 1989. 348 p.

Rodríguez Del ángel, J. Métodos de Investigación Pecuaria. Ed. Trillas, México, 1990. 208 p.

Steel. G. D. R. y Torrie, H. J. Bioestadística: Principios y Procedimientos. Ed. McGraw Hill, México. 1990. 622 p.

Susan J.M. Estadística para Biología y Ciencias de la Salud. McGraw-Hill Interamericana.2001. 592 p.

Tamayo, T. M. El Proceso de La Investigación científica. Ed. Limusa, México. 1993. 161p.

Tamayo, T. M. Diccionario de la Investigación Científica, edit. Blanco. Bogotá D.C. 1984.

Towsend, J. C. (1993). Introduction to Experimental Method.. New York: Mc Graw Hill.

Wayne, W. D. Bioestadística: Base para el análisis de las ciencias de la salud. Edit. Limusa, México. 1990. 667p.

203018 modulo biometria

Documents