cursor clase1

Download CursoR Clase1

Post on 29-Jul-2015

301 views

Category:

Documents

4 download

Embed Size (px)

TRANSCRIPT

1 IntroduccinEste trabajo es una coleccin de frmulas, tcnicas y mtodos estadsticos desarrollados para usar en el campo de la Ecologa. Aqu se detalla cmo se pueden analizar los datos ecolgicos, desde el muestreo hasta el modelado, y desde los individuos hasta los ecosistemas. Teniendo en cuenta la fuerza y debilidad de las tcnicas estadsiticas, se sintetizan las herramientas estadsiticas actuales, presentndolas de manera simplicada y aplicada para que sean entendidas por la mayora. Me uno al objetivo de James y McCulloch (1990):

The objective of the present review is to help the researcher navigate between the Scylla of oversimplication, such as describing complex patterns with univariate analyses, and the Charybdis of assuming that patterns in data necessarily reect factors in nature, that they have a common cause, or, worse, that statistical methods alone have sorted out multiple causes . (James y McCulloch, Annu. Rev. Ecol. Syst. 1990).1.1 Por qu estudiar estadstica?. Qu es la Estadstica?. La estadstica se podra denir como el conjunto de mtodos cientcos que nos permiten una interpretacin descriptiva de la informacin numrica, elegir elementos representativos para realizar inferencia y contrastar hiptesis, estudiar las relaciones causaefecto y hacer predicciones. Podemos clasicar la estadstica en: Descriptiva: descripcin de los datos observados. Describe, analiza y representa un grupo de datos utilizando mtodos numricos y grcos que resumen y presentan la informacin contenida en ellos. Probabilstica: modelizacin del comportamiento del fenmeno en estudio. Inferencial: estimacin de lo desconocido y generalizacin de los resultados. Apoyndose en el clculo de probabilidades y a partir de datos muestrales, efecta estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. Para ello, es importante establecer algunas deniciones de conceptos bsicos y fundamentales que sern utilizados a lo largo del texto.1.1.1

Deniciones.

Conceptos bsicos.

Individuos o elementos: personas u objetos que contienen cierta informacin que se desea estudiar. Poblacin: conjunto de elementos (o individuos) que cumplen ciertas propiedades comunes. 9

Muestra: subconjunto representativo de la poblacin en estudio. Parmetro: funcin denida sobre una poblacin. Ej: altura media de los individuos de un pas. Estadstico o Estimador: funcin denida sobre una muestra. Ej: altura media de los individuos del aula. Variables o Caracteres: propiedades, rasgos o cualidades de los elementos de la poblacin. Estos caracteres pueden dividirse en cualitativos y cuantitativos. Modalidades: diferentes situaciones posibles de un carcter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes cada elemento posee una y slo una de las modalidades posibles. Ejemplo: Consideraremos todos los estudiantes de Granada (poblacin), donde queremos hallar la altura media de la poblacin (parmetro ). Realizamos un muestreo sobre los alumnos de la Facultad de Ciencias (muestra) y obtenemos la altura media de esta muestra (estadistico x).

1.1.2

Uno de los primeros pasos en la decisin de qu mtodo estadsitico usar es determinar qu tipo de variables tenemos. Cuando hablemos de variable haremos referencia a un smbolo (X, Y, A, B, ...) que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango. En funcin del tipo de dominio, las variables las clasicamos del siguiente modo: V.Cualitativas (o variables categricas) Nominales: categoras son orden. Ej: Gnero, Genotipo, Fenotipo. Ordinales: categoras con orden. Ej: Mejora de un tratamiento, Grado de satisfaccin, Intensidad del dolor. V.Cuantitativas (o variables numricas) Discretas: nmeros enteros. Ej: nmero de colonias de bacterias en una caja de Petri , nmero de vrtebras en una lechuza. Continuas: nmeros reales. Ej: Altura, Peso, Presin, Densidad.Ejemplos http://udel.edu/~mcdonald/statvartypes.html

Tipos de variables

10

Problemas: Cuando tenemos una variable con un nmero pequeo de valores, puede no ser muy claro cmo clasicarla (es una variable cuanti o cualitativa?). No existe una regla tcita (rule of thumb ) para solucionar este conicto, y el trato que le des a la variable depender en parte de las preguntas a responder y las caractersiticas de la investigacin. Por ejemplo, si nuestra hiptesis es diferentes concentraciones de nutrientes tienen diferentes tasas de crecimiento bacterial deberemos tratar a la concentracin de nutrientes como una variable cualitativa. Sin embargo, si nuestra hiptesis es las bacterias crecen ms rpido al aumentar la concentracin de nutrientes deberemos considerar la concentracin de nutrientes como una variable cuantitativa. Es decir, podemos eliminar la ambiguedad cuando estamos diseando el experimento a desarrollar.1.1.3 Cmo realizar un anlisis estadstico con nuestros datos? Paso a paso.

McDonal (2009) ha sugerido utilizar la siguiente aproximacin sistemtica, paso a paso: 1. Especicar la pregunta biolgica que queremos responder. 2. Formular la pregunta en trminos de hiptesis nula y alternativa. 3. Formular la pregunta en trminos de hiptesis estadsiticas nula y alternativa. 4. Determinar qu variables son relevantes a nuestro problema. 5. Determinar qu tipo de variables son cada una. 6. Disear un experimento que controle o aleatorice las posibles variables de confusin. 7. Debemos elegir el mejor test estadstico basado en el nmero de variables, el tipo de variables y el ajuste esperado de los supuestos paramtricos y las hiptesis que sern puestas a prueba. 8. Si es posible, haz un anlisis de potencia para determinar un buen tamao muestral para el experimento. 9. Haz el experimento. 10. Analizar los datos para ver si satisfacen los supuestos del test estadstico que elegimos (normalidad, homocedasticidad, indpendencia, etc.). Si no lo hace, elige un test ms apropiado. 11. Aplicar las pruebas estadsticas elegidas e interpretar los resultados. 12. Comunicar los resultados de manera efectiva, con grcos o tablas. Pueden encontrar ejemplos de aplicacin en la web http://udel.edu/~mcdonald/ statstep.html. 11

Figure 1: Pgina ocial de r-project ( http://www.r-project.org/ )

1.2

Qu es R? R es un lenguaje y entorno (o ambiente) con un conjunto integrado de programas para la manipulacin de datos, clculo y grcos. R es un proyecto GNU similar al lenguaje S (J. Chambers et al., Bell Labs.), pero que se distribuye bajo la General Public License (GPL, Open Sourse). Esta licencia no tiene restricciones de uso, slo obliga a que la distribucin sea siempre GPL.R es un lenguaje Orientado a Objetos: signica que las variables, datos, funciones, resultados, etc., se guardan en la memoria activa del computador en forma de objetos con un nombre especco. El usuario puede modicar o manipular estos objetos con operadores (aritmticos, lgicos, y comparativos) y funciones (que a su vez son objetos). Mientras que programas ms clsicos muestran directamente los resultados de un anlisis, R guarda estos resultados como un objeto, de tal manera que se puede hacer un anlisis sin necesidad de mostrar su resultado inmediatamente. Esto puede ser un poco extrao para el usuario, pero esta caracterstica suele ser muy til. Otras caractersticas de los lenguajes orientados a objetos son la herencia: las subclases heredan las caractersticas de las superclases, y el polimorsmo la misma operacin aplicada a diferentes objetos resulta en diferentes implementaciones. R es un lenguaje interpretado (como Java) y no compilado (como Fortran, Pascal, . . . ), lo cual signica que los comandos escritos en el teclado son ejecutados directamente sin necesidad de construir ejecutable 12

Figure 2: Robert Gentleman y Ross Ihaka (tambin conocidos como R & R) liberaron el cdigo R como software libre en 1996.http://www.nytimes.com/2009/01/07/technology/business-computing/ 07program.html?pagewanted=all

Permite

Almacenamiento y manipulacin efectiva de los datos. Operadores para clculo sobre variables indexadas (arrays) y matrices. Amplia, coherente e integrada coleccin de herramientas para anlisis de datos. Grandes posibilidades gracas. Lenguaje de programacin orientado a objetos bien desarrollado, simple y efectivo. Es un ambiente o entorno de trabajo, es decir, presenta herramientas muy exibles que pueden extenderse fcilmente mediante paquetes (packages; http://cran.r-project.org/mirrors.html ) y permite crear nuestras propias funciones. Grcos de alta calidad exportables en diversos formatos: PostScript, pdf, A bitmap, pictex (L TEX), png, jpeg, etc. Comunidad muy dinmica de desarrolladores de paquetes que cuenta con estadsticos de prestigio Lenguaje orientado a objetos 13

Ventajas

Consume pocos recursos informticos Puede ejecutarse remotamente (telnet) Sintaxis exigente Documentacin muy amplia y dispersa, que puede resultar difcil. Algunos paquetes no han sido muy contrastados. Utiliza la lnea de comandos y no un interfaz grco, esto lleva mucho tiempo de adaptacin y prctica.Instalacin de R

Desventajas

1.3

Depende del sistema operativo, pero todo se puede encontrar en http://cran. r-project.org/bin. o Windows: bajar ("download") el ejecutable desde http: //cran.r-project.org/bin/windows/base . (por ejemplo, http://cran.r-project. org/bin/windows/base/rw1070.exe ). o Ejecutar el chero. Instalar el sistema base y los paquetes recomendados. o GNU/Linux: dos opciones: o Obtener el R-x.y.z.tar.gz y compilar desde las fuentes, y tambin bajar los paquetes adicionales e instalar. (Buena forma de comprobar que el sistema tiene development tools). o Obtener binarios (ej., *.deb para Debian, *.rpm para RedHat, SuSE, Mandrake).1.4

Windows:

Cmo trabajar con R?

Hacer click dos veces en el icono. Se abrir "Rgui" (Gui, Graphical User Interface), con un mensaje de inicio. Inici