manual curs deducer

73
Llorenç Badiella. Director del Servei d’Estadística Aplicada Anabel Blasco. Asesora estadística del Servei d’Estadística Aplicada Ester Boixadera. Asesora estadística del Servei d’Estadística Aplicada Anna Espinal. Asesora estadística del Servei d’Estadística Aplicada Oliver Valero. Asesor estadístico del Servei d’Estadística Aplicada Ana Vázquez. Asesora estadística del Servei d’Estadística Aplicada Manual de Introducción a Deducer: una interfaz gráfica para usuarios de R

Upload: paula-soledad-luque

Post on 23-Nov-2015

39 views

Category:

Documents


2 download

TRANSCRIPT

  • Lloren Badiella. Director del Servei dEstadstica Aplicada Anabel Blasco. Asesora estadstica del Servei dEstadstica Aplicada

    Ester Boixadera. Asesora estadstica del Servei dEstadstica Aplicada Anna Espinal. Asesora estadstica del Servei dEstadstica Aplicada Oliver Valero. Asesor estadstico del Servei dEstadstica Aplicada Ana Vzquez. Asesora estadstica del Servei dEstadstica Aplicada

    Manual de Introduccin a Deducer: una interfaz

    grfica para usuarios de R

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 2 de 73

    Manual de Introduccin a Deducer

    Servei dEstadstica Aplicada Universitat Autnoma de Barcelona

    Campus UAB - Edifici D

    08193 Cerdanyola del Valls (Barcelona)

    Tel. 93.581.13.47 [email protected]

    http://serveis.uab.cat/estadistica

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 3 de 73

    Publicado por el Servei dEstadstica Aplicada de la UAB 3 edicin, Noviembre 2013 Este documento puede ser copiado y libremente distribuido, siempre y cuando sea preservada su integridad, referenciado su origen y comunicado su uso al Servei dEstadstica Aplicada de la UAB. No est permitido aadir, borrar o cambiar ninguna de sus partes, o extraer pginas para su uso en otros documentos.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 4 de 73

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 5 de 73

    CONTENIDOS

    1 PRESENTACIN ............................................................................................... 72 INTRODUCCIN A DEDUCER ...................................................................... 92.1 Ventanas de trabajo ............................................................................................................. 92.1.1 LA CONSOLA .............................................................................................................. 92.1.2 EL VISOR DE DATOS ............................................................................................. 102.2 Crear y abrir ficheros ......................................................................................................... 112.2.1 CREAR UNA NUEVA BASE DE DATOS .......................................................... 112.3 Importar bases de datos .................................................................................................... 152.3.1 IMPORTAR DATOS DE TEXTO ......................................................................... 152.3.2 IMPORTAR FICHEROS DE EXCEL ................................................................... 162.3.3 IMPORTAR FICHEROS DE SPSS ........................................................................ 162.4 Guardar bases de datos ..................................................................................................... 163 GESTIN DE BASES DE DATOS ................................................................... 173.1 Recodificar variables ......................................................................................................... 173.2 Fundir archivos .................................................................................................................. 183.2.1 AADIR CASOS ........................................................................................................ 193.2.2 AADIR VARIABLES ............................................................................................. 203.3 Transformar variables ....................................................................................................... 214 VALIDACIN DE LA BASE DE DATOS ....................................................... 225 ANLISIS DESCRIPTIVO ............................................................................... 235.1 Introduccin ....................................................................................................................... 235.2 Estadsticos resumen ......................................................................................................... 235.2.1 VARIABLES CUALITATIVAS ............................................................................... 245.2.2 VARIABLES CUANTITATIVAS ........................................................................... 265.3 La representacin grfica ms adecuada ........................................................................ 295.3.1 VARIABLES CUALITATIVAS ............................................................................... 305.3.2 VARIABLES CUANTITATIVAS ........................................................................... 335.4 Medidas de asociacin ...................................................................................................... 355.4.1 DOS VARIABLES CUALITATIVAS ..................................................................... 365.4.2 DOS VARIABLES CUANTITATIVAS ................................................................. 396 INFERENCIA PARA UNA POBLACIN ...................................................... 426.1 Introduccin ....................................................................................................................... 426.2 Variables aleatorias ............................................................................................................ 436.3 Estimacin de parmetros ................................................................................................ 446.3.1 ESTIMACIN PUNTUAL ...................................................................................... 456.3.2 INTERVALOS DE CONFIANZA ......................................................................... 466.4 Pruebas de hiptesis .......................................................................................................... 496.5 Relacin entre IC y Test de hiptesis ............................................................................. 516.6 Pruebas de normalidad ..................................................................................................... 51

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 6 de 73

    7 INFERENCIA PARA DOS POBLACIONES .................................................. 537.1 Introduccin ....................................................................................................................... 537.2 Comparar medias ............................................................................................................... 547.2.1 MUESTRAS INDEPENDIENTES ........................................................................ 547.2.2 PRUEBA DE IGUALDAD DE VARIANZAS .................................................... 567.2.3 INFERENCIA NO PARAMTRICA .................................................................... 577.2.4 MUESTRAS RELACIONADAS ............................................................................. 587.3 Variables categricas ......................................................................................................... 598 INFERENCIA PARA K POBLACIONES ......................................................... 618.1 Introduccin ....................................................................................................................... 618.2 Comparar medias ............................................................................................................... 618.2.1 MUESTRAS INDEPENDIENTES: PRUEBA ANOVA ................................... 618.2.2 PRUEBA DE HOMOGENEIDAD DE VARIANZAS ..................................... 658.2.3 COMPARACIONES MLTIPLES 2 A 2 .............................................................. 668.2.4 INFERENCIA NO PARAMTRICA: PRUEBA DE KRUSKAL-WALLIS.. 688.2.5 MUESTRAS RELACIONADAS ............................................................................. 698.3 Variables categricas ......................................................................................................... 709 RESUMEN METODOLGICO ....................................................................... 7110 BIBLIOGRAFA ................................................................................................ 73

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 7 de 73

    1 PRESENTACIN Este manual de introduccin a Deducer pretende ser una primera aproximacin al uso del programa R para aquellas personas que deseen adquirir conocimientos de Estadstica, y que deseen introducirse en el uso de este software para aplicarlo en su rea de conocimiento y trabajo. Deducer es un programa libre diseado como alternativa al software comercial para el anlisis de datos tales como SPSS, JMP y Minitab. Cuenta con un sistema de mens para gestionar y manipular bases de datos y analizarlos, y un editor de datos tipo excel para ver y editar bases de datos. El objetivo del proyecto es doble:

    1. Provee una interfaz grfica para usuarios de R (GUI) para la investigacin, alentando a los usuarios no tcnicos para aprender y realizar anlisis sin necesidad de conocer el lenguaje de programacin de R.

    2. Aumentar la eficiencia de los usuarios expertos de R al realizar las tareas comunes mediante la sustitucin de cientos de combinaciones de teclas con unos pocos clics del ratn, adems de permitir utilizar el lenguaje de programacin.

    Aade la funcionalidad de la interfaz grfica para llevar a cabo las siguientes tareas:

    o Cargar datos de varios formatos (txt, CSV, SPSS, etc.). o Visualizar los datos y los tipos de variables en el visor de datos por separado. o Realizar transformaciones de los datos (recodificacin, editar funciones,

    transformaciones, transponer, fusionar).

    o Anlisis estadstico (comparacin de medias, tablas de contingencia, anlisis de regresin).

    o Una interfaz grfica de usuario para la creacin de grficos utilizando el paquete de ggplot2.

    El programa se puede descargar gratuitamente desde la pgina web de Deducer: http://www.deducer.org Seleccionar el sistema operativo (Windows, MacOS X o Linux) y seguir las instrucciones correspondientes.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 8 de 73

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 9 de 73

    2 INTRODUCCIN A DEDUCER

    2.1 Ventanas de trabajo El programa est estructurado en dos ventanas diferentes:

    La consola: Esta ventana recoge todos los mens para trabajar con los datos y realizar los anlisis estadsticos, y donde se vern los resultados de los anlisis. Tambin se pueden introducir los comandos manualmente.

    El visor de datos: Deducer proporciona un editor de datos parecido a una hoja de clculo de Excel muy fcil de usar, donde se pueden ver y editar los datos y las variables con los que vamos a trabajar.

    2.1.1 La consola Al abrir el programa la consola o ventana de comandos de R carga todos los paquetes necesarios para el anlisis de los datos:

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 10 de 73

    Los paquetes son colecciones de funciones de R, datos, y cdigo compilado en un formato definido. Se pueden instalar ms paquetes desde el men Packages & Data Package Manager.

    2.1.2 El visor de datos El visor de datos permite crear una nueva base de datos (New Data), abrir una base de datos (Open Data) o consultar el tutorial:

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 11 de 73

    2.2 Crear y abrir ficheros Para analizar datos lo primero es crear o abrir un archivo de trabajo. Se pueden introducir datos creando una nueva base de datos e introduciendo los datos manualmente, abriendo un fichero de R existente o importando un fichero procedente de otra aplicacin.

    2.2.1 Crear una nueva base de datos Para comenzar a introducir datos se puede seleccionar la opcin New Data e indicarle el nombre que tendr la nueva base de datos:

    Existen diversas formas de introducir datos:

    o Crear nuevas filas y columnas e introducir datos manualmente. o Copiar datos de otras aplicaciones y pegarlas en la tabla. o Importar datos de otras aplicaciones.

    Si hay varias bases de datos cargadas en la sesin de R se pueden visualizar seleccionndolas desde la lista de Data Set. Se pueden cargar datos en la sesin de R haciendo clic en el botn Open Data en la esquina superior izquierda, se pueden guardar con el botn Save Data o se pueden cerrar haciendo clic en Remove from Workspace. El Visor de datos dispone de dos pestaas: Vista de datos (Data View) y Vista de variables (Variable View).

    Vista de datos: est dividida en columnas y filas dando lugar a celdas o casillas donde se recogen los datos. Cada columna tiene asignado un nombre de variable, ya sea especificado por el usuario o bien por el propio programa. Las filas, a su vez, estn numeradas de forma correlativa.

    Al hacer clic en las filas o en las columnas se pueden insertar, copiar y borrar filas o columnas respectivamente.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 12 de 73

    Vista de variables: recoge las caractersticas de las variables (columnas). Informa sobre el Nombre de la variable, el Tipo (Numrico, Cadena, Fecha,..), y etiquetas para los valores de las variables categricas (Factor Levels).

    Observacin: los nombres de las variables no pueden tener acentos ni espacios.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 13 de 73

    2.2.1.1 Tipos de variables Las variables tal y como hemos dicho definen las columnas del fichero de datos y son caractersticas de los individuos. Pueden ser diferenciadas segn:

    o Cualitativas o Categricas: etiquetas (numrica o no) que representan el grupo o categora a la cual pertenece un individuo. Se puede diferenciar entre nominales (por ejemplo el sexo) y ordinales (nivel de estudios).

    o Cuantitativas: valores numricos para los que tiene sentido realizar aritmtica. Se puede diferenciar entre continuas (ndice de masa corporal) y discretas (nmero de hijos).

    El paquete estadstico Deducer clasifica las variables en:

    o Character: variables de cadena (texto) o Factor: variables categricas (nominales u ordinales) o Double: variables cuantitativas continuas o Integer: variables cuantitativas discretas o Logical: variables lgicas o Date: variables de fecha o Time: variables de tiempo

    Los niveles de las variables categricas (factores) se muestran en la columna Factor Levels, y se pueden editar haciendo clic en la celda apropiada:

    Cuando las categoras de la variable (Levels) puedan tomar distintos valores ordenados siguiendo una escala establecida (variable ordinal) marcaremos la casilla Ordered.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 14 de 73

    Ejercicio Crear una base de datos con la siguiente informacin:

    Cuestionario En estos estudios es fundamental la opinin y la participacin del personal implicado. Es por eso, que os pedimos que rellenis esta encuesta (vuestros datos personales sern confidenciales).

    1. Nombre ___________________

    2. Sexo Hombre Mujer

    3. Ao de nacimiento ____________

    4. Nivel de estudios

    Sin estudios Estudios secundarios Estudios primarios Estudios superiores NS/NC

    5. Est trabajando en la actualidad?

    S No NS/NC

    6. En caso de haber contestado negativamente la pregunta anterior, recibe alguna prestacin por desempleo?

    S No NS/NC

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 15 de 73

    2.3 Importar bases de datos Podemos abrir una base de datos utilizando el men File Open Data. Con esta opcin podemos abrir datos que se encuentren en formato de R, en formato texto u otros tipos de formato como por ejemplo Excel o SPSS. Observacin: la ruta fsica donde se encuentran los ficheros de datos no puede contener acentos.

    2.3.1 Importar datos de texto Al seleccionar la opcin Text file (.txt) aparece la siguiente ventana donde podemos especificar qu carcter separa las variables (tabulador, espacio, coma...), si hay un delimitador especfico para las variables de cadena (Quote) y si el fichero incluye los nombres de las variables (Header).

    Observacin: en Deducer el separador de decimales es el punto.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 16 de 73

    2.3.2 Importar ficheros de Excel Para importar directamente archivos de Excel debemos tener instalado el paquete XLConnect. Como solucin alternativa debemos abrir el archivo en Excel y luego usar "Guardar como" para crear un archivo de tipo CSV (delimitado por comas).

    2.3.3 Importar ficheros de SPSS Al seleccionar un fichero de SPSS (.sav) la base de datos se abre automticamente. Las variables que tienen etiquetas definidas se guardan como factores. Ejercicio Abrir los ficheros ADL1.txt, ADL2.xls y ADL3.sav. El fichero ADL1 contiene informacin sobre 70 pacientes que han tenido una accidente cerebrovascular. El fichero ADL2 contiene la misma informacin sobre 30 pacientes que han sido ingresados en otro centro. El fichero ADL3 contiene informacin adicional sobre los mismos pacientes.

    2.4 Guardar bases de datos Las bases de datos pueden ser guardadas en los siguientes formatos:

    o R workspace (extensin .rda y .rdata) o R object (extensin .robj) o Comma seperated (extensin .csv) o Tab delimited (extensin .txt) o DBase (extensin .dbf) o Stata (extensin .dta) o ARFF (extensin .arff)

    Tambin podemos guardar todas las bases de datos abiertas en un solo archivo utilizando el men Workspace Save as

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 17 de 73

    3 GESTIN DE BASES DE DATOS El men Data permite gestionar y manipular las bases de datos. En particular permite editar los factores de las variables categricas, recodificar y transformar variables, ordenar y transponer bases de datos, fundir archivos y seleccionar un subconjunto de datos.

    3.1 Recodificar variables Recodificar una variable consiste en asignar una nueva codificacin a sus valores originales, o agrupar rangos de valores existentes en nuevos valores, de manera que se modifica su codificacin original. Las variables se recodifican desde el men Data Recode Variables. Se pueden recodificar en las mismas variables o en variables nuevas (Target).

    En la pestaa Define Recode podemos definir cmo queremos hacer la recodificacin:

    El panel de la izquierda muestra informacin sobre las variables que puede ser til para la recodificacin. Para las variables numricas se muestra una tabla de percentiles y para las variables categricas una tabla de frecuencias.

    En el panel de la derecha (Code) se especifica la recodificacin.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 18 de 73

    Un valor se puede recodificar como dato faltante (missing) indicando NA en el campo correspondiente.

    3.2 Fundir archivos Podemos encontrarnos en la situacin de tener recogidos los datos en bases diferentes y deseamos unificar toda esta informacin en una sola. Se pueden dar dos situaciones:

    Los individuos (filas) estn en bases diferentes, o bien

    Las variables (columnas) estn en bases de datos diferentes.

    En ambos casos lo que se pretende hacer es fusionar los archivos. En el primer caso se aadirn nuevas filas de individuos. Para ello es necesario que el nuevo individuo tenga las mismas caractersticas (variables) que el resto de individuos. En caso contrario se imputar un valor perdido en aquellas variables en las que difiera. En el segundo caso se crearn nuevas columnas de datos. Si las nuevas columnas son de diferente longitud a las ya existentes, se rellenar los espacios en blanco con valores faltantes (missings) hasta obtener una matriz de datos rectangular.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 19 de 73

    3.2.1 Aadir casos Consiste en combinar archivos que contienen las mismas variables pero casos diferentes. A partir del men Data Merge Data podemos seleccionar las dos bases de datos que queremos combinar (tienen que ser bases de datos abiertas).

    La siguiente pantalla nos indica las variables que aparecen en las dos bases de datos y las que estn desemparejadas. La opcin Auto-Pair nos permite emparejar variables que no tienen el mismo nombre. Para aadir casos debemos seleccionar todas las variables comunes y ponerlas en el recuadro Match Cases By.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 20 de 73

    Observacin: las variables que aparecen en las dos bases de datos tienen que ser del mismo tipo.

    3.2.2 Aadir variables Para aadir variables resulta interesante tener una variable que sirva de identificador dentro de cada base de datos. A partir del men Data Merge Data podemos seleccionar las bases de datos que vamos a fusionar, el nombre de la nueva base de datos y en la siguiente ventana indicar cul es nuestra variable clave:

    Identificacin de variables comunes en las dos bases de datos

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 21 de 73

    3.3 Transformar variables El men Data Transform proporciona una gran variedad de opciones para transformar y reescalar variables:

    o Center: Reescala las variables para que tengan media 0. o Standardize: Reescala las variables para que tengan media 0 y desviacin estndar 1. o Robust Standardize: Reescala las variables para que tengan media 0 y desviacin

    absoluta mediana 1.

    o Range: Transforma la variable para que tome valores entre 0 y 1. o Box-cox: Transforma la variable para intentar obtener una distribucin normal. o Rank: Reemplaza los valores por su rango. o Log: Devuelve el logaritmo neperiano (para valores mayores que 0). o Square root: Devuelve la raz cuadrada. o Absolute value: Devuelve el valor absoluto. o Quantiles: Divide la variable en grupos con el mismo nmero de observaciones. o Equal width: Divide la variable en grupos con intervalos de la misma amplitud. o Custom: Permite definir transformaciones personalizadas.

    Parte relativa a la Base de

    Datos ADL2Parte relativa a la Base de

    Datos ADL1

    Variable identificadora

    de casos

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 22 de 73

    4 VALIDACIN DE LA BASE DE DATOS Antes de realizar cualquier anlisis hace falta hacer un ejercicio de validacin de la base de datos.

    En primer lugar hace falta detectar si hay variables que toman el mismo valor para todos los individuos, as como variables que no contienen valores.

    En segundo lugar hace falta detectar posibles errores en las variables, esto quiere

    decir encontrar rangos de valores y algunos estadsticos descriptivos para las variables cuantitativas, y tablas de frecuencias para las variables cualitativas.

    Finalmente hara falta validar la consistencia interna de los datos. As, por

    ejemplo, en datos de encuesta es validar la congruencia de las respuestas en el sentido que si un individuo responde una determinada opcin en una pregunta, entonces slo puede responder unas opciones concretas de otras.

    Para poder llevar a cabo este proceso hace falta conocer bien la encuesta de donde provienen los datos. Ejercicios Ajuntar las bases de datos ADL1, ADL2 y ADL3 en una misma base de datos (ADL123) y validar la nueva base de datos. Definir correctamente el tipo de variables en la pestaa Type de Variable View y crear etiquetas para las variables categricas:

    o Hospital (A y B) o Group (1=Control, 2=Treatment) o Gender (1=Male, 2=Female) o Risc factors (1=Yes, 2=No)

    Crear una variable indicadora del nmero de factores de riesgo por individuo.

    Cdigo en R para generar la variable nmero de factores de riesgo:

    ADL123$ RiskFactors

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 23 de 73

    5 ANLISIS DESCRIPTIVO

    5.1 Introduccin Plantearse algunas preguntas preliminares puede ayudar a distinguir qu tiene sentido y qu no:

    Conocer la fuente de donde provienen los datos nos puede informar de su calidad.

    Saber si la informacin de que disponemos es completa en el sentido que sea posible extraer conclusiones y no slo impresiones. La base de datos ms fina puede inducir a error si no estn actualizados los posibles cambios de medida en la obtencin de los datos.

    Plantear qu pueden ilustrar los datos.

    La ESTADSTICA DESCRIPTIVA es un conjunto de mtodos e ideas para organizar y describir los datos mediante grficos y medidas de resumen numricas.

    5.2 Estadsticos resumen Como hemos visto en los apartados previos, las variables pueden ser diferenciadas segn:

    o CUALITATIVAS o CATEGRICAS

    o CUANTITATIVAS Las variables tambin las clasificamos en funcin del papel que tenga en el anlisis:

    o Variable Respuesta (variable de inters, Y). Mide el resultado del estudio.

    o Variables Explicativas (X). Variables de control que contribuyen a explicar su comportamiento.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 24 de 73

    5.2.1 Variables cualitativas Para resumir una variable cualitativa o cuantitativa de valores enteros utilizaremos las Tablas de Frecuencias.

    El nmero de veces que se repite un valor en una variable es la frecuencia absoluta, fa. Si n es el total de individuos, entonces fa / n es su frecuencia relativa.

    La frecuencia acumulada es la suma de frecuencias absolutas hasta un

    determinado valor una vez ordenados de forma creciente los valores de la variable (ordinal o cuantitativa con valores enteros).

    La distribucin de una variable es el conjunto de valores juntamente con sus frecuencias (absolutas o relativas). En Deducer podemos obtener las frecuencias a travs del men Analysis Frequencies:

    El botn de opciones permite modificar el nmero de dgitos para los porcentajes que aparecern en los resultados (el valor predeterminado es una cifra decimal).

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 25 de 73

    Tras aceptar los resultados aparecen en la consola en formato de texto: $group ------------------------------------------------------------ -- Frequencies -- -- -- Value # of Cases % Cumulative % 1 Control 46 46 46 2 Treatment 54 54 100 -- -- -- Case Summary -- -- -- Valid Missing Total # of cases 100 0 100 -- -- ------------------------------------------------------------ Para cada variable seleccionada obtenemos la tabla de frecuencias con las frecuencias absolutas (# of Cases) y relativas (%) y las frecuencias absolutas acumuladas (Cumulative %). Tambin aparece una tabla resumen con el nmero total de casos vlidos y de valores perdidos (missing). Por defecto el formato de los resultados no es fcilmente exportable. Es aconsejable instalar el paquete Deducer Richoutput que genera resultados en formato HTML. Para instalar este paquete ejecutar el siguiente cdigo: install.packages("DeducerRichOutput", repos="http://R-Forge.R-project.org") y cargar el paquete desde el men Package Manager.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 26 de 73

    5.2.2 Variables cuantitativas Para las variables cuantitativas, en las que puede haber un gran nmero de valores observados distintos, se ha de optar por un mtodo de anlisis distinto, respondiendo a las siguientes preguntas:

    1. Alrededor de qu valor se agrupan los datos?

    2. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy concentrados? muy dispersos?

    5.2.2.1 Medidas de localizacin Se utilizan para resumir las caractersticas ms relevantes de los datos. Podemos utilizar:

    o Media ( X ): centro de masas o Mediana: punto medio o Moda: el valor ms repetido

    La media se sita en el punto de equilibrio del histograma de una variable cuantitativa: La Media y la Mediana coinciden si la distribucin es simtrica. Si no coinciden, es preferible la mediana (es menos sensible a datos extremos). Otras medidas de resumen son los Cuartiles, tres valores que dividen la distribucin en cuatro partes.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 27 de 73

    5.2.2.2 Medidas de dispersin Sirven para resumir la dispersin. Las ms habituales son:

    o Rango = max min o Rango Intercuartil = Q3 Q1 o Varianza (S2): una medida de la dispersin entorno de la media. o Desviacin estndar (S)

    Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida relativa de variabilidad. Se define para variables cuantitativas no negativas como el cociente entre la desviacin estndar y la media:

    XSCV

    Este coeficiente es invariante para cambios de escala. En Deducer podemos obtener los estadsticos de resumen a travs del men Analysis Descriptives:

    En el recuadro Stratify By podemos indicar una variable categrica para obtener los estadsticos para cada una de las categoras de esta variable.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 28 de 73

    Al hacer clic en Continue aparece una nueva ventana donde podemos seleccionar los estadsticos deseados:

    En caso de desear un estadstico que no aparece en la lista se puede solicitar mediante programacin en la pestaa Custom. Ejemplo: Funcin para calcular el Coeficiente de Variacin (CV).

    Observacin: Las funciones personalizadas no funcionan cuando tenemos activado el DeducerRichOutput.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 29 de 73

    5.3 La representacin grfica ms adecuada Los grficos se encuentran en el men Plots. La manera ms sencilla de representar grficos es a partir del generador de grficos (Plot Builder). Al seleccionar esta opcin aparece una ventana interactiva que nos permite ver una presentacin preliminar del aspecto que tendr un grfico. Desde el mismo generador de grficos se pueden guardar los grficos a partir del men File Save. Tambin se pueden crear Nuevas plantillas (Templates) para ser compartidas entre usuarios sin la necesidad de hacer ningn tipo de codificacin. Observacin: Es recomendable tener instalado el paquete ggplot2 para poder acceder a una mayor variedad de templates. Algunos de los grficos se pueden construir de manera interactiva a travs del men Plots Interactive. Este tipo de grficos permite editar algunos aspectos de grfico (colores, ejes, etc.) de forma interactiva.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 30 de 73

    5.3.1 Variables cualitativas Se representan las frecuencias o porcentajes de las diferentes categoras. Se pueden utilizar diagramas de barras o grficos de sectores.

    5.3.1.1 Diagrama de barras A partir del generador de grficos (Plot Builder) podemos seleccionar el tipo de grfico deseado:

    Al seleccionar el grfico de barras se abre una nueva ventana donde indicaremos la variable categrica que queremos representar. El grfico de barras para la variable travel es el siguiente:

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 31 de 73

    Si utilizamos el men de grficos interactivos podremos convertir el grfico resultante en un grfico de espinas (spine plot):

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 32 de 73

    5.3.1.2 Grficos de sectores En un grfico de sectores el rea de cada sector es proporcional a su frecuencia. Este tipo de grfico no se puede obtener de manera automtica en la versin de Deducer para Windows, pero s mediante cdigo:

    slices

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 33 de 73

    5.3.2 Variables cuantitativas Para las variables cuantitativas se describe el patrn general de la distribucin de las variables y permiten detectar outliers.

    5.3.2.1 Histograma El histograma permite representar variables cuantitativas una vez agrupados los valores en clases. Representa las frecuencias y las clases de una variable cuantitativa. Las clases deben formar un sistema exhaustivo y excluyente. Al seleccionar la opcin histogram del generador de grficos (o a partir del men Plot Proc Templates Histogram) obtenemos la siguiente representacin de la variable edad:

    Seleccionando la opcin simple dotplot obtenemos un grfico similar donde las barras del histograma estn formadas por bolas.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 34 de 73

    5.3.2.2 Diagrama de caja Un diagrama de caja es un grfico basado en los valores mnimo y mximo y los cuartiles (Q1, Q2 o mediana y Q3). Informa sobre la existencia de valores atpicos y la simetra de la distribucin:

    5.3.2.3 Grfico de serie temporal Un grfico de serie temporal representa la evolucin de una variable a lo largo del tiempo. Para una mejor interpretacin en grficos de series temporales es mejor poner la variable temporal en el eje horizontal:

    Mnimo

    Mximo

    Mediana

    Q1

    Q3

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 35 de 73

    5.4 Medidas de asociacin El principal objetivo cuando se tienen dos o ms variables est en medir la posible asociacin entre ellas. La relacin Causa-Efecto Muchas veces es fuente de interpretaciones errneas de los resultados. En estadstica, generalmente, se busca analizar si ciertos factores presentan un efecto sobre una determinada variable respuesta. No siempre se puede asegurar que la causa de este efecto sea el factor. Ejemplo: Tenemos dos grupos de personas en situacin de paro. El primer grupo realiza un curso de formacin y la mayora de ellos consigue un trabajo. En el segundo grupo no se realiza el curso y la mayora no consigue un trabajo. Podemos afirmar que hacer el curso mejora las condiciones a la hora de encontrar trabajo? Depende del entorno de recogida de datos. Para poder afirmar esta implicacin se necesitara que las dos muestras fuesen homogneas, en un sentido socio-econmico. Esto es, ambos grupos deberan ser iguales de emprendedores, con iniciativa y con un perfil sociolgico similar. Por ejemplo, podra ser el caso que en el primer grupo todos sus componentes fueran jvenes con muchas ganas de trabajar; el segundo grupo sin embargo podra estar formado por personas mayores poco motivadas y sin estudios.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 36 de 73

    Establecer una relacin causal no es nada simple. Raramente A es la causa de B. Fumar, por ejemplo, es slo una causa que contribuye a desarrollar cncer de pulmn; es una de las causas que aumenta la probabilidad de cncer. Freedman remarc que las demostraciones estadsticas de causa-efecto estaban basadas en hiptesis que a menudo no estaban validadas correctamente. Freedman, D. (1999). "From Association to Causation: Some Remarks on the History of Statistics," Statistical Science, 14, 243-258.

    5.4.1 Dos variables cualitativas Para variables CUALITATIVAS la asociacin entre ellas se analiza a partir de la Tabla de Contingencia (men Analysis Contingency Tables). Ejemplo: relacin entre el nmero de factores de riesgo y el sexo.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 37 de 73

    female male

    Marginal fila

    0 11 5 16 n1.

    1 18 19 37 n2.

    2 21 14 35 n3.

    3 4 8 12 n4.

    Marginal columna 54 46 100

    n.1 n.2 N

    A partir de esta tabla se definen los perfiles fila y columna:

    o Frecuencia relativa conjunta = nij / n o Perfil fila i = {nij / ni. per j=1,..J} o Perfil columna j = {nij / n.j per i=1,..I}

    Para obtener estos perfiles debemos seleccionar los porcentajes fila (Row) o columna (Column) en el botn Cells:

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 38 de 73

    Perfil fila

    Perfil columna

    Representacin grfica: grfico de barras agrupado.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 39 de 73

    5.4.2 Dos variables cuantitativas Un primer paso es la representacin grfica de ambas variables simultneamente. Para variables CUANTITATIVAS se utiliza el Diagrama de dispersin:

    Una medida numrica para la asociacin lineal entre variables QUANTITATIVAS es el coeficiente de correlacin ():

    XX

    XY

    SSS

    donde Sxy es la covarianza entre las variables. El coeficiente de correlacin mide el grado de asociacin lineal entre variables.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 40 de 73

    Relacin entre los valores del coeficiente de correlacin y el grfico de dispersin de las variables:

    R = 0.00 R = 0.10

    X1

    13121110987

    Y

    3

    2

    1

    0

    -1

    -2

    -3

    -4

    X2

    13121110987

    Y

    3

    2

    1

    0

    -1

    -2

    -3

    -4

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 41 de 73

    R = 0.20

    R = 0.50

    R = 0.90

    R = 0.99

    R = 0.60

    R = 0.01

    X3

    13121110987

    Y

    3

    2

    1

    0

    -1

    -2

    -3

    -4

    X4

    14121086

    Y

    3

    2

    1

    0

    -1

    -2

    -3

    -4

    X5

    20100

    Y

    3

    2

    1

    0

    -1

    -2

    -3

    -4

    X6

    403020100-10-20-30

    Y

    3

    2

    1

    0

    -1

    -2

    -3

    -4

    X7

    222018161412108

    Y

    3

    2

    1

    0

    -1

    -2

    -3

    -4

    X8

    222018161412108

    Y

    3

    2

    1

    0

    -1

    -2

    -3

    -4

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 42 de 73

    6 INFERENCIA PARA UNA POBLACIN

    6.1 Introduccin Despus de llevar a cabo un anlisis descriptivo de los datos el objetivo es poder generalizar los resultados para conjuntos ms grandes de individuos as como poder sacar conclusiones a partir de los datos. La PROBABILIDAD permite calibrar el poder de nuestras conclusiones. Poblacin: conjunto completo de individuos para los cuales se desea obtener informacin. Muestra: subconjunto de individuos de la poblacin para los cuales realmente se obtiene la informacin de inters. OBSERVACIN: la poblacin est definida a partir de nuestro deseo de conocimiento. Los resultados obtenidos en una muestra sern extrapolables a la poblacin de referencia si la muestra cumple dos caractersticas fundamentales:

    Fiabilidad (Precisin): la fiabilidad de una muestra est vinculada a la precisin de sus resultados, es decir, al tamao de muestra.

    Validez (Sesgo): la validez de una muestra se refiere a que la muestra no

    presente sesgos, es decir errores de medida sistemticos atribuibles a otra causa distinta del azar.

    Un buen diseo del experimento permitir controlar las posibles fuentes de sesgo y asegurar la validez del estudio.

    o Una muestra representativa debe ser fiable y vlida. o No confundir muestra significativa con muestra representativa. o Una muestra de 20.000 individuos no tiene porque ser representativa de nada a no

    ser que se compruebe su validez, aunque seguramente sea suficientemente fiable.

    o En una muestra de 10 individuos los resultados sern poco fiables aunque seguramente la muestra sea suficientemente vlida.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 43 de 73

    La Estadstica es una herramienta que permite describir y cuantificar las evidencias observadas en una muestra intentando diferenciar entre lo que podra haber sucedido por azar y lo que podra atribuirse a otras causas (de inters). Inferir significa sacar conclusiones de los datos teniendo en cuenta la variacin debida al azar.

    6.2 Variables aleatorias Los datos que habitualmente se analizan provienen de un experimento aleatorio:

    Un experimento aleatorio o estocstico es aquel que bajo las mismas condiciones puede producir resultados diferentes pero con una distribucin regular de resultados para un nmero grande de repeticiones. Un ejemplo de experimento aleatorio es el lanzamiento de un dado.

    Un experimento es no aleatorio o determinista si bajo las mismas condiciones

    siempre conduce a un mismo resultado. Un ejemplo son las frmulas fsicas: Fuerza = Masa * Aceleracin.

    Las variables aleatorias son aplicaciones que transforman los resultados de un experimento aleatorio en nmeros con el fin de poder realizar las operaciones ms usuales, luego todos los resultados de un experimento aleatorio quedan recogidos en una variable aleatoria. Antes de realizar cualquier inferencia estadstica es necesario identificar la distribucin de probabilidad (la forma) de la variable aleatoria que se pretende analizar. Algunos instrumentos para ello son:

    o Histograma, diagrama de caja, rango de la variable. o Grficos de cuartiles (Q-Q plot) o grfico de probabilidades (P-P plot). o Pruebas de ajuste a una distribucin (Test de Shapiro Wilk / Kolmogorov-

    Smirnoff).

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 44 de 73

    6.3 Estimacin de parmetros Un parmetro es un nmero que describe una caracterstica de la poblacin. En la prctica los valores de los parmetros son desconocidos. Un estadstico es un nmero que se calcula a partir de los datos de una muestra de la poblacin. En la prctica se utilizan los estadsticos para estimar los parmetros de la poblacin. Un estimador es cualquier funcin de una muestra, esto es un estadstico es un estimador puntual. Debemos observar que un estimador es una variable aleatoria mientras que una estimacin es un valor del estimador.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 45 de 73

    6.3.1 Estimacin puntual Una estimacin puntual es el valor del estimador dada una muestra concreta. Los estimadores puntuales ms frecuentemente utilizados son:

    o Media muestral:

    o Variancia muestral:

    o Proporcin: A los estimadores bsicamente se les requiere dos propiedades:

    Sin sesgo, es decir que no se encuentren muy alejados del valor real del parmetro que estiman, y

    de mnima varianza posible, es decir que las distintas estimaciones estn prximas

    entre s.

    n

    XiX

    n

    i 1

    1

    1

    2

    2

    n

    XXS

    n

    ii

    p

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 46 de 73

    6.3.2 Intervalos de confianza En inferencia estadstica uno de los instrumentos ms comunes para estimar el valor de un parmetro de la poblacin son los intervalos de confianza. Un intervalo de confianza del C% para un parmetro es un intervalo de valores calculado a partir de los datos de la muestra utilizando un mtodo que tiene una probabilidad C de que dicho intervalo contenga el verdadero valor del parmetro. El parmetro poblacional pertenece al intervalo calculado con una confianza del C%. La media muestral y la desviacin estndar son buenos estimadores puntuales de la media y la desviacin estndar de la poblacin. Dado que los datos son las observaciones de una variable aleatoria, estos estimadores son a la vez variables aleatorias. Por lo tanto tienen una determinada distribucin, que en el caso de la media es la distribucin Normal. As pues podemos calcular un intervalo de valores [a,b] tales que Grficamente: para una normal tipificada (media = 0 y desviacin = 1), un intervalo de confianza del 95% se puede representar como:

    La probabilidad de que una variable normal tipificada tome valores en el intervalo [-1.96, 1.96] es del 95%.

    cbXaP )(

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 47 de 73

    Para realizar inferencia estadstica debemos interpretar los intervalos de confianza para un parmetro a partir del siguiente grfico:

    Si repetimos el experimento 100 veces o tomamos 100 muestras, en 95 ocasiones el parmetro pertenecer al Intervalo de Confianza del 95% y en 5 ocasiones caer fuera del intervalo. Intervalo de confianza para la media: Intervalo de confianza para una proporcin:

    ,~ NXi

    n

    Nn

    XX

    n

    i i ,~1

    n

    Xn

    XCI 96.1,96.1:%)95.(.

    )(~ pBernoulliYi

    pYPpYP

    i

    i

    1)0()1(

    npppN

    nY

    Ypn

    i i 1, 1

    n

    pppn

    ppppCI 196.1,196.1:%)95.(.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 48 de 73

    Para obtener intervalos de confianza en Deducer debemos seleccionar el men Analysis One Sample Test y seleccionar el Test One-sample t-test.

    Observacin: Para obtener el intervalo de confianza de una proporcin debemos instalar el paquete DeducerExtras. Ejercicio Calcular pos intervalos de confianza para las proporciones de las variables indicadoras de cada uno de los factores de riesgo.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 49 de 73

    6.4 Pruebas de hiptesis Un segundo bloque de instrumentos para la inferencia estadstica son las pruebas de hiptesis. Estas evalan la evidencia de una afirmacin sobre la poblacin. En estadstica una afirmacin sobre la poblacin se plantea en forma de hiptesis de trabajo. Las dos hiptesis complementarias se llaman: Hiptesis nula (H0) Hiptesis alternativa o de investigacin (H1) La hiptesis nula corresponde a la hiptesis que creemos cierta por defecto y la alternativa corresponde a la hiptesis que se desea probar. Las hiptesis hacen siempre referencia a los parmetros de la poblacin. Una prueba de hiptesis es un procedimiento que especifica:

    1. Para que valores muestrales la decisin ser no rechazar la hiptesis nula. 2. Para que valores muestrales la hiptesis nula ser rechazada a favor de la alternativa.

    P-valor: probabilidad que, bajo H0, el estadstico de contraste tome un valor al menos tan alejado como el realmente obtenido.

    Cuanto ms pequeo sea el p-valor mayor es la evidencia en contra de H0.

    Se rechazar la hiptesis nula si el p-valor es menor que el nivel de significacin adoptado (en general 0,05).

    En un contraste de hiptesis, debemos rechazar o no la hiptesis nula a favor de la

    alternativa. Deseamos que nuestra decisin sea correcta, pero a veces no lo ser. Hay dos tipos de decisiones incorrectas: Rechazar H0 cuando de hecho es cierta: error de tipo I

    NO rechazar H0 cuando realmente es cierta H1: error de tipo II Observacin: el error de tipo I = nivel de significacin =

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 50 de 73

    En siguiente cuadro resume los tipos de errores que se pueden cometer en un contraste de hiptesis:

    El error de Tipo I es ms grave que el error de Tipo II. Resumiendo, el esquema a seguir es:

    Para llevar a cabo un contraste de hiptesis para la media debemos volver al men anterior y definir como valor de prueba el valor que deseamos contrastar (botn de opciones del t-test, ).

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 51 de 73

    6.5 Relacin entre IC y Test de hiptesis Cuando en una prueba estadstica se pretende comparar dos medias, el IC proporciona informacin paralela a la proporcionada por el test de hiptesis correspondiente. Es necesario que el nivel de confianza sea 1-, siendo el nivel de significacin del test aplicado.

    o Si el IC no contiene el 0, se rechaza H0: Diferencia=0.

    o Si el IC no contiene el valor 2, se rechaza H0: Diferencia=2. NOTA: Esta similitud es aplicable para pruebas T, o basadas en la distribucin Normal.

    6.6 Pruebas de normalidad Para llevar a cabo un contraste de normalidad debemos seleccionar la prueba de Shapiro-Wilk en el men de One Sample Test.

    El contraste de hiptesis que realiza esta prueba es el siguiente: H0: la distribucin es Normal H1: la distribucin NO es Normal En este ejemplo hemos obtenido un nivel de significacin (p-valor) de 0,001. Si fijamos el lmite en 0,05 rechazaramos la H0 (no podramos considerar que la distribucin de la variable los es Normal).

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 52 de 73

    La sumisin de los investigadores al p-valor La utilizacin sistemtica del p-valor puede llevar a resultados engaosos. EJEMPLO: Se quiere analizar la estancia en das de los turistas en Catalunya. En concreto se desea comparar las estancias de los europeos y los procedentes de pases asiticos. Un contraste en trminos de las diferencias se plantea como: H0: d = 0 (no hay diferencia) H1: d 0 El p-valor del test estadstico resulta ser p=0,02, con lo que se concluye que hay diferencias. Es suficiente? Necesitamos medir el tamao del efecto realizando un intervalo de confianza para la diferencia ya que podra ser, por ejemplo, que la diferencia se situara en el intervalo (0,5 - 1) o bien en el intervalo (10 - 15). QUE ES UNA DIFERENCIA ESTADSTICAMENTE SIGNIFICATIVA? (en un contraste de diferencias)

    Si se obtiene un p-valor

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 53 de 73

    7 INFERENCIA PARA DOS POBLACIONES

    7.1 Introduccin La Inferencia Estadstica para dos poblaciones pretende generalizar los resultados y comparar los datos de una o diversas variables respuesta medidas en dos muestras, sin tener en cuenta otras variables (factores de riesgo). Dos muestras independientes son aquellas para las cuales no existe ningn vnculo entre ellas. Provienen de poblaciones independientes. Dos muestras relacionadas son aquellas que se refieren a la misma poblacin y han medido la misma variable respuesta. PLANTEAMIENTO DEL PROBLEMA En primer lugar el investigador debe identificar la naturaleza de las variables que desea estudiar. Es decir:

    Variable Respuesta: Distribucin (continua, ordinal, categrica).

    Variable Explicativa: Nmero de grupos o niveles.

    As cmo la idoneidad del tipo de prueba: Homogeneidad Basal, Grupos bien balanceados.

    EJEMPLO: Se ha realizado un estudio incluyendo a 100 pacientes que han tenido una accidente cerebrovascular. Se asigna de forma aleatoria a los pacientes, a cada uno de los dos tratamientos. Se desea comparar la estancia de los pacientes en el hospital. Se ha recogido la siguiente informacin: Grupo de tratamiento, sexo, edad, das de estancia en el hospital, peso inicial y final, diabetes, hipertensin, fibrilacin arterial, antecedente cardiovascular, fuma, presin sistlica elevada, hbitos de viaje, hbitos de cocina y realiza tareas domsticas.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 54 de 73

    7.2 Comparar medias

    7.2.1 Muestras independientes Para comparar una variable respuesta entre dos muestras independientes cuando dicha variable sigue una distribucin normal se utiliza la prueba T de Student (T-Test) para muestras independientes. La hiptesis que contrasta es:

    H0: 1= 2 las medias son iguales H1: 1 2 las medias son diferentes

    EJEMPLO (continuacin): Deseamos estudiar hay diferencias entre la estancia media de los hombres y de las mujeres. En primer lugar debemos contrastar si podemos asumir que la distribucin de la variable estancia es Normal (para cada grupo). Para llevar a cabo estos contrates debemos ir al men Analysis One Sample Test y seleccionar la prueba de Normalidad. En el recuadro Subset indicaremos el grupo para el cual queremos realizar el contraste y repetiremos el anlisis para el resto de grupos.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 55 de 73

    Gender==male

    Gender==female

    No rechazamos la hiptesis nula (p-valor > 0,05) por lo tanto podemos aceptar que la variable los sigue una distribucin normal en cada uno de los grupos. EJEMPLO (continuacin): La hiptesis que deseamos contrastar es:

    H0: H= M La estancia en el hospital es igual H1: H M La estancia en el hospital es diferente

    Para llevar a cabo dicha prueba seleccionamos la prueba T-Test del cuadro de dilogo anterior y obtenemos el siguiente resultado:

    NOTA: La prueba realizada considera que las varianzas son distintas en los dos grupos. En caso que querer realizar el test asumiendo que estas son iguales se puede seleccionar la opcin Equal variance dentro de la pestaa de opciones del T-Test.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 56 de 73

    7.2.2 Prueba de igualdad de varianzas Para determinar si las varianzas son iguales podemos realizar el siguiente contraste de hiptesis:

    H0: 1 = 2 Las variancias son iguales H1: 1 2 Las variancias no son iguales

    EJEMPLO (continuacin): Para llevar a cabo este contrate debemos ir al men Extras k-sample variance test y seleccionar la prueba de Levene.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 57 de 73

    En caso de no tener el men Extras instalado este debe cargarse desde el men Packages and Data Package Manager y seleccionar el paquete DeducerExtras.

    7.2.3 Inferencia no paramtrica A la prctica, muchas veces no podemos aceptar la hiptesis de normalidad en los datos. En estas situaciones se puede hacer uso de mtodos no paramtricos que no suponen ninguna hiptesis sobre la distribucin de los datos. Para comparar una variable respuesta entre dos muestras independientes cuando dicha variable es continua (no-normal) o bien ordinal se utiliza la prueba de suma de rangos Wilcoxon (tambin llamada prueba U de Mann-Whitney o prueba de Mann-Whitney-Wilcoxon). La hiptesis que contrastan es:

    H0: La mediana del grupo 1 es igual a la mediana del grupo 2. H1: La mediana del grupo 1 NO es igual a la mediana del grupo 2.

    Este test se encuentra en el mismo men Analysis Two Sample Test seleccionando la opcin Wilcoxon.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 58 de 73

    7.2.4 Muestras relacionadas Para comparar una variable respuesta entre dos muestras relacionadas cuando dicha variable sigue una distribucin normal se utiliza la prueba T de Student (T-Test) para muestras relacionadas. La hiptesis que contrasta es:

    H0: 1= 2 las medias son iguales H1: 1 2 las medias son diferentes

    EJEMPLO (continuacin): A los pacientes del estudio anterior se les ha pesado antes y despus de salir del hospital. Deseamos contrastar si hay diferencias entre el peso inicial y el peso final. La hiptesis que deseamos contrastar es:

    H0: 1= 2 los pesos son iguales H1: 1 2 los pesos son distintos

    Para llevar a cabo dicha prueba con Deducer seleccionamos el men Analysis Paired Test:

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 59 de 73

    Para realizar una prueba no paramtrica deberamos seleccionar la opcin Wilcoxon Signed Rank.

    7.3 Variables categricas Para comparar una variable respuesta entre dos muestras independientes cuando dicha variable es categrica se utilizan las pruebas 2, prueba exacta de Fisher o prueba de Razn de verosimilitud (Likelihood Ratio Test). La hiptesis que contrastan es:

    H0: La variable respuesta es independiente de la variable explicativa (Los grupos de tratamiento son homogneos). H1: La variable respuesta NO es independiente de la variable explicativa (Los grupos de tratamiento no son homogneos).

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 60 de 73

    EJEMPLO (continuacin): Deseamos estudiar si la distribucin de los factores de riesgo es homognea en hombres y mujeres. La hiptesis que deseamos contrastar es:

    H0: La distribucin de los factores de riesgo es homognea en hombres y mujeres. H1: La distribucin de los factores de riesgo NO es homognea en hombres y mujeres.

    Para llevar a cabo dicha prueba con Deducer seleccionamos Analysis Contingency Tables. En el botn Statistics seleccionamos las opciones Chi-cuadrado y Likelihood:

    Y obtenemos el siguiente resultado:

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 61 de 73

    8 INFERENCIA PARA K POBLACIONES

    8.1 Introduccin La Inferencia Estadstica para k poblaciones generalizar los mtodos estadsticos vistos en el apartado anterior. Se dispone de una variable Respuesta (continua, categrica, ordinal) y una variable Explicativa que define k grupos o categoras.

    8.2 Comparar medias

    8.2.1 Muestras independientes: prueba ANOVA El anlisis de la varianza (ANOVA: Analysis of Variance) es un procedimiento estadstico que tiene como objetivo descomponer la variabilidad observada en un ensayo experimental en funcin de los posibles factores que han podido influir en el resultado. Esta tcnica se utiliza en las situaciones en las que se desea analizar una variable continua medida bajo ciertas condiciones experimentales identificadas por uno o ms factores cualitativos. Cada factor identifica 2 o ms situaciones experimentales complementarias, y por lo tanto distingue grupos o niveles. Cuando hay un nico factor estudiado, el anlisis recibe el nombre de ANOVA de un factor. La prueba ANOVA de un factor generaliza la prueba T para dos muestras independientes. La hiptesis que contrasta es:

    H0: 1= 2 = = k las medias son iguales H1: Al menos una de las medias no es igual al resto

    La prueba ANOVA se sustenta en los supuestos de normalidad, homocedasticidad, independencia y aleatoriedad.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 62 de 73

    EJEMPLO (continuacin): Deseamos estudiar si existen diferencias entre la estancia media segn el grupo de edad al cual pertenecen. Como en el caso de comparar dos medias, en primer lugar debemos contrastar si podemos asumir que la distribucin de la variable estancia es Normal dentro de cada grupo de edad. Para ello, seleccionamos la preuba de normalidad de Shapiro-Wilk en el men Analysis One Sample Test. En el recuadro Subset indicaremos el grupo para el cual queremos realizar el contraste y repetiremos el anlisis para el resto de grupos.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 63 de 73

    age_cat ==

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 64 de 73

    Dado el p_valor obtenido, se rechaza la hiptesis nula. Existen diferencias en las estancias medias de los diferentes grupos de edad.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 65 de 73

    NOTA: La prueba realizada considera que las varianzas son iguales en todos los grupos. En caso que querer realizar el test asumiendo que son diferentes se ha de seleccionar la opcin One-Way ANOVA(Welch).

    Se observa que la conclusin de la prueba no ha variado. No obstante, es obvio que se debe validar la hiptesis de homogeneidad de varianzas a priori.

    8.2.2 Prueba de homogeneidad de varianzas Para determinar si las varianzas son iguales podemos realizar el siguiente contraste de hiptesis:

    H0: Las variancias son iguales en todos los grupos H1: Al menos un grupo presenta una variabilidad diferente al resto

    En este caso utilizaremos la misma prueba que se ha visto para el caso de dos variancias la prueba de Levene: men Extras k-sample variance test. EJEMPLO (continuacin): Veamos para el ejemplo anterior si exista homogeneidad de variancias:

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 66 de 73

    Se observa que efectivamente no se rechaza la igualdad de variancias (p_valor > 0,05). Luego, existe homoscedasticidad en los grupos.

    8.2.3 Comparaciones mltiples 2 a 2 Hemos visto que el procedimiento ANOVA permite determinar si existen diferencias entre ms de dos grupos pero no informa sobre qu grupo o grupos son los que difieren. Por ello, tras la realizacin de la prueba ANOVA es interesante realizar las llamadas comparaciones mltiples a posteriori o 2 a 2.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 67 de 73

    Las comparaciones mltiples consisten en contrastar simultneamente todas las parejas dos a dos que se puedan dar. Las hiptesis que se contrastan son:

    H0: 1= 2 las medias son iguales H1: 1 2 las medias no son iguales H0: 1= 3 las medias son iguales H1: 1 3 las medias no son iguales H0: 1= k las medias son iguales H1: 1 k las medias no son iguales . . . H0: k-1 = k las medias son iguales H1: k-1 k las medias no son iguales

    La realizacin de todas las comparaciones 2 a 2 conduce habitualmente a un elevado nmero de comparaciones. Dichas comparaciones no son independientes las unas de las otras y ello es necesario aplicar correcciones por multiplicidad de contrastes para garantizar que el nivel de significacin conjunto no sea superior al 5%: Los contrastes mltiples se encuentran dentro del men K-Sample Test en la pestaa Pairwise.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 68 de 73

    Las comparaciones mltiples indican que las diferencias entre los grupos de edad detectados en la prueba ANOVA anterior se dan entre el grupo de

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 69 de 73

    Dado el p_valor obtenido, se rechaza la hiptesis nula. Existen diferencias entre las medianas de los tiempos de estancia en el hospital de los diferentes grupos de edad.

    8.2.5 Muestras relacionadas Para comparar una variable respuesta entre ms de dos muestras relacionadas se utiliza la prueba de Friedman alternativa no paramtrica a la prueba ANOVA de medidas repetidas. La hiptesis que contrasta es:

    H0: Los rangos esperados en todas las muestras son iguales entre s H1: Existe por lo menos una muestra con rango diferente al resto

    Para llevar a cabo dicha prueba con Deducer seleccionamos el men Analysis Extras Ranking analysis:

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 70 de 73

    8.3 Variables categricas Para comparar una variable respuesta categrica entre dos o ms muestras independientes se utilizan las pruebas vistas en la seccin 7.3: 2, prueba exacta de Fisher o prueba de Razn de verosimilitud (Likelihood Ratio Test).

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 71 de 73

    9 RESUMEN METODOLGICO Los datos (variables) son caractersticas observables de los individuos de una poblacin. Pueden ser:

    CUALITATIVAS o CATEGRICAS: etiquetas (numrica o no) que representan el grupo o categora a la cual pertenece un individuo.

    CUANTITATIVAS: valores numricos para los que tiene sentido realizar aritmtica.

    En estadstica, las variables tambin las clasificamos en funcin del papel que tienen dentro del anlisis de un determinado proyecto:

    Variable Respuesta: variable que queremos explicar en el anlisis. Variables Explicativas: variables que explican la variable respuesta.

    Cmo determinar qu prueba es la idnea? Variable respuesta categrica y variable explicativa categrica:

    o En general, prueba 2 o Si el nmero de casillas de la tabla de contingencia con frecuencia esperada < 5

    es superior al 25 %: Si la tabla es 2x2: Test Exacto de Fisher Si la tabla no es 2x2: Prueba de Razn de verosimilitud

    Variable respuesta continua y variable explicativa categrica (2 grupos):

    o Si la distribucin de la respuesta en cada grupo es Normal: T-Test. o Si la distribucin de la respuesta en cada grupo es Normal y no hay

    homogeneidad de varianzas: T-Test con la correccin de Welch. o Si la distribucin no es normal pero es continua y simtrica: Prueba U de

    Mann-Whitney. Variable respuesta continua y variable explicativa categrica (k grupos):

    o Si la distribucin de la respuesta en cada grupo es Normal: ANOVA. o Si la distribucin de la respuesta en cada grupo es Normal y no hay homogeneidad

    de varianzas: ANOVA con la correccin de Welch. o Si la distribucin no es normal pero es continua y simtrica: Prueba de Kruskal-

    Wallis.

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 72 de 73

    Cmo determinar si las pruebas T-Test o ANOVA son correctas? Normalidad de la variable respuesta en cada grupo:

    o Estudio grfico o Prueba de Shapiro-Wilk

    Homogeneidad de varianzas:

    o Estudio grfico o Prueba de Levene

  • Manual de Introduccin a Deducer _______________________________________________________________

    ______________________________________________________________________ Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina 73 de 73

    10 BIBLIOGRAFA Fellows I (2012). Deducer: An R Graphical User Interface (GUI) for Everyone. Version 2012-01-05, URL www.Deducer.org/manual.html Wickham H (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag, New York. En la siguiente pgina web se puede encontrar ayuda sobre ejemplos de cdigo en R para usuarios de R que se pueden implementar en Deducer. www.statmethods.net