curso basico analisis de datos ene2011

Upload: ricardo-cordova

Post on 17-Jul-2015

91 views

Category:

Documents


0 download

TRANSCRIPT

Departamento de Matemticas y Computacin Universidad de La Rioja Curso bsico de anlisis de datos con Statistica Enero de 2011 Curso bsico de anlisis de datos con Statistica. A cargo de: rea de Estadstica e Investigacin Operativa. Departamento de Matemticas y Computacin. Universidad de La Rioja. Horario:Das 11, 13, 18 y 20 de enero, de 16:00 a 19:00 Lugar:Aula Informtica n 4 del CCT. Profesores:Juan Carlos Fillat Ballesteros Despacho 226 del edificio Vives. [email protected] Zenaida Hernndez MartnDespacho 227 del edificio Vives. [email protected] Ortigosa Martnez Despacho 206 del edificio Vives. [email protected] Montserrat San Martn Prez Despacho 227 del edificio Vives. [email protected] Objetivo:El objetivo de este curso es Establecer los conceptos bsicos para realizar un anlisis estadstico metodolgicamente correcto, utilizando el programa STATISTICA. Programa:El curso consta de 4 sesiones con los siguientes contenidos: 1.Introduccin a Statistica. Estadstica Descriptiva 1.1.Organizacin de datos. Creacin de un archivo de datos. 1.2.Anlisis estadstico unidimensional. 2.Anlisis exploratorio de datos 2.1.Creacin de variables y gestin de datos. 2.2.Edicin de grficos. 3.Introduccin a la Inferencia Paramtrica 3.1.Inferencia Estadstica 3.2.Intervalos de Confianza 3.3.Contrastes de Hiptesis paramtricos 3.4.Contrastes paramtricos de dos poblaciones 4.Anlisis de la Varianza y Regresin Lineal 4.1.Anlisis de la Varianza (ANOVA) 4.2.Regresin Lineal Simple Sesin 1. Estadstica Descriptiva. 1.1 Organizacin de datos. Creacin de un archivo de datos. Parapoderrealizarcualquieranlisisestadsticodebemosdisponerdeunosdatos.Y estos datos corresponden a los valores obtenidos al estudiar determinadas caractersticas en los elementos de un conjunto de entes.Para fijar el lenguaje que utilizaremos, estableceremos los siguientes trminos:-Poblacin: es el conjunto de entes (personas, animales o cosas) sobre los que se va a llevar a cabo la investigacin estadstica.-Elemento: es cada uno de los componentes de la poblacin (pueden ser simples o compuestos)-Caracteres:sonlascualidadesorasgoscomunesatodalapoblacinyque vamosaestudiar(puedensercuantitativos(variables),ocualitativos (atributos)). Aunqueexisteelanlisisestadsticodeloscaracterescualitativos(enestecursonolo vamosaver),cuandosehabladeanlisisestadstico,generalmentenosreferimosal anlisisdelascaractersticascuantitativasobservadasenloselementosdeuna poblacin.Por lo tanto, generalmente trabajaremos con variables estadsticas que, atendiendo a los valores que pueden tomar, llamaremos discretas o continuas; y esta diferencia hace que en muchas ocasiones tengan un tratamiento diferente.Porotraparte,dentrodelosatributos(tambinllamadosvariablescualitativas),cabe distinguirdoscategoras:losatributosquesonsimplesnombresy/ocategoras,ylos atributos ordinales que adems permiten algn tipo de ordenacin.Otra cuestin muy importante que se debe tener en cuenta antes de realizar un anlisis estadsticoes,quesloquequeremosopodemoshacer,enfuncindeltamaodela poblacin objeto de estudio.-Si la poblacin es pequea y podemos obtener datos de todos los elementos de la misma, lo que haremos ser un anlisis descriptivo (Estadstica Descriptiva).-Pero,silapoblacinesmuygrande(infinitaotangrandequenopodemos abordarlaensutotalidad),nonosquedamsremedioquetomarunamuestra representativa,analizardichamuestrayluegoestudiarbajoqucondiciones podemos extender los resultados obtenidos con la muestra a toda la poblacin o sipodemosinferiralgnresultadoparalapoblacin.Enestoconsistela Inferencia Estadstica. Una vez que tenemos claros estos conceptos, vamos a comenzar un anlisis estadstico.Paso 1: Establecemos la poblacin que queremos estudiar.Paso 2: Determinamos las caractersticas que nos interesa analizar de dicha poblacin.Paso 3: Recogemos los datos.Paso 4: Comenzamos el anlisis de datos. Para analizar nuestra masa de datos, vamos a utilizar el programa Statistica. 3 Curso bsico de anlisis de datos con Statistica Enero de 2011 El software STATISTICA almacena los datos en unos ficheros que son como hojas de clculo y que nombra con la extensin .sta.Ojo!, los ficheros *.sta no se usan exclusivamente para almacenar datos susceptibles de unanlisisestadstico,sinoqueenellossepuedealmacenartambinotrotipode informacin,porloquedebemostenermuyclarocualeselcontenidodenuestro fichero. Supongamos que disponemos de la siguiente informacin que queremos analizar: Progresin de los 100 metros lisos masculinos (cronometrados electrnicamente): MarcaAtletaFecha de la marcaNacionalidad 9.95Jim Hines14/10/1968EEUU 9.93Calvin Smith3/07/1983EEUU 9.92Carl Lewis30/08/87EEUU 9.90Leroy Burrell14-06-91EEUU 9.86Carl Lewis25-08-91EEUU 9.85Leroy Burrell06-07-94EEUU 9.84Donovan Bailey29-07-1996Canad 9.79Maurice Greene16-06-99EEUU 9.77Asafa Powell14-06-2005Jamaica 9.74Asafa Powell9-09-2007Jamaica 9.72Usain Bolt31-05-2008Jamaica 9.69Usain Bolt16-08-2008Jamaica (datos sin actualizar en el 2009) Parapoderhacercualquieranlisisconestosdatosdebemoscrearunficherodedatos adecuado. Tenemos distintas opciones: a)Crear directamente el fichero con STATISTICA: a.Abrimos la aplicacin b.Archivo/Nuevo/Hoja de clculo i.Especificamos4variablesy12casos(comotodaslasvariables sondiferentes,elrestodelascaractersticaslasdefiniremosms adelante). ii.Colocar, como una ventana independiente c.Doble clic en el nombre de la primera variable, (vamos a ir definindolas todas): i.Var 1 --> Marca; Nmero con 2 decimales ii.Cambiamos de variable pulsando en >> iii.Var 2--> Atleta; tipo Texto; longitud 20; >> iv.Var3-->Fechamarca;formatoFecha(eligeel6formatotodas las fechas deben estar en el mismo formato); >> v.Var 4--> Nacionalidad; Etiquetas de texto (codificamos). Sesin 1. Estadstica Descriptiva.7 d.Ahora introducimos todos los datos (o los copiamos y pegamos). e.Guardamos nuestros datos con el nombre atletas.sta b)Otra opcin es importar el fichero desde otra aplicacin (por ejemplo, si tenemos los datos en una hoja de Excel: comercioexcel.xls (***)): a.Abrimos la aplicacin b.Archivo/Abrir.../buscamos el fichero que nos interesa i.Sihaymsdeunahojadellibroconposiblesdatosaimportar, habr que especificar cul queremos usar:

ii.Especificamoselrango:(pordefectoseleccionatodaslasfilasy columnas escritas en la hoja de Excel). iii.Importante: seala Extraer los nombres de la primera fila, iv.Importamos el formato de las celdas Curso bsico de anlisis de datos con Statistica Enero de 2011 c.Sialgunavariablenotieneelformatoadecuadolocorregimos,peroya tenemos nuestro fichero de datos. Ponemos etiquetas a las variables para indicar cul es el contenido de las mismas: Enunficherodeestascaractersticasesconvenientecodificarlosvaloresdelas variables: grupo, ubicacin y naturaleza jurdica. Como puedes comprobar, el sistema lo hahechoautomticamentealimportarlosdatos(engenerallohacecontodaslas variables que contienen texto). NOTA:en Herramientas/ Opciones / Hojas de clculo, se puede modificar nmero de inicio de los valores que se asignan a las etiquetas de texto. d.Guardamos nuestros datos con el nombre comercio.sta . (***) De entre los comercios al por menor de una comunidad autnoma, se toma una muestra. El archivo comercioexcel.xls contiene, para los 76 comercios de la muestra, los datos de las siguientes variables: ID: Cdigo de identificacin del comerciogrupo: Grupo de actividad al que pertenece el comercio (1=Alimentacin, 2=Equipamiento personal, 3=Equipamiento del hogar, 4=Otros) ubic: Ubicacin del comercio (0=Dentro de un centro comercial, 1=Fuera de cualquier centro comercial) jurid: Naturaleza jurdica del comercio (1=Persona jurdica, 2=Sociedad Limitada,3=Sociedad Annima, 4=Otros).pers_07: Nmero de trabajadores en la empresa durante 2007pers_08: Nmero de trabajadores en la empresa durante 2008negocio_07: Volumen de negocio de la empresa en 2007, en miles de negocio_08: Volumen de negocio de la empresa en 2008, en miles de IMPORTANTE: este fichero se utilizar en las siguientes prcticas. Sesin 1. Estadstica Descriptiva.9 Configuracin de la salida de Statistica. Antesdecomenzarconlosanlisisestadsticosconvienecomentarqueelprograma Statisticanospermiteenviarlosresultadosdecualquieranlisisadiferentes documentos de distintos formatos, y es conveniente, antes de empezar, determinar cul es la salida que nos interesa. Archivo / Administrador de formatos de salidas... La opcin ms habitual, es enviar todos los resultados a un mismo libro de trabajo. Siestamosrealizandountrabajooqueremoselaboraruninforme,ademsdellibrode trabajo,tenemoslaopcindeenviarlosresultadosaunReporte(documentotextode Statistica) o a un documento de texto de Microsoft Word. Laconfiguracindesalidaqueelijamospermanecercomoopcinpordefectohasta que la cambiemos. Tambin podemos modificar la salida, para cualquier anlisis individual, en el cuadro de dilogo de dicho anlisis:. OBSERVACIN:Seacualseaelanlisisogrficoqueestemosrealizando,elcuadro dedilogosueleconteneropcionesdelosanlisisestadsticosmsrelacionados,de modoquedesdeunmismocuadrodedilogo,podemosrealizarunanlisiscompleto, sin tener que estar cambiando de men. Curso bsico de anlisis de datos con Statistica Enero de 2011 1.2 Anlisis estadstico unidimensional. Unavezquetenemosnuestroficherodedatos,ysuponiendoquetenemosalgunaidea delcomportamientodelasvariablesdelmismo,unaprimeraaproximacinanuestros datos nos la puede dar un Anlisis Estadstico Descriptivo. Dependiendodelascaractersticasdelavariablequequeramosanalizar,podemos utilizar distintos procedimientos.Silavariableesdiscreta,ysabemosqueenlasobservacionesaparecenvalores repetidos, tiene sentido realizar una tabla de frecuencias.Notacin:sitenemosunavariableestadsticaXobservadasobreunapoblacinde tamaoN,dichavariablepuedetomarlosvaloresdistintosx1,x2,...,xk,unaoms veces. Llamaremos:Frecuenciaabsolutadeundeterminadovalordelavariablexi(ylorepresentaremos por ni) al nmero de veces que se presenta ese determinado valor xi.Nota:N nkii==1 Frecuencia relativa de un determinado valor de la variable xi (y lo representaremos por fi) a la proporcin de veces que se presenta dicho valor, y se calcula como el cociente de su frecuencia absoluta (ni) y el nmero total de datos (N).Frecuenciaabsolutaacumuladadeundeterminadovalordelavariablexi(ylo representaremos por Ni) al nmero de veces que se presenta un valor menor o igual que lysecalculacomolasumadelasfrecuenciasabsolutasdetodoslosvaloresdela variable menores o iguales que dicho valor xi.Frecuenciarelativaacumuladadeundeterminadovalordelavariablexi(ylo representaremos por Fi) a la proporcin de veces que se presenta un valor menor o igual que l y se calcula como la suma de las frecuencias relativas de todos los valores de la variable menores o iguales que dicho valor xi. Nota:Enalgunasocasioneslosvaloressepresentanenintervalos(porejemplorangos deedad),yenestoscasoslasfrecuenciasserefieren,noalosvaloresconcretosdela variablesino,alnmerodeobservacionesdentrodecadaintervalo.Parahacerlos clculos se utiliza un representante de cada intervalo, que se denomina marca de clase, y suele tomarse el punto medio del mismo.Cuandoenunconjuntodevaloresobservadosdeunavariable,serealizanlas operaciones de: Ordenacin y Agrupacin de los valores que se repiten, (determinacin delafrecuenciadecadavalor),seobtieneunatablaestadsticadedistribucinde frecuencias. A dicho conjunto de operaciones se le denomina Tabulacin.Con Statistica, las tablas de frecuencias se construyen desde el men: Estadsticas / Estadsticas/Tablas bsicas / Tablas de frecuencia Sesin 1. Estadstica Descriptiva.11 A continuacin se selecciona la variable o variables que queremos analizar. Adems del men bsico en el que se recogen las opciones por defecto, las pestaas que utilizaremos ms frecuentemente son: Avanzado: Para elegir el mtodo de categorizacin de las variables. Opciones: Si queremos modificar lasespecificaciones de las frecuencias que queremos que aparezcan en las tablas. Curso bsico de anlisis de datos con Statistica Enero de 2011 EJERCICIO 1.1.- Construye la tabla de frecuencias de la variable pers_07. EJERCICIO 1.2.- Construye la tabla de frecuencias de la variable negocio_08. Esta variable es una variable continua, por lo que debemos agrupar en intervalos. Para ello, vamos a la pestaa de Avanzado y seleccionamos, por ejemplo, 6 intervalos.Observa las diferencias entre N de intervalos exactos y aproximados. Otra forma de presentar la informacin de una masa de datos es mediante los grficos. El grfico de una variable o de una relacin entre variables ser til siempre que ponga de manifiesto, de forma sencilla, las caractersticas ms relevantes de la misma. En Estadstica Descriptiva, los grficos ms sencillos son: -Los histogramas, para representar frecuencias (ya sea de las observaciones que seencuentrandentrodeunintervalocomodelosvaloresobservadosdela variable).

EJERCICIO1.3.-Construyeelhistogramadelnmerodeempresassegnsu naturaleza jurdica. EJERCICIO1.4.-Construyeelhistogramadelvolumendenegocioenelao2008, (como se puede considerar continua, haz el grfico con 10 categoras). -Los grficos de cajas, para mostrarnos la distribucin de los datos observados. Losgrficosdecajasconbigotesresumenelcomportamientodelavariabledela siguiente forma: 1.Una marca central nos indica dnde se encuentra la media. 2.Unacajacuyotamaonosindicalamediams/menoslacuasidesviacin tpica. 3.Unosbigotesquenosmuestranlamediams/menos196*cuasidesviacin tpica. Esto significa que si nuestros datos siguen una distribucin Normal, el 95% de los datos deben estar dentro del rango que abarcan los bigotes. Sesin 1. Estadstica Descriptiva.13 Estaesunadelasopcionesdelosgrficosdecajas,perotambinsepuedenobtener grficos de caja con otra informacin (por ejemplo, basada en los cuartiles).

EJERCICIO 1.5.- Construye el grfico de caja, basado en los cuartiles, del volumen de negocio en el ao 2007. EJERCICIO1.6.-Realizaungrficoenelquepodamoscompararladistribucin, basadaenloscuartiles,delvolumen de negocio en el ao 2008, segn la ubicacin de las empresas. -Losgrficosdesectores,nospermitenrepresentarfrecuenciasovaloresdela variable,alavezquepodemosvisualizarlaproporcinquerepresentanestas cantidades respecto a la suma total.

EJERCICIO1.7.-Construyeelgrficodesectoresdelnmerodeempresassegnsu naturaleza jurdica. Curso bsico de anlisis de datos con Statistica Enero de 2011 -Los grficos de barras, nos muestran el valor de la variable, para cada uno de los casos del fichero. EJERCICIO 1.8.- Realiza el grfico de barras de la variable grupo. Como se puede observar, este grfico no nos da un recuento de los distintos valores de lavariable(estolohacemosconelhistograma)sinoelvalorquetomalavariableen cada uno de los casos. Adems de las tablas y los grficos, para describir el comportamiento de las variables es ms preciso calcular una serie de medidas (descriptivas) : a)Medidas de tendencia central y de posicin no central.b)Medidas de dispersin y medidas de forma. Medidas de tendencia central y de posicin no centralLasmedidasdeposicinopromedios,sonunosvaloresalrededordeloscualesse agrupanlosvaloresdelavariable,yquenosresumenlaposicindeladistribucin sobreelejehorizontal.Paraqueunvalorpuedaserconsideradopromedio,seleexige comonicacondicinqueestcomprendidoentreelmayoryelmenorvalordela variable. Existen dos tipos de medidas de posicin: las centrales y las no centrales.Delasmedidasdeposicincentral,lasmsutilizadasson:lamediaaritmtica,la medianaylamodaaunquetambinsonmuytilesparacalculardeterminados promedios la media geomtrica y la media armnica.Lamediaaritmtica:sedefinecomolasumadetodoslosvaloresdeladistribucin, dividida por el nmero total de observaciones: Nn x n xn xN Nx xxNXk kkii iNNii. ..1 11 1111+ += =+ += = = = Sesin 1. Estadstica Descriptiva.15 Para una distribucin discreta no agrupada en intervalos, se define la mediana, como el valordelavariablequeocupaellugarcentral,supuestosordenadoslosvaloresde menor a mayor.Enunadistribucin,lamoda(Mo)sedefinecomo"aquelvalordelavariablecuya frecuencia no es superada por la frecuencia de ningn otro valor" (puede haber ms de una moda).Para las variables numricas se pueden calcular estos tres promedios, pero atendiendo al tipodedatos,lamodaeselmsadecuadoparavariablesnominalesocategricas,la medianaparavariablesordinalesocategricasordinalesylamediaparalasvariables estadsticas. Nota:Siexistenvaloresextremosenlavariable,lamedianaesmejormedidadela posicin central que la media.Otras medidas, menos habituales, de tendencia central, son:La media geomtrica: se define como la raz N-sima del producto de los valores de la variable, elevados cada uno de ellos a la potencia indicada por su frecuencia. Es decir:NnknNkini Gk ix x x M ...111= =[= Seutilizaprincipalmenteparapromediarporcentajes,tasas,nmerosndices,etc.,es decir,enloscasosenlosquesesuponequelavariablepresentavariaciones acumulativas. La media armnica: Se define como el valor: kkkiiiAxnxnNxnNM+ += ==...111 Estepromediosesueleutilizarcuandolavariableesdeltipo:velocidad,rendimiento,etc.Lasmedidasdeposicinnocentralocuantiles,constituyenunageneralizacindel conceptodelamediana.Ascomolamedianadividealadistribucinendospartes, ambasconelmismonmerodeobservaciones,sidividimosladistribucinencuatro partes,cadaunadeellasconelmismonmerodeobservaciones,necesitaremostres valores, que se denominan cuartiles.Anlogamente, si dividimos la distribucin en diez partes iguales, necesitaremos nueve valores,quesedenominandeciles.Ysiladividimosencienpartes,los correspondientes noventa y nueve valores, se denominan percentiles.Engeneral,losq-1valoresquedividenaladistribucinenqpartesiguales(conel mismo nmero de observaciones) se denominan cuantiles de orden q.Curso bsico de anlisis de datos con Statistica Enero de 2011 Estas medidas se utilizan para estudiar cmo estn distribuidos los valores de la variable observadayhacernosunaideadesucomportamiento.Tambinnospuedeinteresar conocer a partir de qu valor de la variable se encuentra un determinado porcentaje de las observaciones mayores o entre qu dos valores se encuentra determinado porcentaje delasobservacionescentrales.Pararesponderaestaspreguntasutilizaremoslos percentiles.Caberecordarqueelclculodelosvalorespercentiles,aunquesepuederealizarcon cualquier variable estadstica, tiene sentido para variables continuas en las que tenemos muchos valores distintos observados y nos interesa localizar alguna posicin dentro de la distribucin.Medidas de dispersin.Conlasmedidasdeposicinopromedios,intentamossintetizarunatabladedatos.Paraevaluarlarepresentatividaddeunpromedio,necesitamosunindicadorque,de algunaforma,noscuantifiqueelgradodeseparacinodispersindelosvaloresdela variable respecto al promedio en cuestin. Con las medidas de dispersin absolutas, se trata de medir la separacin que, por trmino medio, existe entre los distintos valores de lavariable,porloquesernmedidasquevendrnexpresadasenlamismaclasede unidades que la variable.Las principales medidas de dispersin absoluta son:Recorrido(oRangooAmplitud):sedefinecomoladiferenciaentreelmayoryel menor valor de la variable. Es decir : Re = Mx xi - Mn xi = xk - x1 Varianza: la definimos como la media aritmtica de los cuadrados de las desviaciones delosvaloresdelavariablerespectoalamediaaritmticadeladistribucin.Se representa por S2 y es: ( ) ( )Nn X xNX xSkii iNii = ===12122.' Desviacin tpica: o desviacin estndar, es igual a la raz cuadrada de la varianza, con signo positivo. Se representa por S:( ) ( )Nn X xNX xSkii iNii = =+ =+ =1212.'Detodaslasmedidasdedispersinabsoluta,lavarianzaysurazcuadrada,la desviacintpica,sonlasmsimportantes.Sinembargo,eninferenciasonms utilizadas las siguientes:Cuasivarianza: Es una medida muy similar a la varianza:( ) ( )1.112122== = =Nn X xNX xSkii iNii Sesin 1. Estadstica Descriptiva.17 Cuasidesviacin tpica:( ) ( )1.11212+ =+ = = =Nn X xNX xSkii iNii Como se puede observar la nica diferencia es que las medidas utilizadas en inferencia tienen N-1 en el denominador, en lugar de N. IMPORTANTE:Cuandoenlosprogramasestadsticossedicevarianzaydesviacin tpica,enrealidadloquesecalculaeslacuasivarianzaysurazcuadradala cuasidesviacin tpica. Deahoraenadelantelasnombraremosindistintamente,peronosestaremos refiriendo siempre a la cuasivarianza y a la cuasidesviacin tpica. Conlasmedidasdedispersinrelativas,setratademedirladispersin,con independenciadelaclasedeunidadesenquevengaexpresadalavariable.Estas medidas,permitencompararladispersinexistenteendosdistribuciones,incluso cuando las variables estn expresadas en distinta clase de unidades.Entrelasmedidasdedispersinrelativa,llamadastambinndicesdedispersin, tenemos: Recorridorelativo:Sedefinecomoelcocienteentreelrecorridodelavariableyla media aritmtica:XRrRe=Nos indica el nmero de veces que el recorrido contiene a la media aritmtica. CoeficientedevariacinondicededispersindePearson:Eselmsempleadode los ndices de dispersin relativos. Se define como el cociente entre la desviacin tpica y la media aritmtica.XSCV=Nos indica el nmero de veces que la desviacin tpica contiene a la media aritmtica. Medidas de forma (simetra y curtosis)Vamosaverahoraciertasmedidasquenosvanadarunaideadelaformadela distribucin, sin necesidad de realizar su representacin grfica.LadistribucinNORMAL,cuyarepresentacingrficaeslacurvadeGauss,esel modelodecomparacinparalasimetraylacurtosisdecualquierdistribucinde frecuencias. Por lo tanto, tiene sentido calcular estas medidas cuando la distribucin de la variable objeto de estudio es campaniforme y unimodal.Lasmedidasdesimetrasedirigenaconstruirunindicadorquepermitaestablecerel grado de simetra o asimetra que presenta la distribucin, sin necesidad de llevar a cabo surepresentacingrfica.Diremosqueunadistribucinessimtricacuandoloessu representacin grfica en coordenadas cartesianas.Existen distintos coeficientes que nos permiten establecer el grado de asimetra de una variable, y aunque los valores numricos de los mismos no coincidan, la interpretacin s que es anloga:Curso bsico de anlisis de datos con Statistica Enero de 2011 -Si el coeficiente de asimetra = 0, la distribucin puede ser simtrica-Sielcoeficientedeasimetra>0,ladistribucinesasimtricapositiva(ala derecha)-Sielcoeficientedeasimetra0,ladistribucinesleptocrtica(ms apuntada que la normal).-Sielcoeficientedecurtosis , entonces ACEPTAMOS H0, con nivel de significacin , -si p-valor < , entonces RECHAZAMOS H0, con nivel de significacin . En general, se calcula ) (20 1T t Ppn< = siT0 =siT0>0 y as, en nuestro ejemplo, 029 ' 0 0145 ' 0 ) 223 ' 2 ( ) (275 0 1= = < = < =p t P T t Ppn Curso bsico de anlisis de datos con StatisticaEnerode 2011 Grficamente: y ahora, podemos responder inmediatamente cul sera nuestra conclusin para cualquier nivel de significacin . -para = 005, RECHAZAMOS H0 porque p-valor = 0029 < =005, -para = 01, ... -para = 001, ... -etc. Observacin: -unp-valorpequeonosdicequelainformacinproporcionadaporlamuestraaleatoria proporciona argumentos concluyentes para RECHAZAR H0. Retomando nuestra aficin por el derecho,diramosquelaspruebasdejanclara,msalldecualquierdudarazonable,la culpabilidad del acusado, -unp-valorgrandenosdicequelainformacinproporcionadaporlamuestraaleatoriaNO proporciona argumentos suficientes para RECHAZAR H0. Las pruebas contra el acusado, o son a favor o, an en contra, dejan dudas razonables. -unp-valorrondandolosvaloresdelosnivelesdesignificacinohabituales(01,005,001) nosobligaareflexionar(yadefinirnos)sobreelmargendeerrorqueestamosdispuestosa asumir a la hora de tomar nuestra decisin. Sesin 3. Inferenciaparamtrica43 STATISTICAnoshacetodaslascuentasanterioresacudiendoa Estadsticas/Estadsticas/Tablas bsicas, seleccionando Prueba t, muestra simple obteniendo Notas importantes:1)Engeneral,existeunarelacin(muyintuitiva)entrelosintervalosdeconfianzayla respuestaenuncontrastedehiptesis.As,paraunniveldesignificacino,larespuesta para el contraste de hiptesis ser ACEPTAR H0

s y slo s )%) 1 ((0o eIC EJERCICIO 3.4.- Repasad los resultados que hemos ido obteniendo y comprobad el cumplimiento de la anterior propiedad: (1-)%IC? )%) 1 (( 350 o eIC ACEPTAR H0? 90% 95% 99% 2)Recordad(lohemosvistoalcalcularelintervalodeconfianza),quehaciendoclicenla pestaa Avanzado podemos estudiar grficamente la condicin de normalidad. Elegimos la/s variable/s que queremos estudiar Indicamos el valor de prueba 0Prueba de medias contra referencia constante (valor) (comercio)VariableMedia Des. est N Err.est. ReferenciaConstanteValor t gl pnegocio_07 319,5568 119,4105 76 13,69732 350,0000 -2,22256 75 0,029259nX0Tn-1p-valor S0Curso bsico de anlisis de datos con StatisticaEnerode 2011 3)Sihemosentendidolamecnicadelosanteriorescontrastesdehiptesis(quesedicen bilaterales,alpoderserrechazadalahiptesisnulatantoaizquierdacomoaderecha),no nossorprendernloscontrastesaadidosenlasiguientetablaresumen(quesedicen unilaterales): Notar en primer lugar que el estadstico que calculamos para tomar la decisin es el mismo en los tres casos y que, intuitivamente, compara el valor de prueba con la media muestral (para que quede ms claro utilizaremos los valores del ejercicio que hemos venido haciendo), 76 / 86 ' 14258350/00==n nXn SXT loquecambiaesnuestrocriteriodedecisin(enlossiguientesgrficos,elsombreadoindicala regin crtica, es decir, aquella en la que rechazaramos H0, para un nivel de significacin o=005). Rechazamos H0 cuando nXest lejos 0=350, es decir, cuando T0 sea, o muy positivo o muy negativo. Rechazamos H0 cuando nXsea muy pequeo comparado con 0=350, es decir, cuando T0 sea muy negativo. Rechazamos H0 cuando nXsea muy grande comparado con 0=350, es decir, cuando T0 sea muy positivo. y, en cada uno de los casos, el p-valor se calculara: ) (20 1T t Ppn< = siT0 =siT0>0 ) (0 1T t P pn< = ) (0 1T t P pn> = Sesin 3. Inferenciaparamtrica45 Nos hace STATISTICA las cuentas? Pues en realidad NO, el programa slo nos calcula el p-valor del contraste bilateral (lo hemos hecho antes a partir de una media muestral:55 ' 319 =nX ,ver el siguiente grfico-y hemos obtenido p=0029, es decir,0145 ' 02=p ). Pero eso no es un gran problema: os atrevis a completar el siguiente cuadro? p-valor=0029 p-valor=ddddd p-valor=ddddd Decisin para =005 Decisin para =005 Decisin para =005 En general, a partir del p-valor calculado para un contraste bilateral (llammosle PB, que es el que nos calcula STATISTICA), el p-valor para los contrastes unilaterales se obtendra: p= PB/2 cuando T0 < 0 p=1- PB/2cuando T0 > 0(evidencia a favor de H0). p= PB/2 cuando T0 > 0 p=1- PB/2cuando T0 < 0 (evidencia a favor de H0). Curso bsico de anlisis de datos con StatisticaEnerode 2011 3.4. Contrastes paramtricos de dos poblaciones. Muestras independientes Nos enfrentamos al siguiente problema: y para tomar la decisin contamos con la informacin proporcionada por dos muestras aleatorias de tamaos n=57 y m=19 ypareceintuitivamenterazonabletomarladecisincomparandolosvaloresdelasmedias muestrales y: ACEPTAR H0m nY X ~ es decir ACEPTAR H0 0 ~ m nY X Un pequeo desarrollo terico (suponiendo que se cumplen ciertas hiptesis: aleatoriedad de las muestras,independenciadeXeY,normalidaddeXeY,yhomoscedasticidadigualdaddelas varianzas poblacionales-), nos lleva al siguiente estadstico de prueba: 2) 1 ( ) 1 ( 1 12 20 + + +=m nS m S nm nY XTY Xm n y a la regin crtica para un nivel de significacin o, ) , ( ) , (2 / ; 2 2 / ; 2+ + + o o m n m nt to, siempre la mejor opcin, calcular el p-valor del contraste como: ) (20 2T t Ppm n< = + siT0 = +siT0>0 Sesin 3. Inferenciaparamtrica47 En nuestro caso: Grficamente: Nota:enestecasoelp-valoresenorme(sobretodosilocomparamosconlosnivelesde significacin habituales, 001, 005 o 01), lo que, como hemos comentado, las muestras apoyan la veracidad de la hiptesis nula. STATISTICAnoshacelascuentasenEstadsticas/Estadsticas/Tablasbsicas, seleccionandoPruebat,independiente,porgrupos(yaquetenemoslainformacinalmacenada endosgruposdeunamismavariable.Silatuvisemosendosvariablesdistintaselegiramos Prueba t, independiente, por variables). Curso bsico de anlisis de datos con StatisticaEnerode 2011 Y pulsando en Resumen obtenemos: nXmY2) 1 ( ) 1 ( 1 12 20 + + +=m nS m S nm nY XTY Xm nContraste de homoscedasticidad XSYSp-valor VariableMediaFuera decualquiercentrocomercialMediaDentro deun centrocomercialValor t gl p N vl.FueradecualquiercentrocomercialN vl.Dentrode uncentrocomercialDesv. est.Fuera decualquiercentrocomercialDesv. est.Dentro deun centrocomercialRazn-FVarianciaspVarianciasnegocio_07 320,3872 317,0658 0,104305 74 0,917210 57 19 123,1613 110,5064 1,242147 0,627655Sesin 3. Inferenciaparamtrica49 Observaciones: -pordefectoelprogramarealizauncontrasteparacomprobarlacondicinde homoscedasticidad. que utiliza como estadstico de contraste Intuitivamente, cundo aceptaremos H0? Elcorrespondientedesarrolloterico(suponiendolaaleatoriedaddelasmuestrasyla independencia y normalidad de X e Y), nos llevan a la regin crtica para un nivel de significacin o, ) , ( ) , 0 (2 / ; 1 , 1 2 / 1 ; 1 , 1+ o o m n m nF Fo, calcular el p-valor del contraste como: ) (20 1 , 1T F Ppm n< = siT0est en la cola izquierdao, ) (20 1 , 1T F Ppm n> = siT0est en la cola derecha En nuestro caso, hemos obtenido: Y as, aceptamos o rechazamos la hiptesis de homoscedasticidad? 220YXSST =Curso bsico de anlisis de datos con StatisticaEnerode 2011 -enlapestaaAvanzadopodemosrepresentargrficosquenospermitenhacernosunaideadel cumplimientodelacondicindenormalidad(eligiendo,porejemplo,Histogramas categorizados y/o Diagr. categorizados normales). Obtendramos: Cmo pinta la cosa?Sesin 3. Inferenciaparamtrica51 Muestras dependientes Vamos a intentar resolver ahora una situacin similar? Paratomarladecisincontamosconlainformacinproporcionadaporunamuestra aleatoria de n=74 parejas de observaciones de X e Y. EJERCICIO3.5.-CompruebaquelavarianzamuestraldeX-Y=NEGOCIO_08-NEGOCIO_07, eslaindicada.(RecuerdaquedichavariablelacreamosenlaSesin2conelnombre DIFERENCIA). Esaeslanovedaddeestasituacinrespectoalaquehemosestudiadoenelapartado anterior: las muestras no son independientes ya que provienen de los mismos 74 comercios en dos momentos distintos. Habitualmente sta es una cuestin de diseo experimental: -en las muestras independientes se dispone de dos gruposseleccionados aleatoriamente y no necesariamente del mismo tamao. Por ejemplo, cuando para estudiar la eficacia de un medicamento se seleccionan aleatoriamente dos grupos de enfermos: a un grupo se le aplica el tratamiento y al otro no.-enlasmuestrasdependientes(opareadas)sediseaelexperimentobuscandouna subdivisinendosgruposdeigualtamao,demaneraquepuedanformarseparejascon unindividuodecadagrupo,deformaqueseanigualesomuyparecidos.Laideaes igualarlainfluenciadeposiblesvariablesnocontroladasenelestudio.Porejemplo cuandoseestudialaeficaciadeunmedicamentoconungrupodegemelosenfermos.A uno se le aplica el tratamiento y al otro no. En este caso, tenemos dos grupos: gemelos a los que se aplica el tratamiento y gemelos a los que no. La ventaja es el control sobre las variablesquepuedeninfluirenelexperimento.Lapegaesquesondiseosmuchoms costosos y difciles de conseguir. Curso bsico de anlisis de datos con StatisticaEnerode 2011 De nuevo, un pequeo desarrollo terico y la suposicin de ciertas condiciones (aleatoriedad de las muestras y normalidad de X-Y), nos permiten construir una regla de decisin a partir de la idea intuitiva ACEPTAR H0 m nY X ~ es decir ACEPTAR H0 0 ~ m nY X y nos lleva al estadstico de prueba: n SY XTY Xm n/0= yalaregincrticaparaunniveldesignificacino, ) , ( ) , (2 / ; 1 2 / ; 1+ o o n nt to, siempre la mejor opcin, calcular el p-valor del contraste como: ) (20 1T t Ppn< = siT0 =siT0>0 STATISTICAnoshacelascuentasenEstadsticas/Estadsticas/Tablasbsicas, seleccionando Prueba t, muestras dependientes Sesin 3. Inferenciaparamtrica53 obtenindose, Y la conclusin es que, para un nivel de significacin o=0,05, aceptamos H0. De hecho, el p-valor es tan grande que nos quedamos muy tranquilos con la decisin que hemos tomado. Nota: Este contraste que acabamos de estudiar, para muestras dependientes o pareadas, no es sino un caso particular del contraste para una muestra simple (el primer ejemplo que hemos visto), para la variable X-Y, cuya media poblacional es Y X Y X =, con valor de prueba 0. EJERCICIO3.6.- Realiza el contraste indicado para la variable DIFERENCIA (que es X-Y en el ejemplo que hemos estudiado) y comprueba que, en efecto, estamos haciendo lo mismo. De paso, pgale un vistazo al histograma y al Diagrama de normalidad de DIFERENCIA. Y,desdeluego,siunaimpresinproporcionanlosdosgrficosesquelamuestrano proviene ni por asomo, de una poblacin normal. Prueba t para muestras dependientes (comercio)Diferencias marcadas son significantes con p < ,05000VariableMedia Des. est N Dif. Des. estDif.t gl pnegocio_08negocio_07318,1276 113,2829319,8534 120,8128 74 -1,72581 135,6491 -0,109444 73 0,913151m nY X Y XSn SY XTY Xm n/0=p-valor Curso bsico de anlisis de datos con StatisticaEnerode 2011 EJERCICIO 3.7.- Vamos a ver cmo andamos de lgica y si hemos entendido bienla dinmica de loscontrastesdehiptesisparamtricos.ParalavariableDIFERENCIA=X-Y=diferenciadel volumen de negocio entre los aos 2008 y 2007, nuestros estudios nos han llevado a concluir que: I)Suponiendo que la poblacin sigue una distribucin normal en X-Y, ante las hiptesis hemosconcluidoqueH0esCIERTAadems,conunp-valorcercanoa1(elacusadoes INOCENTE; no hay prcticamente pruebas en su contra). II) LosgrficosindicanclaramentequelapoblacinNOsigueunadistribucinnormalenla variable X-Y.As,considerandoI)yII),ACEPTAMOSoRECHAZAMOSH0?(declaramosalacusado INOCENTE o CULPABLE?). Notaimportante:Naturalmentetambinesposibleplantearseelestudiodeloscontrastesde hiptesis unilaterales que quedan recogidos en el siguiente cuadro, para los que sirven los mismos anlisisycomentariosquehicimosenelcasosimple(enparticular,losreferidosalclculodel p-valor a partir del calculado por el programa para el contraste bilateral). Sesin 3. Inferenciaparamtrica55 EJERCICIO3.8.- Queremos estudiar el Volumen de Negocio de las empresas al por menor en la Comunidad Autnoma durante el ao 2008 (variable X=NEGOCIO_08), nos piden: a)Calcularunintervalodeconfianzaconlamayorprecisinposible(entrelosnivelesde confianza habituales). b) Sinrealizarningnclculo,alavistadelintervaloobtenidoenelapartadoanterior,qu decisin tomaras si te pidiesen contrastar las hiptesis:

para un nivel de significacin o=01? c)Un representante del mundo empresarial afirma que la media de X=NEGOCIO_08, super los 325 miles de euros. Se sostiene dicha afirmacin (para un nivel de significacin o=005) con nuestros datos? d)Elmismorepresentantetambinindicaque,considerandolasempresasdeEquipamiento personalylasdeEquipamientodelhogar,stasobtuvieronsimilaresmediasdeVolumende Negocioduranteelao2008.Sesostienedichaafirmacin(paraunniveldesignificacin o=005) con nuestros datos? e)Qucondicioneshabrandecumplirse,encadaunodelosapartadosanteriores,paraquelos resultados obtenidos puedan ser considerados vlidos? EJERCICIO3.9.-Unequipomdicorealizaunestudioparacompararlaeficaciadedos tratamientos en la mejora del nivel de colesterol. Para ello, selecciona una muestra de 8 parejas de gemelos: a un hermano de cada pareja aplica el Tratamiento 1 y al otro el 2. Los resultados son: Mejora (%)ParejaTratamiento 16LpezTratamiento 1 25GarcaTratamiento 1 22MartnezTratamiento 1 21GmezTratamiento 1 6FernndezTratamiento 1 7RodrguezTratamiento 1 22HernndezTratamiento 1 41SenzTratamiento 1 10LpezTratamiento 2 4GarcaTratamiento 2 8MartnezTratamiento 2 7GmezTratamiento 2 17FernndezTratamiento 2 5RodrguezTratamiento 2 10HernndezTratamiento 2 21SenzTratamiento 2 Puedededucirse,conunniveldesignificacino=005,queambostratamientossonigualde efectivos?Ysiconsideramoso=001?Qucondicioneshabrandecumplirseparaquelos resultados pudiesen ser considerados vlidos? Indicacin:Antesdenada,identificaddequtiposonlasmuestras(relacionadaso independientes?)ypensadencmotenisqueescribirlelosdatosaSTATISTICAparaquelo entienda (no sirve reproducir la tabla tal y como os la hemos dado. Tenemos que adaptarnos a los formatos y manas de los programas informticos!). Curso bsico de anlisis de datos con StatisticaEnerode 2011 ANEXO: INFERENCIA SOBRE UNA PROPORCIN POBLACIONAL DESCONOCIDA Una situacin muy habitual en la prctica consiste en estudiar una muestra de una poblacin delacualdesconocemoslaproporcin,p,deunadeterminadacaracterstica(refirmonosaella como xito) de sus individuos. No nos costara mucho esfuerzo desarrollar un estudio muy similar a los que hemos realizado en esta sesin. Por ejemplo: 1)Parecerazonableestimarpporlaproporcinmuestral,quesueledenotarse p,y naturalmente, se calcula como: 2)Apartirdeunamuestraaleatoriadetamaonsuficientementegrande,puedeversequeun intervalo de confianza para p, con nivel de confianza 100x(1-)%, es np pZ p ICp) 1 ( )%) 1 ((2 / = oo Nota: la exigencia: n suficientemente grande, se debe a que en el desarrollo terico se aplica un resultado de aproximacin que lo requiere. Un criterio habitual para decidirlo es: -si5 ' 0 s p ha de cumplirse que5 . > p n-si5 ' 0 > p ha de cumplirse que5 ) 1 .( > p n Ejercicio: Determinar un intervalo de confianza, al 95%, para la proporcin p de comercios que en 2007 tuvieron un volumen de negocio mayor a 300 miles de euros. Solucin:DesgraciadamenteestamosanteunejemploqueSTATISTICAnoresuelve automticamenteynosvemosobligadosahacerlascuentas.Primerocomprobamosque 5263 ' 0 76 / 40 = = py que5 ) 1 .( > p n , y obtenemos, ) 6385 ' 0 , 414 ' 0 (76) 5263 ' 0 1 ( 5263 ' 096 ' 1 5263 ' 0 %) 95 ( = =pIC EJERCICIO 3.10.- Comprobad que no nos hemos equivocado al calcularp, e interpretad el anterior resultado. 3)Podemos plantearnos y contrastar hiptesis, como, por ejemplo (suponiendo las condiciones del ejercicio anterior). Parece razonable tomar la decisin comparando el valor de prueba, p0=04, y la proporcin muestral5263 ' 0 = p . Sesin 3. Inferenciaparamtrica57 2 /0 002 // ) 1 (o oZn p pp pZ ss Dadounniveldesignificacino,unpequeodesarrolloterico,suponiendoquenes suficientemente grande, lo que es habitual decidir con el criterio: -si 5 ' 00 s p ha de cumplirse que 5 .0 > p n -si 5 ' 00 > p ha de cumplirse que 5 ) 1 .(0> p n la regla de decisin sera: ACEPTAR H0 s y slo s Desgraciadamente, STATISTICA tampoco nos hace las cuentas: YutilizandolacalculadoradeSTATISTICA,(enEstadsticas/Calculadora probabilstica/Distribuciones...),podemoscalcularlasregionescrticasparaelnivelde significacin o deseado o, mucho mejor, el p-valor del contraste.0246 ' 0 0123 ' 0 ) 2475 ' 2 ( ) (20= = > = > = p Z P T Z Pp Cul ser nuestra decisin para o=005? Y para o=001? EJERCICIO 3.11.- Calcular el p-valor para los contrastes unilaterales. Cul ser nuestra decisin para o=005? 2475 ' 276 / ) 4 ' 0 1 ( * 4 ' 04 ' 0 5263 ' 0/ ) 1 (0 000===n p pp pTCurso bsico de anlisis de datos con StatisticaEnerode 2011 EJERCICIO 3.12.- Un representante del mundo empresarial seala que la proporcin de comercios enloscualessedestruyempleo(suplantilladisminuyde2008a2007)nosuperel35%.Se sostiene dicha afirmacin (para un nivel de significacin o=005) con nuestros datos? Comentario final: EnestasesinhemosestudiadomtodosdeInferenciaParamtricaque,parapoderser utilizados,requierendelcumplimientopreviodeciertascondicionesdeaplicacin.EnelCurso Avanzado se completa este estudio en dos direcciones: -presentandoherramientasparacomprobardichascondiciones.Notarque,enbuenalgica, en el trabajo prctico, sera una tarea previa a la que hemos desarrollado. -estudiandoalgunosmtodosnoparamtricos,quepuedenemplearseenelestudiode situaciones similares a las enfrentadas en esta sesin. Son una alternativa a los paramtricos (obligada cuando stos no pueden utilizarse). Sesin 4. Anlisis de la Varianza y Regresin Lineal 4.1. Anlisis de la Varianza EnestaseccinvamosaestudiarunatcnicaestadsticadenominadaAnlisisdela Varianza(ANOVA).Enlasesin2vimoslacomparacindedosgruposrespectoaunavariable cuantitativa,o,equivalentemente,elestudiodelarelacinentreunavariablecuantitativayuna variable(cualitativaocuantitativa)quedefinedosgrupos.Recordadelejemplo:estudiarsiel volumendenegocioesdistintosegnqueloscomerciosestnubicadosdentroofueradecentros comerciales,esequivalenteaestudiarsilavariableubicacin,quedefinedosgrupos,est relacionada con la variable volumen de negocio, que es cuantitativa. Lacuestinquenosplanteamosahoraesladegeneralizaraunnmerocualquierade grupos,esdecir,comparardosomsgruposrespectoaunavariablecuantitativa.Losgruposa compararestarndefinidosporlosvaloresdealgunavariable(cualitativaocuantitativa),ypor tanto, el planteamiento es equivalente al de estudiar la relacin entre una variable que define varios gruposyunavariablecuantitativa.Supongamos,porconcretar,queestamosinteresadosen compararloscuatrogruposdeactividad(variablegrupo:alimentacin,equipamientopersonal, equipamientodelhogar,otros)respectoalvolumendenegocioenelao2007(negocio_07).Es decir,queremossabersielgrupodeactividadinfluyeenelvolumendenegocio,o,dichodeotra manera, si la variable negocio_07, que es cuantitativa, est relacionada con la variable grupo, que es cualitativa y define 4 grupos. El problema de las comparaciones mltiples Esposiblequealgnexpertonosdiga,aesterespecto,quesiyahemosaprendidoa comparar dos grupos, podemos comparar los que nos echen: de dos en dos. Sera un camino ms o menos largo segn el nmero de grupos a comparar, pero teniendo acceso a un ordenador esto no supondra ninguna dificultad. Sin embargo, este procedimiento, aparte de no ser muy elegante, sera metodolgicamente incorrecto. Elloesdebidoaqueencadaunadelascomparacionesdedosgruposnosestamos exponiendo a un error (podemos concluir que los dos grupos son distintos, cuando en realidad no lo son)conunaprobabilidaddadaporelniveldesignificacinqueutilicemos.Siencadaunaden comparacionesindependienteslaprobabilidaddeequivocarsees005,laprobabilidadde equivocarse en alguna de ellas es 1 - (095)n, cantidad que, incluso para valores moderados de n, es bastante ms grande que 005. EJERCICIO 4.1.- Calcula el valor de esta probabilidad de equivocarse para n = 2, 5, 10 y 15. Ennuestroejemplo,enelquetenemos4gruposacomparar,habraquehacer6 comparacionesporparejas,loquedaunaprobabilidaddeequivocarseenalgunadeellasiguala 02649. Para entendernos, si llevamos 6 cntaros a la fuente, la probabilidad de que alguno (uno o ms) acabe roto es 02649, aunque la probabilidad de que se rompa cada uno de ellos sea 005. En definitiva,yusandotrminosmstcnicos,cuandosellevanacabocomparacionesmltiples,el nivel de significacin global puede ser mucho ms elevado que el nivel de significacin nominal de cadaunadelascomparacionesindividuales.Comoresultado,estaramosasumiendouna Curso bsico de anlisis de datos con StatisticaEnerode 2011 probabilidad de equivocarnos demasiado elevada. Si el grupo de actividad no influye en el volumen de negocio, la probabilidad de que concluyamos errneamente que s influye sera 02649. EJERCICIO 4.2.- Calcula el nivel de significacin global si se comparan 6 grupos dos a dos con un nivel de significacin en cada prueba igual a 010. Muchos investigadores no parecen muy conscientes de las implicaciones de este problema, que puede manifestarse de distintas maneras. As, si en un estudio hemos medido muchas variables y, a la hora del anlisis estadstico, relacionamos, de dos en dos, todas con todas, sera raro que no encontrramosalgunarelacinsignificativa.Lasrelacionesquesurgenenuncontextode comparacionesmltiples,especialmentelasquenocabaesperarapriori,debenserpuestasen cuarentena,alaesperadequeestudiosposterioreslasconfirmen(ono).Estasituacinse correspondeenciertaformaconloquesellama,enprobabilidad,elproblemadelas coincidencias: las coincidencias no deben sorprendernos, porque lo raro sera que no se produjese alguna. Estasconsideracionesnossirvenparajustificarlanecesidaddedisponerdeun procedimiento que nos permita eludir el problema de las comparaciones mltiples de k grupos dos a dos. Esta tcnica se denomina Anlisis de la Varianza (ANOVA). El Anlisis de la Varianza (ANOVA) Dadoquenuestroobjetivonoesentretenernosconlosdesarrollostericos,vamosaver, sobreelejemplomencionado,cmosolicitaralStatisticaunANOVA,ycmointerpretarlo.Para empezar, debern existir en el archivo de datos dos variables: la variable cuantitativa que queremos comparar(negocio_07),ylavariablequedefinelosgruposacomparar(grupo).Porrazones histricas,aestaltimavariableselellamafactor,yasusvalores,quedefinenlosgruposa comparar,selesllamanivelesotratamientos.EnnuestrocasotenemosquerealizarunANOVA de un factor con cuatro niveles o tratamientos. El procedimiento a seguir ser el siguiente: 1)EjecutamoselcomandoEstadsticas>Estadsticas/Tablasbsicas.Seabrelaventana Estadsticas bsicas y tablas Sesin 4. ANOVA y Regresin Lineal61 2) Seleccionamos el comando Anlisis de variancia Breakdown & de una va. Se abre la ventana Estadstica por grupos 3) Seleccionamos las variables que intervienen en el anlisis. Para ello, en la pestaa Tablas individuales,pulsamoselbotnVariables.SeabrelaventanaSelec.var.dependientesy variables de agrupamiento. Enlalistadelaizquierda(Variablesdependientes)seleccionamoslavariablequecontiene los datos (la 7: negocio_07). En la lista de la derecha (Var. de agrup.) seleccionamos la variable que definelosgrupos(la2:grupo).PulsamosAceptar.Regresamosalaventanaanteriorenlaque ahoraaparecenlavariablesqueacabamosdeseleccionar.MedianteelbotnCdigosparalas variablesdeagrupamientopodemosseleccionarlosgruposquenosinteresecomparar.Por defecto el programa los tomar todos. Curso bsico de anlisis de datos con StatisticaEnerode 2011 4) Pulsamos Aceptar para ejecutar el anlisis. Se abre la ventana Estadsticas por grupos - Resultados. 5)EnlapestaaMenbsico,pulsamoselbotnAnlisisdevariancia.Apareceen nuestro libro de trabajo una nueva hoja con los resultados esenciales del anlisis: Noesnecesarioquecomprendamostodosloselementosqueaparecenenestatabla(nos ahorramoslosdetallestcnicos).Loimportanteesquecomprendamosqueestamosrealizandoun contraste de hiptesis en el que: >Lahiptesisnula,H0,establecequeelvolumendenegocioNOdependedelgrupode actividad, y > La hiptesis alternativa, H1, establece que el volumen de negocio S depende del grupo de actividad. EnunANOVAinterpretamoslosdatosdelavariablecuantitativacomoelresultadode extraer una muestra aleatoria de cada una de las poblaciones definidas por los niveles del factor. Es decir,ahoranoestamoscontemplandolosvaloresdelavariablenegocio_07comounanica muestraaleatoriade76comercios,sinocomocuatromuestrasdecuatropoblaciones:unade37 Sesin 4. ANOVA y Regresin Lineal63 comerciosdelapoblacinalimentacin,otrade15comerciosdelapoblacinequipamiento personal, otra de 10 comercios de la poblacin equipamiento del hogar, y otra de 14 comercios de la poblacin otros. Afirmarqueelvolumendenegocionodependedelgrupodeactividaddelcomercio significaqueperteneceraungrupouotronosuponeningunadiferenciaparaelvolumende negocio,esdecir,queelvolumendenegocioeselmismo(enmedia)enloscuatrogrupos.Por tanto, la hiptesis nula establece la igualdad de las cuatro medias poblacionales: H0: 1 = 2 = 3 = 4 (todas las medias poblacionales son iguales) Por su parte, afirmar que el volumen de negocio s depende del grupo de actividad significa que pertenecer a un grupo u otro puede suponer una diferencia en el volumen de negocio, es decir, que el volumen de negocio no es el mismo (en media) en los cuatro grupos. Por tanto, la hiptesis alternativa establece la no igualdad de las cuatro medias poblacionales: H1: Existen i, j (i = j), tales que i = j (i, j = 1,...,4) (no todas las medias poblacionales son iguales) Esto puede parecer un poco confuso, pero basta recordar que lo contrario de todas es no todas,quenoeslomismoqueninguna.Esdecir,notodasigualesnosignificatodas distintas. Simplemente H1 es la negacin de H0. Comoyasabemosdeleccionesanteriores,lahiptesisnuladebeseraceptadasiel p-valor delcontrasteesmayorqueelniveldesignificacin(o),yrechazadaencasocontrario.Elp-valor aparece dentro de nuestra salida de resultados en la ltima columna (p), y vale con tres decimales p = 0367. El nivel de significacin lo elige el investigador. La opcin habitual es tomar o = 005. Por tanto, como p > o, Debemos aceptar la hiptesis nula y concluir por tanto que el volumen de negocio en el ao 2007 no depende del grupo de actividad Unamaneraequivalentedeexpresarestaconclusinseraafirmarquenoexisten diferenciassignificativasentrelascuatromediasdegrupoparalavariablevolumende negocio en el ao 2007. Estas medias de grupo pueden ser visualizadas fcilmente, como parte de la salida de resultados, activando la opcin correspondiente, a saber: 1) Reabrimos la ventana del anlisis que tenemos minimizada abajo a la izquierda. Curso bsico de anlisis de datos con StatisticaEnerode 2011 2) Pulsamos el botn Resumen: Tabla de estadsticas. 3) Aparece en nuestro libro de trabajo una nueva hoja con las medias, los tamaos de grupo y las desviaciones tpicas: Aniveldescriptivo,observamos,porejemplo,queelgrupoOtroseselqueposeeun volumendenegociomedioen2007mselevado,yqueelgrupoAlimentacineselnicocon unamediapordebajodelaglobal.Sinembargo,hemoscomprobadoquetalesdiferenciasnoson estadsticamente significativas. Condiciones de aplicacin ParaqueunAnlisisdelaVarianzasepuedarealizardeformavlidadebencumplirselas siguientes condiciones tericas: 1) Las muestras que comparamos deben ser aleatorias (supuesto de aleatoriedad). 2)Lasmuestrasquecomparamosdebenprocederdepoblacionesindependientes(supuesto de independencia) 3)Lasmuestrasquecomparamosdebenprocederdepoblacionesnormales(supuestode normalidad). 4) Las varianzas poblacionales deben ser iguales (supuesto de homoscedasticidad). Enresumen,lasmuestrasquecomparamostienenqueseraleatoriasydebenprovenirde poblacionesnormalesindependientesquealosumodifierenensusmedias(precisamentela igualdad de medias es la hiptesis que sometemos a contraste). EJERCICIO4.3.-Estudialascondicionesdenormalidadyhomoscedasticidadenelanlisisde varianza que acabamos de realizar. Sesin 4. ANOVA y Regresin Lineal65 Pruebas a posteriori (post hoc) Si el resultado de un ANOVA fuese significativo concluiramos que los grupos que estamos comparando no son todos iguales, que alguna diferencia existe entre ellos. Entonces se nos plantea lacuestindeaveriguarqugruposconcretossonlosquedanlugaralasdiferenciasglobales detectadas.Estoimplicarealizarcomparacionesentreparejasdegruposyportantonosdevuelve otravezalproblemadelascomparacionesmltiples.Sinembargo,sehandesarrolladomtodos paracomparargruposdosadosaposteriori,esdecir,despusdequeunANOVAharesultado significativo,demaneraqueelniveldesignificacinglobalsemantienecontroladoenniveles aceptables. Explicarestaspruebasaposteriorisesaledelalcance(entiempoynivel)quehemos pensadoparaestecurso,asquediremossimplementequeseaccedeaellasenelStatistica mediante la pestaa Post-hoc de la ventana Estadsticas por grupos - Resultados. Si uno no est interesadoenlosdetallestcnicosbastaconquebusqueenlasalidaderesultadoslosp-valores correspondientes a la comparacin de cada pareja de grupos. De todas maneras, cada prueba tiene susventajaseinconvenientesypuedennoseraplicablesencualquiercircunstancia.Sinonos sentimos muy cmodos con ellas, lo mejor es consultar a un estadstico. EJERCICIO4.4.-Analizasielvolumendenegocioenelao2008dependedelanaturaleza jurdica de la empresa. Estudia las condiciones de normalidad y homoscedasticidad. EJERCICIO4.5.-Analizasielvolumendenegocioenelao2007dependedelaubicacin. Comprueba que los resultados coinciden con los obtenidos mediante la prueba t para dos muestras. Estudia las condiciones de normalidad y homoscedasticidad. EJERCICIO4.6.-Analizasielvolumendenegocioenelao2008dependedelacombinacin grupo/ubicacin (8 posibilidades). Estudia las condiciones de normalidad y homoscedasticidad. (Indicacin:Empiezaporaadirunanuevavariablealficheroqueinformedelacombinacin grupo/ubicacin que corresponde a cada comercio). Curso bsico de anlisis de datos con StatisticaEnerode 2011 4.2. Regresin Lineal Simple En este apartado vamos a estudiar la tcnica llamada de Regresin Lineal Simple, que sirve para modelizar la relacin entre dos variables cuantitativas. Consideraremos nuestro anlisis en sus aspectos descriptivo e inferencial. Regresin Lineal Simple: Aspecto Descriptivo Supongamosqueestamosinteresadoseninvestigarlarelacinqueeventualmentepueda existirentreelvolumendenegocioenlosaos2007y2008,quesondosvariablescuantitativas (negocio_07 y negocio_08). El primer paso de nuestra aproximacin al problema ser construir un grficoquenospermitahacernosunaideadeltipoderelacinqueexisteentreestasvariables.El grficoadecuadopararepresentardatosbidimensionalescuantitativoseselllamadodiagramade dispersin.ParaconstruirundiagramadedispersinconStatisticaseguiremoslospasos siguientes: 1)EjecutamoselcomandoGrficos>Diagramasdedispersin.SeabrelaventanaDiag. de disp. 2D: 2) Seleccionamos las variables que contienen los datos a representar. Para ello pulsamos el botn Variables. Se abre la ventana Seleccionar variables para el diagrama de dispersin: Sesin 4. ANOVA y Regresin Lineal67 3) De la lista de la izquierda seleccionamos la variable que queremos representar en el eje de abscisas(la7:negocio_07).Delalistadelaizquierdaseleccionamoslavariablequequeremos representar en el eje de ordenadas (la 8: negocio_08). Al pulsar en Aceptar regresamos a la ventana anterior, y pulsandoAceptar otra vez, Statistica aadir una nueva hoja a nuestro libro de trabajo con el grfico solicitado: Diagrama de dispersin de negocio_08 contra negocio_07comercio 8v*76cnegocio_08 = 219,2063+0,3093*x0 100 200 300 400 500 600 700negocio_070100200300400500600negocio_08 Se observa que existe una clara relacin lineal, slo distorsionada por unos pocos comercios que se desvan llamativamente del patrn general. Elprogramahaincluidoautomticamente enel Curso bsico de anlisis de datos con StatisticaEnerode 2011 grficounarectaderegresin(suecuacinformapartedelttulo),delaquehablaremosms adelante. Elsegundopasodelanlisisconsisteenestudiar,ahoraanalticamente,siexisterelacin entre estas variables. Para ello vamos a calcular la covarianza entre negocio_07 y negocio_08. La covarianza entre dos variables, x e y, viene dada por la expresin: = = =nii i xyy y x xny x Cov s1) )( (11) , ( o bien, equivalentemente, ( )( )(((

= = =ny xy xny x Cov si inii i xy111) , ( expresin que resulta ms cmoda para el clculo a mano. Para obtener la covarianza con Statistica seguiremos los pasos siguientes: 1) Ejecutamos el comando Estadsticas>Regresin mltiple. Se abre la ventana Regresin lineal mltiple: 2)Seleccionamoslasvariablescuyacovarianzadeseamoscalcular.Paraellopulsamosel botn Variables. Se abre la ventana Selec. listas de variables dependientes e independientes: Sesin 4. ANOVA y Regresin Lineal69 3)Delalistadelaizquierdaseleccionamoslavariablealaqueasignamoselpapelde dependiente(la8:negocio_08).Delalistadeladerechaseleccionamoslavariablealaque asignamoselpapeldeindependiente(la7:negocio_07).AlpulsarenAceptarregresamosala ventanaanterior,ypulsandoAceptarotravez,seabrelaventanaResultadosdelaregresin mltiple: Curso bsico de anlisis de datos con StatisticaEnerode 2011 Estaventanaestdivididaenunapartesuperiorconunadelantodelosprincipales resultadosdelanlisis,yunaparteinferiorconpestaasybotonesquenospermitirnobtenerlos resultados que nos interesen en hojas de nuestro libro de trabajo. Veamos dnde podemos solicitar la covarianza entre nuestras variables. 4)EnlapestaaResiduales/pruebadehiptesis/prediccin,pulsamoselbotn Estadsticas descriptivas: Se abre la ventana Revisar estadsticas descriptivas: Statistica nos informa de que se estn utilizando 74 de los 76 casos del archivo de datos (hay dos comercios para los que no consta el valor de negocio_08). Sesin 4. ANOVA y Regresin Lineal71 5) En la pestaa Avanzado, pulsamos el botn Covariancias: Statisticaaadeunanuevahojaanuestrolibrodetrabajoconlallamadamatrizde covarianzas: Cada elemento de esta matriz es la covarianza entre las variables de su fila y su columna. Es sencillocomprobarapartirdelafrmulaquehemosvistomsarribaquelacovarianzaentreuna variable y ella misma es su varianza, por lo que la diagonal principal de una matriz de covarianzas contiene las varianzas de cada variable. Adems una matriz de covarianzas siempre ser simtrica, porqueCov(x,y)=Cov(y,x).Resulta,endefinitiva,quelacovarianzaentrenegocio_07y negocio_08 vale 4514.03. Muy bien, y esto qu significa? Para interpretar la covarianza tendremos en cuenta los siguientes puntos. Existencia de correlacin 1) La covarianza mide dependencia lineal entre las variables. 2)Silacovarianzavale0,noexistedependencialinealentrelasvariables.Sedicequelas variables son incorreladas. 3)Silacovarianzanovale0,existedependencialinealentrelasvariables.Sedicequelas variables estn correlacionadas. Paranuestrosdatoslacovarianzanovale0,yconcluimosportantoquelasvariables negocio_07 y negocio_08 estn correlacionadas: existe dependencia lineal entre ellas (cosa que ya habamos intuido a la vista del diagrama de dispersin). Curso bsico de anlisis de datos con StatisticaEnerode 2011 Sentido de la correlacin 4)Silacovarianzaespositiva,sedicequelacorrelacinexistenteespositiva,odirecta. Estosignificaqueambasvariablescovaranenelmismosentido:cuandoaumentaunatiendea aumentar la otra, cuando disminuye una tiende a disminuir la otra. 5) Si la covarianza es negativa, se dice que la correlacin existente es negativa, o inversa. Estosignificaqueambasvariablescovaranensentidosopuestos:cuandoaumentaunatiendea disminuir la otra, cuando disminuye una tiende a aumentar la otra. Paranuestrosdatos,lacovarianzahasalidopositiva,loqueindicaquelacorrelacin existenteentrelasvariablesnegocio_07ynegocio_08espositiva,odirecta,esdecir,amayor volumendenegocioen2007,mayorvolumendenegocioen2008(comotendenciaestadstica, pueden existir casos particulares en los que haya sucedido lo contrario). Fuerza de la correlacin Unavezquehemosdescubiertoqueexistecorrelacinlinealentredosvariables,ysu sentidopositivoonegativo,interesavalorarsitalcorrelacinesfuerteodbil,esdecirsila dependencialinealesestrechaomsbiendifusa.Estacuestinsepuedededucirintuitivamentea partirdeldiagramadedispersin,quetenderamostrarunpatrnlinealtantomsntidocuanto msfuertesealacorrelacinexistente.Analticamente,lacovarianzatiendeatomarunvalor grande (en valor absoluto) cuando la correlacin es fuerte, y pequeo cuando la correlacin es dbil. Sin embargo, valorar la magnitud de una covarianza no es una tarea sencilla, debido a: a)Lacovarianzanoestacotada,puedetomarcualquiervalorreal.Entoncescmo concretar lo que significa grande o pequeo? b)Lacovarianzadependedelasescalasdemedidadelasvariables.Estosignificaque podemos hacer que la covarianza sea tan grande o pequea como queramos sin ms que multiplicar los datos por una constante apropiada. Esto es un contratiempo: la fuerza de la correlacin entre dos variables no debera depender de la unidad de medida que se utilice para expresar los datos. Estos problemas se resuelven mediante el coeficiente de correlacin lineal, que viene dado por la expresin: y xxys ssr =dondesxy es la covarianza entre x e y sx es la desviacin tpica de x sy es la desviacin tpica de y Las dos propiedades bsicas del coeficiente de correlacin son: 1) r est comprendido entre 1 y 1, ambos inclusive: -1 s r s 1 2) r es adimensional, en particular es independiente de las unidades de medida en las que se expresenlosdatos.Dichodeotraforma,esinvariantefrenteacambiosdeorigenyescalaenlos datos. Sesin 4. ANOVA y Regresin Lineal73 Interpretacin del valor de r 1) r = -1Correlacin negativa exacta (los datos estn sobre una recta de pendiente negativa). 2) r ~ -1Fuerte correlacin negativa. 3) r ~ 0, r < 0Dbil correlacin negativa. 4) r = 0Incorrelacin. 5) r ~ 0, r > 0Dbil correlacin positiva. 6) r ~ 1Fuerte correlacin positiva. 7) r = 1Correlacin positiva exacta (los datos estn sobre una recta de pendiente positiva). Los casos 1, 4 y 7 corresponden a situaciones lmite que no suelen darse nunca en la prctica con datos reales. Respecto a los casos restantes, suele considerarse dbil una correlacin por debajo de 0.7 (,r, < 0.7), pero cualquier regla de este tipo siempre es arbitraria. Para obtener el coeficiente de correlacin con Statistica seguiremos los siguientes pasos: 1)Reabrimoslaventanadelanlisisquetenemosminimizadaabajoalaizquierda. Aparecerabiertalaltimaventanaquehayamosvisitado:Revisarestadsticasdescriptivas. PulsamoselbotnCancelarpararegresaralaventanaanterior:Resultadosdelaregresin mltiple: Enestaventanayanosapareceelcoeficientedecorrelacin(Rmltiple=0.32982790), pero es mejor que lo incorporemos a nuestro libro de trabajo para poder guardarlo y recuperarlo sin tener que repetir el anlisis para visualizar esta ventana. Para ello: Curso bsico de anlisis de datos con StatisticaEnerode 2011 2)EnlapestaaMenbsico,pulsamoselbotnResumen:Resultadosdelaregresin. Statistica aade dos nuevas hojas a nuestro libro de trabajo. La primera de ellas es: Paranuestrosdatos,elcoeficientedecorrelacinobtenido(enlalnea Rmltiple)es,con dosdecimales,r=0.33,loquesignificaqueentrelasvariablesnegocio_07ynegocio_08existe una dbil correlacin positiva. El programa proporciona el valor del coeficiente de correlacin en valor absoluto, por lo que hayquedeterminarelsignodelacorrelacinporotrosmedios.Estonosuponeningnproblema. En el primer paso del anlisis, en el que hemos obtenido el diagrama de dispersin, la pendiente de larectadeajustequeaparecesuperpuestaalospuntosdedatosnosindicaelsentidodela correlacin. Por supuesto, es bastante claro que para saber si existe correlacin entre dos variables, si es positiva o negativa, y si es fuerte o dbil, basta con calcular el coeficiente de correlacin, de manera que el proceso que hemos seguido, partiendo de la covarianza, se debe ms a razones didcticas que a razones prcticas. Coeficiente de Determinacin Lineal Alternativamente,esposibleutilizar,paramedirlafuerzadelacorrelacin,elllamado coeficiente de determinacin lineal. Este coeficiente no es ms que el cuadrado del coeficiente de correlacin, y, por tanto, vendr dado por la expresin: 2 222y xxys ssr = Es evidente que se cumplir:0 s r2 s 1. Interpretacin del valor de r2 1) r2 = 0Incorrelacin. 2) r2 ~ 0Dbil correlacin. 6) r2 ~ 1Fuerte correlacin. 7) r2 = 1Correlacin exacta (los datos estn sobre una recta). Sesin 4. ANOVA y Regresin Lineal75 Statistica proporciona el valor de r2 junto con el de r (en la lnea R2 mltiple). Observamos, pues, que para nuestros datos se tiene r2 = 0.11. En trminos de r2, el criterio para considerar dbil una correlacin (,r, < 0.7), se convierte en r2 < 0.5 (tomando el valor redondo 0.5 para el cuadrado de0.7).Volveramosaconcluirqueentrelasvariablesnegocio_07ynegocio_08existeundbil correlacin(positiva,desdeluego,comosabemosdesdequehemosobtenidoeldiagramade dispersin). El coeficiente de determinacin tiene adems una interesante interpretacin: expresa enqumedidalavariablexdetermina(linealmente)elvalordey.Elvalorr2=0.11(11%,silo expresamosenporcentaje)nosestdiciendoqueelvolumendenegocioen2007determinaenun 11% el volumen de negocio en 2008. Cmo entender esta afirmacin? Aceptamos que el valor en el2008dependedelvalorenel2007,peroslohastaciertopunto!Existenmultituddefactores (conocidos o desconocidos, controlables o incontrolables) que determinan el volumen de negocio de un ao particular, entre los cuales el volumen en el ao anterior no es ms que uno de tantos, o es especialmenteimportante?Noloparece,porqueelpesorelativodesuinfluencianoalcanzams queel11%,queesbastantepoco,dejandounampliomargendel89%paralainfluenciadetodos losdemsfactores.Tcnicamente,elcoeficientededeterminacinmidelaproporcindela varianza de y explicada por la relacin que existe con x. El criterio r2 < 0.5 para considerar dbil una correlacin se basa en exigir que una variable determine el valor de la otra por lo menos en un 50%, de manera que quede un margen inferior a dicho 50% para la influencia del resto de factores posibles (que para nosotros representa la componente aleatoria de la relacin entre las variables). EJERCICIO4.7.-Paralasvariablesnegocio_07ynegocio_08,construyeeldiagramade dispersin,calculaeinterpretalacovarianza,elcoeficientedecorrelacinyelcoeficientede determinacin,eliminandodelanlisisloscincocomerciosquesedesvandelpatrngeneral marcado por el resto. Compara los resultados con los que hemos obtenido usando todos los datos. Modelizacin de la relacin entre las variables: Rectas de Regresin. El siguiente paso a dar en el anlisis es el de la construccin de un modelo matemtico que represente la relacin entrenuestras variables. Supongamos que estamos interesados en modelizar la variable negocio_08 como funcin lineal de la variable negocio_07. Esto significa que queremos construir una expresin de la forma: y = a + b x siendox = negocio_07 y = negocio_08 a, b = parmetros a determinar a partir de los datos disponibles para x e y. Estaexpresinmatemticacorrespondealaecuacindeunarectaconpendienteby ordenada en el origen a. Las frmulas para calcular a y b son las siguientes: 2xxyssb =x b y a = (Obsrvesequeestasfrmulasestnpensadasparacalcularprimerobyluegollevarelvalor obtenido a la frmula de a). Curso bsico de anlisis de datos con StatisticaEnerode 2011 Statistica proporciona los valores de a y b en la segunda de las dos ventanas que acabamos de incorporar al libro de trabajo: EnlalneaInterseccin,columnaB,aparecelaordenadaenelorigena= 219.2063, y en la lnea negocio_07, columna B, aparece la pendiente b = 0.3093. La ecuacin de la recta que modeliza la variable negocio_08 como funcin lineal de la variable negocio_07 es, pues: negocio_08 = 219.2063 + 0.3093 negocio_07 Esta recta (que Statistica ha incluido automticamente en el diagrama de dispersin) recibe elnombrederectaderegresinmnimo-cuadrticadeysobrex.Ladenominacinmnimo-cuadrticasedebeaqueelmtodoquesehautilizadoparaconstruirla,ydelquederivanlas frmulas de b y a anteriores, es el mtodo de los mnimos cuadrados. La denominacin y sobre xhacereferenciaalospapelesasignadosalasvariablesquesemanejan.Elmodeloseha construidoasignandoax(negocio_07)elpapeldevariableindependiente(oexplicativa),yay (negocio_08)elpapeldevariabledependiente(orespuesta).Siintercambiamosestospapeles obtendremos una recta distinta, que ser de la forma: x = a + b y Las frmulas para b y a sern: 2'yxyssb =y b x a ' ' = Siestamosinteresadosenmodelizarnegocio_07entrminosdenegocio_08,podemos empezar por construir el diagrama de dispersin: Sesin 4. ANOVA y Regresin Lineal77 y, a continuacin, obtener los valores de los parmetros del modelo (aunque ya aparecen en el ttulo del grfico): de manera que la ecuacin de la recta que modeliza la variable negocio_07 como funcin lineal de la variable negocio_08 es: negocio_07 = 207.9515 + 0.3518 negocio_08 Esta recta recibe el nombre de recta de regresin mnimo-cuadrtica de x sobre y. Resulta,pues,queparaunosdatosbidimensionalescuantitativos,noexisteunanicarecta deregresin,sinodos.Culutilizardependedelaaplicacinquequeramoshacerdelmodelo.La rectadeysobrexeslaptima(esdecir,lamejorrectaposible,enelsentidodelosmnimos Curso bsico de anlisis de datos con StatisticaEnerode 2011 cuadrados)parapredecirelvalordeyapartirdeunvalordadodex,ylarectadexsobreyesla ptimaparapredecirelvalordexapartirdeunvalordadodey.Porotraparte,enlarectadey sobre x, el parmetro b representa el efecto lineal que tiene la variable x en la variable y, mientras que, en la recta de x sobre y, el parmetro b representa el efecto lineal que tiene la variable y en la variable x. EJERCICIO4.8.-Paralasvariablesnegocio_07ynegocio_08,calculalasrectasderegresinde y sobre x y de x sobre y, eliminando del anlisis los cinco comercios atpicos. Compara los grficos en los que aparecen estas rectas con los obtenidos usando todos los datos. Regresin Lineal Simple: Aspecto Inferencial Generalmente, los datos que se utilizan para estudiar y modelizar la relacin existente entre dosvariablescuantitativascorrespondenaunamuestradeindividuospertenecientesacierta poblacin. Se plantea entonces la cuestin, propia de la Inferencia Estadstica, de tratar de alcanzar conclusionesgeneralesparatodalapoblacinapartirdelainformacinproporcionadaporla muestra.As,enelcontextoenelquenosencontramos,nonosinteresarnicamentesila correlacinobservadaentredosvariablesespositivaonegativa,fuerteodbil,sinotambinsies significativa. Elhechodequeexistacorrelacinanivelmuestralnoimplicaquetengaqueexistir necesariamenteanivelpoblacional.Puedeserquedosvariablesseanincorreladasanivel poblacionalysinembargonoloseanenlamuestraparticularanalizada.Lamuestrahabrsido (debera haber sido) seleccionada al azar, y por tanto los estadsticos que calculamos a partir de ella estn sometidos a las fluctuaciones aleatorias inherentes al proceso de muestreo. Enesteapartadovamosaestudiarelpuntomsimportantedelenfoqueinferencialdela modelizacin, que es el llamado Contraste de la Regresin. La recta de regresin que hemos obtenido antes, y = a + b x, es ahora la recta de regresin muestral. Denotemos la recta de regresin poblacional por y = o + | x. El contraste de la regresin es un contraste de hiptesis en el que la hiptesis nula es: H0: | = 0 y la hiptesis alternativa es: H1: | = 0 De ser cierta la hiptesis nula, el modelo en la poblacin carecera de trmino en x; la recta deregresinpoblacionalseradelaformay=cte,rectahorizontalquenorepresentaninguna relacinentrexey.Equivalentemente,enlapoblacintantolacovarianzacomoelcoeficientede correlacin se anularan (basta pensar en las frmulas para r y b en trminos poblacionales), es decir las variables x e y seran incorreladas a nivel poblacional. Porelcontrario,silahiptesisnulaesfalsa(esciertalaalternativa),elmodeloenla poblacinincluiraeltrminoenx;larectaderegresinpoblacionaltendrapendientenonula, representando una relacin lineal entre x e y. Equivalentemente, en la poblacin tanto la covarianza Sesin 4. ANOVA y Regresin Lineal79 comoelcoeficientedecorrelacinserandistintosdecero,esdecir,lasvariablesxeyestaran correlacionadas a nivel poblacional. Por supuesto, es imposible saber si la hiptesis nula es cierta o falsa, pero el contraste de la regresinnosvaapermitirdecidirsilosdatosmuestralesproporcionanevidenciasuficientepara descartar H0 en favor de H1. Statistica proporciona los resultados del contraste de la regresin junto con los valores de los coeficientes de la recta de regresin muestral en la correspondiente hoja dellibro de trabajo que ya obtuvimos antes (para la regresin de y = negocio_08 sobre x = negocio_07): Comosabemos,hayquerechazarlahiptesisnula,enfavordelaalternativa,sielp-valor del contraste es suficientemente pequeo (p < o, siendo o el nivel de significacin elegido). El p-valor aparece en la lnea negocio_07, columna nivel-p, siendo, por tanto, p = 0.004108. Se trata de unp-valorpequeoparacualquieradelosnivelesdesignificacinusadoshabitualmente(0.10, 0.05,0.01),yportantodebemosrechazarlahiptesisnulaenfavordelaalternativa, concluyendo que en la poblacin | es distinto de cero Esta conclusin es equivalente a afirmar que en la poblacin existe correlacin lineal entre las variables negocio_07 y negocio_08 Otra manera muy tpica de expresar esta misma conclusin es que la correlacin lineal observada en la muestra entre las variables negocio_07 y negocio_08 es estadsticamente significativa Curso bsico de anlisis de datos con StatisticaEnerode 2011 (al 10%, 5% 1%, segn el nivel de significacin elegido) Y an otra manera equivalente de expresarnos sera: Se ha detectado en la muestra un efecto lineal significativo (representado por b = 0.3093) de la variable negocio_07 sobre la variable negocio_08 Desde luego, si la hiptesis nula hubiera sido aceptada, las conclusiones seran exactamente contrarias, en particular diramos que la correlacin observada en la muestra no es estadsticamente significativa. EJERCICIO 4.9.- Para las variables negocio_07 y negocio_08, realiza e interpreta el contraste de laregresinparalasrectasdeysobrexydexsobrey,eliminandodelanlisisloscinco comercios atpicos. Compara los p-valores con los obtenidos usando todos los datos. Sesin 4. ANOVA y Regresin Lineal81 BIBLIOGRAFA Delgado de la Torre, Rosario: Probabilidad y estadstica para ciencias e ingenieras. Delta Publicaciones. Madrid, 2008. Martn-Pliego Lpez, Fco.Javier: Introduccin a la estadstica econmica y empresarial. Teora y prctica. Thomson. Madrid, 2004. Pea, Daniel: Fundamentos de estadstica. Alianza Editorial. Madrid, 2001. Ruiz-Maya Prez, Luis; Martn-Pliego, F. Javier: Fundamentos de inferencia estadstica. Thomson. Madrid, 2002. Trabajo final: Opcin 1: Realizar un anlisis estadstico con los datos contenidos en un fichero dado. El fichero, llamado UScereal, contiene informacin nutricional acerca de 65 cereales de desayuno para los que se recogen las variables siguientes: nombreIdentificacin del cereal fabricanteEmpresa que produce el cereal (ver etiquetas de texto) calorasAportecalricodeunaracinestndar(volumenfijoparatodoslos cereales, el peso variar en funcin de la densidad de cada uno) protenasGramos de protenas en una racin estndar grasasGramos de grasas en una racin estndar carbohidratosGramos de carbohidratos complejos en una racin estndar azcaresGramos de azcares en una racin estndar sodioMiligramos de sodio en una racin estndar potasioMiligramos de potasio en una racin estndar fibraGramos de fibra en una racin estndar enriquecidoEnriquecimiento del cereal en vitaminas y minerales 1=100%(enriquecidohastaalcanzarel100%delaingestadiaria recomendada de vitaminas y minerales) 2=25%(enriquecidohastaalcanzarel25%delaingestadiaria recomendada de vitaminas y minerales) 3=no (sin enriquecer en vitaminas y minerales) estanteEstante en el que se expone el cereal en el punto de venta. (1=Inferior, 2=Intermedio, 3=Superior) 1)Siobservaselficherodedatospuedescomprobar,asimplevista,quehay muchos fabricantes, que se fabrican varios productos dentro de la misma gama (msomenosenriquecidos),yademsquehayfabricantesconmuchos productos y otros con pocos.Parahacernosunaideadedndeprocedelainformacin,construyeycomenta las tablas de frecuencias siguientes: Para la variable fabricante. Para cada fabricante, la de la variable enriquecido (puedes completar tus conclusiones con otras tablas y/o grficos) 2)Haz un anlisis descriptivo del contenido de hidratos de carbono de los cereales enriquecidoshastaun25%decdr,porlaempresaGeneralMills.Incluyeun grficoquemuestreladistribucindelavariableanalizadaycomentalos resultados. 3)Estamosinteresadoseninvestigarconunniveldesignificacino=001las siguientes cuestiones: -Existendiferenciassignificativasenlasmediasdecarbohidratos complejos en una racin estndar, entre los productos de las marcas Kelloggs y General Mills? -Existendiferenciassignificativasenlasmediasdefibrayprotenas en una racin estndar de cereales para el desayuno? Curso bsico de anlisis de datos con StatisticaEnerode 2011 4)Utilizaloscuartilesparadefinircuatronivelesdeaportecalrico,yanalizasi existen diferencias significativas entre ellos respecto al contenido de fibra, sodio y azcares. 5)Analizasialgunadelasvariablesnutricionalesconsideradas(v3-v10)guarda alguna relacin con el estante en el que se exponen los cereales en el punto de venta. Comenta los resultados interesantes, si es que se obtiene alguno. 6)Modelizalarelacinqueexisteentrelavariablecaloras(respuesta)ylas variables fibra, sodio y azcares (explicativas: de una en una, slo hemos visto regresinsimple).Relacionalosresultadosobtenidosconlosdelapregunta4 anterior. 7)Culeslavariablenutricional(v4-v10)conmejorcapacidadpredictiva respecto al aporte calrico? Opcin2:Apartirdeunficherodedatospropios,realizaunanlisisestadsticoenel que ests interesado. Dicho anlisis ha de seguir el esquema propuesto en la Opcin 1: estudio descriptivo, contraste de hiptesis, anlisis de varianza y estudio de regresin. Indicaciones: Todaslasrespuestashandeestardebidamentejustificadasapartirdelosresultados obtenidos (tablas, grficos, estadsticos, mtodos, etc). Hay que comentar lo que se hace y por qu se hace. Por ejemplo, la utilizacin de una determinadaherramienta(tipodegrfico,tipodecontrastedehiptesis,etc)hadeser justificada, en particular, comprobando las condiciones de aplicacin (o de validez).