postdatacurso de introducción a la estadística · interfaz web en la que hacer este tipo de...

44
Z t χ 2 F

Upload: others

Post on 28-Feb-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

PostData Curso de Introduccioacuten a la Estadiacutestica

Tutorial 09 Inferencia sobre dos poblaciones

Atencioacuten

Este documento pdf lleva adjuntos algunos de los cheros de datos necesarios Y estaacute pensadopara trabajar con eacutel directamente en tu ordenador Al usarlo en la pantalla si es necesariopuedes aumentar alguna de las guras para ver los detalles Antes de imprimirlo piensa sies necesario Los aacuterboles y nosotros te lo agradeceremos

Fecha 10 de septiembre de 2015 Si este chero tiene maacutes de un antildeo puede resultar obsoletoBusca si existe una versioacuten maacutes reciente

Iacutendice

1 Diferencia de proporciones en dos poblaciones 1

2 Diferencia de medias en dos poblaciones muestras grandes 4

3 Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor 9

4 Diferencia de medias en dos poblaciones muestras pequentildeas 13

5 Datos en bruto con R 22

6 Ejercicios adicionales y soluciones 29

PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA 44

Introduccioacuten

Este tutorial contiene la parte praacutectica del Capiacutetulo 9 del libro Como hemos dicho en la introduc-cioacuten de ese capiacutetulo las ideas baacutesicas (intervalos de conanza y contrastes) resultan ya conocidasy aquiacute de lo que se trata es de aplicarlas al caso en el que estudiamos una misma variable aleatoriaen dos poblaciones independientes Las operaciones necesarias en la praacutectica son muy parecidasa las que hemos visto en anteriores capiacutetulos y tutoriales para el caso de una poblacioacuten Para usarel ordenador en estos problemas soacutelo necesitamos en principio ser capaces de resolver problemasde probabilidad (directos e inversos) en las distribuciones correspondientes la normal Z la t deStudent la χ2 y como novedad de este capiacutetulo la F de Fisher Cualquiera de las herramientascon las que nos hemos familiarizado podriacutea ser suciente para este trabajo R por supuesto oGeoGebra Wolfram Alpha incluso Calc permita calcular los valores de cualquiera de esas distri-buciones Pero como ya sabe el lector algunas herramientas son mucho maacutes coacutemodas y ables queotras En este tutorial se incluye en la Tabla 1 (paacuteg 44) una coleccioacuten de plantillas de R quejunto con los de los anteriores tutoriales cubren todos los casos que aparecen en las Tablas delApeacutendice B del libro Ilustraremos el uso de cada una de estas plantillas con un ejemplo detalladoy aprovecharemos algunos de esos ejemplos para abordar el uso de otras herramientas como laCalculadora de Probabilidades de GeoGebra

1 Diferencia de proporciones en dos poblaciones

Ver la Seccioacuten 91 del libro (paacuteg 296)

1

Usando la plantilla de R

Vamos a usar las plantillas de R de la la Tabla 1 para obtener los resultados que aparecen enel Ejemplo 911 del libro (paacuteg 300) Recordemos que en ese ejemplo se trata de contrastar lahipoacutetesis nula

H0 = p1 = p2

Y que para ello se han obtenido dos muestras independientes de tamantildeos n1 = 456 y n2 = 512 enlas que los respectivos nuacutemeros de eacutexitos eran 139 y 184 con lo que las proporciones muestralesde eacutexitos son

p1 =139

456asymp 03048 p2 =

184

512asymp 03594

mientras que las proporciones de fracasos son

q1 asymp 06952 q2 asymp 06406

El caacutelculo del p-valor de este contraste se obtiene muy faacutecilmente con el chero plantilla

de la la Tabla 1 Incluimos aquiacute soacutelo la parte inicial del chero en la que hemos introducido losdatos de este ejemplo Fiacutejate especialmente en que las proporciones muestrales se introducen comococientes no mediante el nuacutemero de eacutexitos Esto se ha hecho asiacute por si en alguacuten caso el enunciadodel problema contiene directamente la proporcioacuten sin mencionar expliacutecitamente el nuacutemero de eacutexitos

PRIMERA MUESTRA Numero de elementos(n1 = 456)

[1] 456

proporcion muestral(pMuestral1 = 139456)

[1] 030482

SEGUNDA MUESTRA Numero de elementos(n2 = 512)

[1] 512

proporcion muestral(pMuestral2 = 184512)

[1] 035938

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateralTipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

El nal del chero plantilla contiene las instrucciones que producen los resultados del contraste(no incluimos la regioacuten de rechazo porque no la vamos a usar)

2

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 00723854663297254

Estadistico

[1] -17967

Como puede verse el p-valor coincide con lo que aparece en ese ejemplo

Usando la funcioacuten proptest

Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea

proptest(c(139 184) c(456 512) correct=FALSE

alternative=twosided conflevel=095)

2-sample test for equality of proportions without continuity

correction

data c(139 184) out of c(456 512)

X-squared = 323 df = 1 p-value = 0072

alternative hypothesis twosided

95 percent confidence interval

-01138167 00047159

sample estimates

prop 1 prop 2

030482 035938

Como ves

Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales frac12Cuidado con este formato

La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2

Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal

Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconanza para p1 minus p2 al nivel de conanza que hayamos indicado

Vamos a usar ese intervalo de conanza como excusa para proponerte un ejercicio

Ejercicio 1

1 Usa el chero plantilla de R de la Tabla 1 (paacuteg 44) para obtener este mismo intervalo deconanza

2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando

IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gt

ltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3

para hacer la misma cuenta directamente

3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos

2 Diferencia de medias en dos poblaciones muestras gran-des

Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro

Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)

Ha = micro1 lt micro2

que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)

n1 = 245

X1 = 273

s1 = 04

n2 = 252

X2 = 281

s2 = 03

Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla

Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2

PRIMERA MUESTRA

Numero de elementos

(n1 = 245)

[1] 245

Media muestral

(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA

Numero de elementos

(n2 = 252)

[1] 252

4

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

Media muestral

(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s2 = 03)

[1] 03

(sigma2 = )

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados

Ejercicio 2

1 Usa el chero plantilla de R

de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt

ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for

the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference

between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 30

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

frac34Y el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla

X F

735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)

despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = scan(file=sep= dec=)

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)

if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))

if(tipoCon == 2)

(pV = pt(EstadCon df=k ))

if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))

return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)

if(tipoCon == 1)

(regionRech = paste(mayores que

qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 2: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Usando la plantilla de R

Vamos a usar las plantillas de R de la la Tabla 1 para obtener los resultados que aparecen enel Ejemplo 911 del libro (paacuteg 300) Recordemos que en ese ejemplo se trata de contrastar lahipoacutetesis nula

H0 = p1 = p2

Y que para ello se han obtenido dos muestras independientes de tamantildeos n1 = 456 y n2 = 512 enlas que los respectivos nuacutemeros de eacutexitos eran 139 y 184 con lo que las proporciones muestralesde eacutexitos son

p1 =139

456asymp 03048 p2 =

184

512asymp 03594

mientras que las proporciones de fracasos son

q1 asymp 06952 q2 asymp 06406

El caacutelculo del p-valor de este contraste se obtiene muy faacutecilmente con el chero plantilla

de la la Tabla 1 Incluimos aquiacute soacutelo la parte inicial del chero en la que hemos introducido losdatos de este ejemplo Fiacutejate especialmente en que las proporciones muestrales se introducen comococientes no mediante el nuacutemero de eacutexitos Esto se ha hecho asiacute por si en alguacuten caso el enunciadodel problema contiene directamente la proporcioacuten sin mencionar expliacutecitamente el nuacutemero de eacutexitos

PRIMERA MUESTRA Numero de elementos(n1 = 456)

[1] 456

proporcion muestral(pMuestral1 = 139456)

[1] 030482

SEGUNDA MUESTRA Numero de elementos(n2 = 512)

[1] 512

proporcion muestral(pMuestral2 = 184512)

[1] 035938

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateralTipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

El nal del chero plantilla contiene las instrucciones que producen los resultados del contraste(no incluimos la regioacuten de rechazo porque no la vamos a usar)

2

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 00723854663297254

Estadistico

[1] -17967

Como puede verse el p-valor coincide con lo que aparece en ese ejemplo

Usando la funcioacuten proptest

Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea

proptest(c(139 184) c(456 512) correct=FALSE

alternative=twosided conflevel=095)

2-sample test for equality of proportions without continuity

correction

data c(139 184) out of c(456 512)

X-squared = 323 df = 1 p-value = 0072

alternative hypothesis twosided

95 percent confidence interval

-01138167 00047159

sample estimates

prop 1 prop 2

030482 035938

Como ves

Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales frac12Cuidado con este formato

La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2

Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal

Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconanza para p1 minus p2 al nivel de conanza que hayamos indicado

Vamos a usar ese intervalo de conanza como excusa para proponerte un ejercicio

Ejercicio 1

1 Usa el chero plantilla de R de la Tabla 1 (paacuteg 44) para obtener este mismo intervalo deconanza

2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando

IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gt

ltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3

para hacer la misma cuenta directamente

3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos

2 Diferencia de medias en dos poblaciones muestras gran-des

Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro

Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)

Ha = micro1 lt micro2

que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)

n1 = 245

X1 = 273

s1 = 04

n2 = 252

X2 = 281

s2 = 03

Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla

Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2

PRIMERA MUESTRA

Numero de elementos

(n1 = 245)

[1] 245

Media muestral

(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA

Numero de elementos

(n2 = 252)

[1] 252

4

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

Media muestral

(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s2 = 03)

[1] 03

(sigma2 = )

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados

Ejercicio 2

1 Usa el chero plantilla de R

de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt

ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for

the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference

between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 30

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

frac34Y el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla

X F

735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)

despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = scan(file=sep= dec=)

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)

if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))

if(tipoCon == 2)

(pV = pt(EstadCon df=k ))

if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))

return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)

if(tipoCon == 1)

(regionRech = paste(mayores que

qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 3: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 00723854663297254

Estadistico

[1] -17967

Como puede verse el p-valor coincide con lo que aparece en ese ejemplo

Usando la funcioacuten proptest

Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea

proptest(c(139 184) c(456 512) correct=FALSE

alternative=twosided conflevel=095)

2-sample test for equality of proportions without continuity

correction

data c(139 184) out of c(456 512)

X-squared = 323 df = 1 p-value = 0072

alternative hypothesis twosided

95 percent confidence interval

-01138167 00047159

sample estimates

prop 1 prop 2

030482 035938

Como ves

Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales frac12Cuidado con este formato

La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2

Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal

Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconanza para p1 minus p2 al nivel de conanza que hayamos indicado

Vamos a usar ese intervalo de conanza como excusa para proponerte un ejercicio

Ejercicio 1

1 Usa el chero plantilla de R de la Tabla 1 (paacuteg 44) para obtener este mismo intervalo deconanza

2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando

IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gt

ltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3

para hacer la misma cuenta directamente

3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos

2 Diferencia de medias en dos poblaciones muestras gran-des

Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro

Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)

Ha = micro1 lt micro2

que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)

n1 = 245

X1 = 273

s1 = 04

n2 = 252

X2 = 281

s2 = 03

Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla

Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2

PRIMERA MUESTRA

Numero de elementos

(n1 = 245)

[1] 245

Media muestral

(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA

Numero de elementos

(n2 = 252)

[1] 252

4

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

Media muestral

(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s2 = 03)

[1] 03

(sigma2 = )

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados

Ejercicio 2

1 Usa el chero plantilla de R

de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt

ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for

the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference

between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 30

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

frac34Y el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla

X F

735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)

despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = scan(file=sep= dec=)

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)

if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))

if(tipoCon == 2)

(pV = pt(EstadCon df=k ))

if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))

return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)

if(tipoCon == 1)

(regionRech = paste(mayores que

qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 4: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

para hacer la misma cuenta directamente

3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos

2 Diferencia de medias en dos poblaciones muestras gran-des

Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro

Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)

Ha = micro1 lt micro2

que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)

n1 = 245

X1 = 273

s1 = 04

n2 = 252

X2 = 281

s2 = 03

Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla

Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2

PRIMERA MUESTRA

Numero de elementos

(n1 = 245)

[1] 245

Media muestral

(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA

Numero de elementos

(n2 = 252)

[1] 252

4

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

Media muestral

(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s2 = 03)

[1] 03

(sigma2 = )

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados

Ejercicio 2

1 Usa el chero plantilla de R

de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt

ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for

the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference

between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 30

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

frac34Y el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla

X F

735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)

despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = scan(file=sep= dec=)

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)

if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))

if(tipoCon == 2)

(pV = pt(EstadCon df=k ))

if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))

return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)

if(tipoCon == 1)

(regionRech = paste(mayores que

qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 5: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Media muestral

(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)

(s2 = 03)

[1] 03

(sigma2 = )

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados

Ejercicio 2

1 Usa el chero plantilla de R

de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt

ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for

the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference

between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 30

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

frac34Y el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla

X F

735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)

despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = scan(file=sep= dec=)

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)

if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))

if(tipoCon == 2)

(pV = pt(EstadCon df=k ))

if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))

return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)

if(tipoCon == 1)

(regionRech = paste(mayores que

qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 6: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

frac34Y el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla

X F

735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)

despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = scan(file=sep= dec=)

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)

if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))

if(tipoCon == 2)

(pV = pt(EstadCon df=k ))

if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))

return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)

if(tipoCon == 1)

(regionRech = paste(mayores que

qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 7: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)

despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = scan(file=sep= dec=)

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)

if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))

if(tipoCon == 2)

(pV = pt(EstadCon df=k ))

if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))

return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)

if(tipoCon == 1)

(regionRech = paste(mayores que

qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 8: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)

if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))

if(tipoCon == 2)

(pV = pt(EstadCon df=k ))

if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))

return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)

if(tipoCon == 1)

(regionRech = paste(mayores que

qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 9: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

if(tipoCon == 2)

(regionRech = paste(menores que

qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que

qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)

return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 10: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1

y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 11: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

frac12Ten en cuenta que la probabilidad se ha traducido en percentiles

Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de conanza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 12: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el chero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales

Y un intervalo de conanza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 13: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31

s2 = 45

los tamantildeos de las muestrasn1 = 59

n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 14: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 15: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 16: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 17: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos

(n1 = 12)

[1] 12

Media muestral

(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral

(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA

Numero de elementos

(n2 = 12)

[1] 12

Media muestral

(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral

(s2 = 01740)

[1] 0174

frac34Que tipo de contraste estamos haciendo

Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2

2 si es mu1 lt mu2

3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion

(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de

Welch

17

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 18: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Grados de libertad aproximacion de Welch

(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 19: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 20: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

42 Intervalos de conanza para la diferencia de medias con R

Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10

n2 = 10

Medias muestralesbarX1 = 942

barX2 = 977

Cuasidesviaciones tipicas muestraless1 = 2098

s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 21: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12

n2 = 12

Medias muestralesbarX1 = 1914

barX2 = 2344

Cuasidesviaciones tipicas muestraless1 = 04216

s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 22: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf

1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 23: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztest

TeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Warning package BSDA was built under R version 322

Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

23

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 24: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82

[24] 78 76 83 71 90 77 81 82

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

[1] 31

length(Statisti$Class2)

[1] 31

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

F test to compare two variances

data Statisti$Class1 and Statisti$Class2

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

24

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 25: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

025541 116350

sample estimates

ratio of variances

05508

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2

alternative = twosided conflevel = 095 varequal = TRUE)

Two Sample t-test

data Statisti$Class1 and Statisti$Class2

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean of x mean of y

78581 80815

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero

Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe

llamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group

1 81 1

25

scores group131 81 1132 73 1133 86 1134 90 1135 75 1136 80 1137 75 1138 81 1139 85 11310 87 11311 83 11312 75 11313 70 11314 65 11315 80 11316 76 11317 64 11318 74 11319 86 11320 80 11321 83 11322 67 11323 82 11324 78 11325 76 11326 83 11327 71 11328 90 11329 77 11330 81 11331 82 11332 87 21333 77 21334 66 21335 75 21336 78 21337 82 21338 82 21339 71 21340 79 21341 73 21342 91 21343 97 21344 89 21345 92 21346 75 21347 89 21348 75 21349 95 21350 84 21351 75 21352 82 21353 74 21354 77 21355 87 21356 69 21357 96 21358 65 213

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 26: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

2 73 1

3 86 1

4 90 1

5 75 1

6 80 1

tail(Statisti2)

scores group

53 74 2

54 77 2

55 87 2

56 69 2

57 96 2

58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores

(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la

frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances

data scores by group

F = 0551 num df = 30 denom df = 26 p-value = 012

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

025541 116350

sample estimates

ratio of variances

05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2

alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test

data scores by group

t = -107 df = 56 p-value = 029

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-63993 19310

sample estimates

mean in group 1 mean in group 2

78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

26

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 27: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El chero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del chero adjunto

Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

head(datos)

X T

1 234606 A

2 155983 B

3 519988 B

4 216967 A

5 38108 B

6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T

27

X T13430560740754288 A13652966329250026 A13603862646480504 A13911853949510445 A1324945850920106 A13653344739024654 A13639392680988064 A13672696515685647 A13687529018509023 A13111175100620406 A13844887885086123 A13581695979306111 A130389689702292723 B13-496543565850173 B13-107641681139464 B13573465422305189 B13-517721566767361 B13149811508361143 B13-209860890910976 B1331701388559728 B13-243236451611397 B13733831328331857 B13108733786972416 B13-660761524202594 B13-271845111372805 B13215024559887082 B13173556872445935 B13-0181609610194061 B13

X T13234605999096457 A1315598280448541 B13519988465065498 B13216966728310644 A13381076252281305 B13234239486850839 A13265842231590497 A13229753625013886 A13140678381212815 B13251853190973464 B13250253786025462 A13234075711268393 B13371688487042454 B13173862684689826 B13225775012789561 A13547175961559632 B13220064204163727 A13186998198826422 A13238306114887893 A13280903361221038 A13127672926315808 B13614916724083803 B13169480802630229 B13227109895636368 A13396552942858675 B13350609224303273 B13756587209754821 B13211619703149375 A13180969468372537 B13234503395198656 A13198162552706551 B13233292527489174 A13139647557388276 B13142764964870262 B13220337758328292 A1324164116734722 A13253765700489303 A13158298175311535 B1322156914401392 A13235325248448317 B13175246437278331 A13347816453954308 B1353512493472184 B13239636297130648 A13366101804515207 B13407348701307765 B13409678170138121 B13204061605494309 A13221897782725772 A13189133609085659 A13298225726442781 B1326540623141575 B13263414980797674 B13246556788990516 A13-501017742681989 B13316911210589616 B13-00568165147471618 B13246000741632516 A13234112429228007 A13469479905251648 B13212301871947505 B13257177602422906 B13226958815340569 A13201134062600214 B13260634090273564 A13283604812281762 A13236091693721966 A134818757572982 B13199367898539616 B13243205609380066 A13335285971778329 B13148041808186536 B13335819038561241 B13205786609399486 A13234879122539059 A13385672831222543 B13223701626868733 A13176949178517961 A13204139025980121 A13197447264546412 A13240899840397463 A13259097804407579 B13196232017858293 A13173184994491508 B13205362489044047 A13230211850267286 A13302335193814517 B13229388544040053 A1324261026561079 A13338597188487547 B13234405895731986 A13247004257250509 A13-411367995825517 B1323771325536927 A13368995283652495 B13209986820445814 A13433325326311023 B13266999088320809 A1323330776438314 B13810442219250529 B13271238950315316 B13416970952387577 B13192085441724738 B13420326509440559 B13230617810269694 A133487378188216 B13197087813538987 A13201420471293942 B13436933218493828 B13126479158471136 B13352009257054646 B1321687177065472 A13258240782507113 A13255196553124894 A13199946517549557 A13232152377375232 A13209683885888177 A13274835060426155 B13127081911751992 B13244431015397343 B13293357149103982 B13244124876050272 B13250865865796495 A13231917909689682 A1321239700808919 A13208544711140125 A13222004332165541 A13273637231301014 A13232416765613775 A13195077718782793 B1320792603661635 A13258931181719068 A13208194727901493 B13256993062537416 A13231294686596134 B13266886342306813 A13208530712725224 A13184640989620285 B13253188374050682 A13256957420260514 A1328190252400299 A13248718331479251 A13256230761024642 A13232341560370249 A13250871562119096 A1321461073616156 A13185845420016854 B1324979308952242 A13227229740226582 A13452840958840228 B13276599246154004 B1322343003254789 A13243834535532788 A13244757214271478 A13227229992212867 A13434733731967085 B13-136156697935888 B13391616574876754 B13200137169693384 A13206755689256857 A13234232203539294 A13203429568314253 B13422280966912466 B13312348286492398 B13427838596344838 B13383044271804057 B13-0208275235439515 B13224470365073 A13247860175295984 A13156478624851422 B13235353629127993 A13353154974470208 B13231114192612279 A13229871203036463 A13466372593695194 B13275024427867825 A13204269290378536 A13413061369705235 B13265192532836622 A13214719252961422 A13228877383538107 A13248617318823061 A13211847951542592 A13124965170259028 B13-0812091526303433 B13943857064414312 B13283620573465039 B13277187297940874 B13581654311015682 B13258670124254924 A13176925427065808 B13230582813509088 A13230671203354502 A13561903234913485 B13230551799311355 A13234379836392954 A13244858310317531 A13330006269514315 B13209082674952101 A13393665568244798 B13237469638484985 A13230811562093581 A13219394749951728 B1365740591712957 B13222527229029281 A13225560119912732 B13212963724931173 B13117128769811807 B13251384968141621 A13449364065406818 B13191654020265446 A13168257007019454 B13230951865318115 A13285128073435144 B13241358186890684 B13377010539712473 B13265899451569879 B13260378854541065 A13222629865301301 A13338925682340659 B13212886575981185 A13244387097752558 A13121174881513955 B13238502381523097 A13216290295292865 A13233487891508217 A13521747475408702 B1322386855873114 A13233588298109535 A13453893166388768 B130760029953256645 B13326831678572215 B132565926043372 A13249904423947234 A13237747995987326 A13270096207016461 B13237409003821768 A13209422659560598 B13234058329061194 A13272061909560188 A13206506016712294 A13543950383798059 B13280281348009978 A13212995490629689 A13331483727620505 B13224018822479388 A13236812518095497 B13224628503868396 A13238271694040476 A13232465456425309 A13221746498815627 A13243886632996985 B13223101771788263 A13228921038898612 A13-260860260840797 B13232590666321059 A13179022942181799 B1321181790695597 A13223409826541104 A1320467480221329 A13230941715713495 A13418034168407362 B13709218887481072 B13245262719710891 A13250385653390334 A13238992565659127 A13336608881525538 B13168709602608272 B13206514197075983 A13230044380169062 A1322542658364641 A13266033178732433 B132487959463273 A13439014588431875 B13-65712927656301 B13215433841437548 A13232196037387233 A13199806506774261 B13357493793435622 B13733311770125488 B13207455559431429 B13249187738602772 B13251580697066555 B13284151820651877 A13291270695991407 B13477053124195696 B13265574260604024 A13234754300945518 A13452273631784518 B13228239437993834 A13235529734002002 A13116501129045153 B13200697692151394 A13576539739739469 B13352875398442038 B13275641171351879 B13235057453422797 A1325511829177046 A13234653829435556 A13443984114729371 B13523958667491816 B13-154994315698356 B13311552861812027 B13222401856458577 A1311145319512758 B13201813330274171 A13258243546802975 A1330476919127037 B13227313102438613 A13256385412343378 B13175919163207297 A13295721468183987 B1322835847726487 A13403998801864804 B13322649552653508 B13250303386247356 A13-10035932004398 B13277942216206967 B13372909968409104 B13409317287699078 B13285815597217667 B1326744842895411 B13235888190598587 A1331962221777129 B1325070068606092 A132469192735591 B13208191458633116 A13171720542619679 B13220969024076647 A13267191956947973 B13237789086174405 A13269104954390588 B13234832324131922 A13237494952726674 A130833618569954876 B13237277044629056 B13193192075692285 B1366131181079955 B13229820356293621 B13162464584999628 B13225702494422212 A13250606114065772 A13234453305493795 A13-562856990412558 B13245496979130983 A13184367292168753 A13332505786947828 B13264332856648177 B13260432995702068 A13369417324386357 B13262052838441985 A1339039352863817 B13219209458581098 A13267521225447352 A13223026473263342 A13271116937974647 B13235987365984914 A13260283368615528 B13234180835749264 A13370348630135573 B13203721450308385 B13229863487389759 A13353990451064533 B13223731478309115 A13229751666078153 A130925390385496172 B13265285294438433 A13316131827807456 B13250703562106409 A13340002545825406 B13218032962459749 A13241816470737817 A13445704924851217 B13178361091938027 A13624239360203628 B1321758604344516 A13349994762399465 B13102005409551124 B13603505695253135 B13225451093996367 A13273687205738399 A13311614398332071 B13408519331451975 B13167535185955339 B13244365929106918 A1323398772596798 A13547681406872122 B13264124090225932 A13-48617349094802 B13224383775325957 A13384818565973835 B13-156619892572181 B13186621552838342 B13284774348199191 B13234011877470951 B13224478822011556 A13252891614324905 A13205513593126894 A13248732327680509 A13238926107351397 A13497103895297147 B1325618580449464 A13463356089822122 B13216012368672458 A13685162191565609 B13209023403624186 A132273698783046 A13270815118205605 A13202469426047973 A13133106681133144 B13212068734241681 A13244030856369638 A13247284351888343 A13254020587398132 A13216585223707399 A13237134900487021 A13265807154116433 A1320770978920514 A13554189873894132 B13233783855615879 A13372094014853298 B13220446629583947 A13292882770373083 B13252754860992489 A13280536500984865 B13302396473593058 B13557340870729241 B13177829493198868 A1360429760202014 B13228579568672133 A1320538144331358 A13210538724531194 A13260789918752296 B13476632120530271 B13276777856612872 B13178878612241134 B13215495973724743 A13741738546243147 B13234483831778143 A13207698171669609 A13257913978661894 B13248578946848026 A13244663493187611 A13235724009063533 A13210881187799545 A13250028372719145 A13196533760976648 A13197621366020192 A13394110631455797 B13195556477509778 B13538651156530598 B13207058790187132 A13214143653682809 A13193812060146318 A13314213288277134 B13200222660419604 A13196358077570519 A13231881084752832 A13394049363739212 B13462258694581168 B13281420966604081 B13190804392656823 B13192885866976272 A132429706897175 B13266668321538089 A1318784067878373 A13245971823574307 A13262939356780388 B13228826478862065 A13149598577077645 B13212115552459264 A13451342952529064 B13249125675922485 A13214944826372084 B13238337736083413 A13403434008745062 B13219525353214822 B13237034238368971 A13221227780652306 A13184663811698536 A13229261229107434 A13517651513547657 B13297256394495856 B13152953161425469 B13260839143278571 A13348098916912606 B13314367895239622 B13141283778154259 B13157665436081203 A1324957592822339 A13311406726740329 B13261001094761973 A13423185399584125 B13-356139859332123 B13234485665971586 A13204435180906371 A13261603767411419 A13499550616016492 B1314982787235712 B13374654015316345 B13671396420974228 B13216473098500997 A13542627712341461 B13-384798392986132 B13230254104674333 A13305956807426099 B13222582399096619 A13258168299008191 B13187732847603374 B13211738615781362 A13250035044863154 B13240503494164819 A13231213476603789 A13185996248673033 B13222283893981579 A13244457338994605 A13351261845571819 B13215121797015245 A13232764497631935 B13-159462833608788 B13229235098064258 A13218640988774336 A13126158622822265 B13190613658583799 A13401922828218608 B13249853771040611 A13261580227878959 A13214859774990216 A13243444800183809 A1333983846898195 B13218701820923354 A13232957429718711 A13236140572321366 A13243125062268832 A13243256909658237 B13924601610090465 B13197694542323307 A13220569003106147 A1341492322153845 B13237464838717175 A13381543731201062 B13230357809407661 A13221118043918406 B13238292020825634 A13387279438898166 B13199412713516095 A13206642426949686 A13314402170165366 B13211010336382983 A13285667721940661 B13250155894965579 A13164703678330405 B13230684832140716 A13238980837395488 A13234670105972479 A13246338758325337 A13453516869481174 B13113980361742051 B13205582083180626 A13203130864228567 B13144342432745114 B13253652605436621 A13212983417812572 A13189122055608787 B13421333888476178 B13215833817728985 A13229744319341138 A13284695898574877 B1319449611509245 B13213883704965277 A13149037400551461 B13231242357910106 A13203752622706357 A13317861063361936 B13235627246325202 A13232047327327414 A13183609363589497 A13218757312361001 A13226500817246546 A13191862434680313 A13428618834424426 B13587120963086078 B13233223268522237 A13233823770567041 B13226372524696947 A13954165972823987 B13175732549478588 A13345063191895955 B13518770389743264 B13136017998383768 B1325729769861572 A13213988148411254 A13197387856182166 A13471865491449926 B13222779424176539 A13-385541430698571 B13234980965062806 A13278482587560128 B13225078072867757 A13633952057176434 B13224729422225684 A13212106711379559 A13125072612645499 B13212975959021681 A132663313490929 A13221856647320768 B13256450485360085 A13371672397212285 B13270633590286626 A13

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 28: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

data(Fitness)

head(Fitness)

Before After

1 28 32

2 31 33

3 17 19

4 22 26

5 12 17

6 32 30

str(Fitness)

dataframe 9 obs of 2 variables

$ Before int 28 31 17 22 12 32 24 18 25

$ After int 32 33 19 26 17 30 26 19 25

28

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 29: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$After

alternative = less paired = TRUE conflevel = 095)

Paired t-test

data Fitness$Before and Fitness$After

t = -275 df = 8 p-value = 0012

alternative hypothesis true difference in means is less than 0

95 percent confidence interval

-Inf -064907

sample estimates

mean of the differences

-2

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39

29

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 30: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

30

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 31: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1

if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

31

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 32: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja

32

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 33: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Y en esta gura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas

33

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 34: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

34

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 35: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

35

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 36: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 27

El coacutedigo R para leer el chero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )

head(datos)

X T

1 43056 A

2 65297 A

3 60386 A

4 91185 A

5 24946 A

6 65334 A

tail(datos)

X T

36

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 37: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

23 1087338 B

24 -660762 B

25 -271845 B

26 2150246 B

27 1735569 B

28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances

data X by T

F = 0056 num df = 11 denom df = 15 p-value = 0000027

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0018605 0186344

sample estimates

ratio of variances

005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datos

alternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test

data X by T

t = 158 df = 172 p-value = 013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-12807 88807

sample estimates

mean in group A mean in group B

67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 28

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )

XA = datos$X[datos$T==A]

XB = datos$X[datos$T==B]

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Two-sample z-Test

data XA and XB

37

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 38: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

z = -322 p-value = 00013

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48238 -11762

sample estimates

mean of x mean of y

23 26

Y ahora veamos las tres posibilidades con t

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test

data XA and XB

t = -342 df = 607 p-value = 000067

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-47235 -12765

sample estimates

mean of x mean of y

23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test

data XA and XB

t = -322 df = 295 p-value = 00014

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-48313 -11687

sample estimates

mean of x mean of y

23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

38

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 39: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity

correction

data c(197 151) out of c(532 486)

X-squared = 401 df = 1 p-value = 0045

alternative hypothesis twosided

95 percent confidence interval

00014931 01177092

sample estimates

prop 1 prop 2

03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

39

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 40: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

[1] 194

(sigma2 = )

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 30

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura

40

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 41: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

41

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 42: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 30

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

42

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 43: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2

43

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA
Page 44: PostDataCurso de Introducción a la Estadística · interfaz web en la que hacer este tipo de álculos.c 2. Diferencia de medias en dos poblaciones, muestras gran-des. Para ilustrar

Plantillas de R para contrastes e intervalos de conanza

Diferencia medias

Usando Z

Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes

Fin del Tutorial09 frac12Gracias por la atencioacuten

44

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA