61175-88999-1-pb

Upload: luis-benites

Post on 08-Apr-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/7/2019 61175-88999-1-PB

    1/12

    Anuario de Psicologia1992, no 55, 143-154O 1992, Facultat de PsicologiaUniversitat de Barcelona

    Bootstrap: fundamentos e introduccina sus aplicaciones*Antonio SolanasVicenta SierraUniversidad de Barcelona

    La tcnica bootstrap proporciona estimaciones del error estadistico,impo niendo escasas restricciones sobre las variables aleatorias analizadasy establecindose co m o un procedimiento de caracter general, independien-teme nte del estadstico considerado. E n este trabajo se realiza una presen-tacion de 10s fun da me nto s tedricos de la tcnica bootstrap, ma s desde unaperspectiva divulgadora qu e estrictamen te tedrica, adem as de realizarse unbreve estudio do nd e se podra comparar la eficacia de la tcnica frente aotras mas establecidas.Palabras clave: Bootstrap, error estadistico, remuestreo Mo nte Car-10, tasa de error tip0 I , tcnica percentil.

    Th e bootstrap is a general approach to estimate statistical error insituations where the usual statistical assum ptions are n ot tenable. T his ar-ticle concerns basic bootstrap theoretical funda men tals and com puter si-mulation data t o compare the bootstrap andparam etric approaches to es-timating confidence intervals and type I error rates of the mean.Key words: Bootstrap, Statistical Error, Monte Car10 Resampling,D p e I Error Rate, Percentil Method.

    Aunque puedan contemplarse las tcnicas estadsticas desde una perspec-tiva independiente de las diferentes disciplinas cientficas, la estadstica aplicadadebe considerarse desde el conocimiento del mbito sustantivo sobre el cua1 se

    Direccidn de 10s autores: Antonio Solanas, Vicenta Sierra. Departamento de Metodologia de las Ciencias del Comporta-miento, Facultad de Psicologia, Universidad de Barcelona. Adolf Florensa s/n. 08028 Barcelona.* Este trabajo ha sido realizado con la ayuda de una beca predoctoral de formacion de profesorado en reas deficitarias,otorgada por el Departament d'Ensenyament de la Generalitat de Catalunya a Vicenta Sierra.

  • 8/7/2019 61175-88999-1-PB

    2/12

  • 8/7/2019 61175-88999-1-PB

    3/12

    Bootstrap: fundamen tos e introduccin a sus aplicaciones

    Fundamentos de la tcnica bootstrap

    Aspectos generalesSea e(F) un parametro dependiente de una desconocida funcion de distri-bucin F y, por otro lado, considrense las variables aleatorias X,, X,, ..., X,,tales que,

    o sea, son variables aleatorias con funcion de distribucin idntica e indepen-diente. Por otro lado, representaremos mediante el conjunt0 [x,, x,, ..., x,] unamuestra correspondiente a extracciones aleatorias sobre las referidas variables.Ntese que 10s valores correspondientes a la muestra nos permiten obtener la dis-tribucin emprica i?,, que constituye la estimacin no paramtrica de maximaverosimilitud de la funcion de distribucin F. En apoyo de esta estimacin, pode-mos referirnos al Teorema de Glivenko-Cantelli, que establece una convergenciacasi segura, cuando n+ 0 0 , entre las distribuciones F y i?,, aunque debe notar-se que es una convergencia asinttica.

    Por tanto, es factible establecer ~ = i ? , ,significando que la funcion de dis-tribucin de la variable aleatoria de inters se estima a partir de la distribucinemprica, constituyendo el aspecto fundamental del denominado Bootstrap nopararntrico.En ocasiones, el investigador conoce la funcin de distribucion correspon-diente a la variable aleatoria objeto de estudio, aunque se desconozcan 10s para-metros de la misma, punto que nos conduce al Bootstrap pararntrico. Suponga-mos que e =6 (x) es un estimador de e, siendo ste un parametro o vector deparametros de F, obtenindose 6 a partir de datos muestrales extrados de la fun-cin de distribucion F, que depende del parametro e , por 10 cua1 puede expresar-se F=F,. Estimado el parametro o vector de parametros, podemos recurrir a laestimacin p =F,.El estadistico puede considerar la distribucion emprica p,, retomando laexpresion utilizada por Efron (1979b), una cruda estirnacin de E La menciona-da expresin pretende reflejar que la funcion de distribucin emprica es escalo-nada, o sea, la estimacin obtenida de F presenta discontinuidades, siendo estehecho, precisamente, el punto critico cuando el estadistico supone la continui-dad de F (funcion suave, derivable en todos 10s puntos) o posee informacin adi-cional que apoya la continuidad de la funcion de distribucion F. En estos casos,es aconsejable suponer que F posee cierto grado de suavidad, o sea, se asemejaparcialmente a una funcion de distribucion derivable en todos sus puntos, quedenominaremos i?" donde s representa las posibles funciones de distribucionsuaves (por ejemplo: normal, uniforme, etc.). Puede establecerse que la mejor

  • 8/7/2019 61175-88999-1-PB

    4/12

    146 A. Solanas y K Sierra

    estimacin de F proviene de una convolucin de las funciones de distribucionF, y F,obtenindose, de esta forma, I?. Este procedimiento de estimacin deF se ha denominado bootstrap suavizado, sobre el cua1 no entraremos en mayordetalle, hallandose descrit0 con amplitud en 10s trabajos de Efron (1979b, 1982).Remuestreo mediante Monte Carlo y muestras bootstrap

    Aunque la tcnica Monte Carlo no puede considerarse un elemento inhe-rente a la estrategia bootstrap, es preciso realizar una breve mencin en la medi-da de su relevancia como tcnica para obtener muestras aleatorias, extraidas apartir de un conjunt0 inicial de datos (remuestreo) o correspondientes a realiza-ciones de variables aleatorias cuya funcin de distribucin de probabilidad hasido prefijada (simulacin de variables estocasticas). En concreto, dado que latcnica bootstrap genera diferentes muestras a partir de la muestra de datos reco-gida por el investigador (muestra original), e, independientemente de si se ha op-tado por un bootstrap paramtrico, no paramtrico o suavizado, es necesaria unaestrategia para garantizar el remuestreo aleatorio, punto ste en el cua1 puede apre-ciarse el nexo entre la estrategia bootstrap y la tcnica Monte Carlo.La tcnica Monte Carlo requiere la especificacin de una funcin de dis-tribucin de probabilidad F(X), evidentemente, siendo conocidos sus parametroso, en algun caso, estimados. El proceso para la obtencin de distintas realizacio-nes de la variable aleatoria X, puede resumirse en la siguiente forma:a) Especificar la funcin de distribucion de probabilidad F(X).b) Seleccionar un nmero aleatorio a, tal que a,-U(O,l). Se obtiene unnumero aleatorio (con mayor propiedad cabe considerar que se trata de un n-mero pseudoaleatorio) comprendido entre O y 1 donde la probabilidad de obte-ner un valor perteneciente a un interval0 de amplitud prefijada es constante paracualquiera de 10s intervalos en que se ha dividido la recta real en el dominio com-prendido entre O y 1 (funcin uniforme continua estandar).c) Considerando F(X), obtener x, =F-'(a,), siendo x, el dato de la variablealeatoria X correspondiente al valor de probabilidad a,. Ntese que en la fun-cin de distribucion de una variable aleatoria continua existe una corresponden-cia biyectiva entre 10s valores de la variable aleatoria y la funcin de distribucionde la misma, o sea, dado x,, F(x,)= a, y F-l(a,)=x,, donde F-I corresponde a lafuncin inversa de E Esto permite que, cuando se ha obtenido un nmero pseu-doaleatorio, de forma inequvoca se pueda determinar el valor de la variable alea-toria correspondiente al mismo. Un razonamiento similar puede realizarse paravariables aleatorias discretas.d) Iterando 10s pasos b y c, pueden obtenerse cuantos valores de la varia-ble aleatoria, cuya funcin de distribucion ha sido especificada, sean necesarios.Es importante, dada su relevancia en el proceso, que el generador de n-meros pseudoaleatorios sea sometido a diferentes pruebas de aleatoriedad, a finde garantizar, si bien es un problema de difcil solucin a nivel practico, un com-portamiento estocastico de la sucesin de datos simulados. Este aspecto se alejade la tematica, por tanto el lector puede dirigirse a trabajos sobre la generacin

  • 8/7/2019 61175-88999-1-PB

    5/12

    Bootstrap: fundarnentos e introduccidn a sus aplicmiones 147

    de nmeros pseudoaleatorios, donde hallara diferentes estrategias, adems de dis-tintas pruebas de comportamiento aleatorio; pero, en cualquier caso, puede op-tarse por software comercializado.Las tcnicas de remuestreo se caracterizan por la obtencin de submues-tras a partir de 10s datos que constituyen la muestra original, permitiendo eva-luar diferentes propiedades de 10s estimadores. En este sentido, la tcnica boots-trap debe ser considerada como un plan de remuestreo, posibilitando estudiarel error estadistico, ya sea en cuanto a sesgo, error estandar o tasa de error enuna prediccion. Ahora bien, la forma en la cua1 la estrategia bootstrap realizael remuestreo queda sintetizada en 10s siguientes pasos, englobados dentro delproceso de estimacin bootstrap:

    a) El investigador selecciona un e,stadstico de inters, sea 6 (media, me-diana, correlacion, tasa de error -en analisis discriminante, por ejemplo-, etc.).b) Obtiene una muestra correspondiente a la realizacin de n variables alea-torias idntica e independientemente distribuidas (puede conceptualizarse comon realizaciones de una variable aleatoria, sin prdida de generalidad). Represen-taremos esta muestra original mediante Ix,, x2, ..., x.) .c) El investigador debe decidir como estimara la distribucin F, ya sea me-diante bootstrap no paramtrico, paramtrico o suavizado. Este paso esta ligadocon el apartado a), cuando hacamos mencin a la tcnica Monte Carlo.d) Mediante la tcnica Monte Carlo (apartados b y c), se obtiene un valorde la variable aleatoria X. Iterando este proceso n veces, se obtiene un conjuntode datos que constituyen la denominada muestra bootstrap, que representaremosmediante la notacin Ix:, x;, ...,xz), denotando i que son 10s datos correspon-dientes a la i-sima muestra bootstrap. Para cada una de estas muestras se obtie-ne el estadistico de inters que, para diferenciar10 del calculado sobre 10s valoresde la muestra original, denotaremos mediante e*'= 6 (x$ x,*,..., x;).e) Repitiendo el apartado anterior el nmero de veces que se determine,supongamos que sean b ocasiones, se obtendra la cantidad correspondiente deestimaciones del estadistico.Una vez generadas las distintas muestras bootstrap, es factible realizar di-ferentes estimaciones del error estadistico, ademas de obtener estimaciones sobreparametros de inters, aspectos que desarrollaremos en 10s apartados siguientes.Estimaciones bootstrap del error estadistico

    Puesto que se dispone de distintas estimaciones bootstrap del estadistico6, el conjunto de estimaciones e*'constituye la estimacin bootstrap de la dis-tribucin muestral del estadistico de inters, que denominaremos distribucin mues-tral bootstrap de la distribucin muestral de 6.Entre 10s errores estadisticos de mayor relevancia en el ambito de la esta-dstica, se halla el error estandar o desviacin estandar de la distribucin mues-tral de un estadistico. A este respecto, la estimacin bootstrap de este error esta-dst ic~se obtiene mediante la expresin

    bosocrr= ( .zI = ] (6*' - 6*'12/ (b - 1)'"

  • 8/7/2019 61175-88999-1-PB

    6/12

    148 A. Solanas y T/; Sierra

    donde e* .corresponde a la estirnacin bootstrap de la media de la distribucinmuestral bootstrap, obtenida mediante

    Tambin es factible obtener estimaciones del sesgo del estadistico de inte-rs. Si 6 denota la estimacin del estadistico objetivo sobre 10s datos de la mues-tra original, la estimacion bootstrap del sesgo del estadistico se obtiene medianteA A AsesgoBo,(e) = e*. - e

    Otra interesante aplicacin de la estimacion bootstrap reside en 10s inter-valos de prediccin de 10s modelos de regresin, habitualmente obtenidos consi-derando que el trmino error del modelo posee determinadas caracteristicas $is-tribucionales. La tcnica bootstrap, en este caso, estima la distribucion del terminoerror a partir de la estimacion de la distribucion bootstrap del componente resi-dual. Asi, 10s valores e-'(a/2) y B-l(1-(r/2) determinan 10s limites del intrerva-10 de prediccin, correspondiendo $+ ~- l (a /2)e $+ ~-'(1-(1./2) al limite inferiory superior, respectivamente. En el siguiente apartado se expondrn con mayordetalle 10s aspectos fundamentales referentes a la distribucin bootstrap del esta-dstic~.Puesto que no pretendemos realizar una revisin exhaustiva de la tcnicabootstrap, el lector podr hallar en las referencias bibliogrficas distintas posibi-lidades de la tcnica bootstrap para estimar el error estadistico (Efron y Tibshi-rani, 1986; Stine, 1985).

    Intervalos de confianza bootstrapAnteriormente nos hemos referido a la estirnacin bootstrap de la distri-bucin muestral del estadistico, concepto fundamental cuando nos centramos enla elaboracin de intervalos de confianza no paramtricos mediante la estrategiabootstrap. Debe matizarse que, aunque la distribucion muestral bootstrap guedederivarse mediante procedimientos analiticos o mediante una expansin en seriesde Taylor (Efron, 1979a), generalmente es necesario recurrir a la tcnica MonteCarlo, refirindonos en la exposicin a sta ltima posibilidad.Representaremos mediante e (t ) la estimacin de la distribucion bootstrapdel estadistico 6, definida mediante

    8(t) = card [e*' I 5 t) /bComo puede notarse la estimacion bootstrap de la distribucin muestralse estima a partir de 10s estadsticos obtenidos en las diferentes muestras bsst-strap; en concreto, la expresin anterior proporciona la estimacion bootstrap dela funcin de tlistribucin del estadistico. Por tanto, fijado un valor t, se estima

  • 8/7/2019 61175-88999-1-PB

    7/12

    Bootstrap: fundamentos e introduccin a sus aplicaciones 149

    la probabilidad de obtener un valor del estadistico inferior o igual al especifica-do mediante la proporcin de valores que cumplan la referida desigualdad en laestimacin de la distribucion muestral bootstrap. Si el objetivo es determinar unvalor de la distribucin muestral del estadistico, la inversa de la funcin anterior,representada mediante &(a), permite obtenerlo.Aunque el punto de referencia comn sea la distribucion muestral boot-strap, existen diversas estrategias para elaborar un intervalo de confianza, entrelas cuales cabe destacar el mtodo percentil, percentil corregido para el sesgo ypercentil corregido para el sesgo acelerado. De hecho, esta enumeracin recogelas estrategias desarrolladas por Bradley Efron, a las cuales deben aadirse otrascomo el mtodo percentil-t, percentil automtico, iteracidn pivotal, etc. Entraren profundidad sobre las diferentes estrategias de elaboracin de intervalos deconfianza no es abordable en el presente trabajo, aunque, siempre desde una pers-pectiva introductoria, nos referiremos con mayor detalle al mtodo percentil; sibien no esta exento de consideraciones mas o menos complejas de estadstica ma-tematica, hemos optado por una presentacin simplificada al maximo.El estadistico aplicado esta familiarizado en la construccin de intervalosde confianza, proceso en el cua1 impone determinados supuestos sobre la varia-ble aleatoria analizada, y, tras obtener una estimacin del estadistico de interes(habitualmente se trata de la estimacin de mxima verosimilitud), obtiene unaestimacin del error estandar de la distribucion muestral del estadistico. Fijadoun nivel de confianza 1-a, el intervalo de confianza (IC) se obtiene mediante laconocida expresin

    donde o, es la estimacin del error estandar de la distribucin muestral del es-tadstic~y Z,,,, bajo ciertas suposiciones, se corresponde con 10s percentiles aso-ciados al nivel de confianza establecido. Este procedimiento exige un conocimientosobre las variables aleatorias objeto de estudio que, en ocasiones (quiz, en mu-chos mbitos de investigacin, en la mayora de 10s casos), no se posee. Si el ta-mao muestral es escaso la anterior construccin del intervalo de confianza semodifica recurriendo a la distribucin t, que se ha mostrado eficaz, utilizandoseel termino en el sentido de concordancia entre tasa de error nominal y empricapara cualquier tamao muestral y siempre que las desviaciones de la normalidadno sean excesivas.Pero, iqu puede aportar la tecnica bootstrap? En primer lugar, es posibleque la funcin de distribucin de la variable aleatoria sea tal que la eficacia de10s procedimientos habituales pueda mejorarse. A este respecto, que ocurre sila variable aleatoria posee distribucion uniforme? Si el tamao muestral es eleva-, do no parece factible mejorar la estirnacin estandar, pues es conocido que lasuma de n variables aleatorias con distribucin uniforme se aproxima con rapi-dez a la distribucion normal; pero, en cualquier caso, con escaso nmero de da-tos la distribucin t proporciona una adecuada aproximacin a la distribucionmuestral del estadistico. La prueba fundamental de la tcnica bootstrap consisteen que se comporte con precisin ante una amplia variedad de situaciones, moti-

  • 8/7/2019 61175-88999-1-PB

    8/12

    150 A. Solanas y K Sierra

    vo por el cua1 es practica habitual contrastar la estrategia bootstrap en diversascondiciones y realizar analisis comparativos con otras tcnicas. Asi, para un pro-cedimiento que se pretende general, sin restricciones distribucionales, es tambiCnnecesario demostrar su adecuacin en contextos analiticos sobre 10s cuales ya po-seemos tCcnicas que han manifestado su adecuado funcionamiento. Btras pers-pectiva~se han encaminado hacia la posibilidad de corregir el sesgo del estima-dor y, por tanto, lograr intervalos que se ajusten a 10s limites tericos. Pero, lamayor aportacin de la estrategia bootstrap, en el contexto de la construccicinde intervalos tle confianza, reside en la posibilidad de disponer de un procedi-miento general, solventando las dificultades que se desprenden del desconocimientode la distribucin muestral de 10s estadisticos. Pero, puesto que no se trata deuna tcnica analtica, en el sentido de derivar tericamente los intervalos exae-tos, no es factible determinar su adecuacin sin recurrir al analisis cornparativo.La construccin de intervalos mediante el procedimiento percentil obtienc10s limites de 10s mismos en base a la inversa de la estimacion bootgrap de ladistribucin muestral del estadistico. De esta forma, 10s percentiles CF1(a/2) y&l(l-(r/2) determinan el limite inferior y superior, respectivamente. A nivel ope-rativo, una vez han sido generadas todas las muestras bootstrap, y mediante elestadistico de orden, puede obtenerse la estimacin bootstrap de la distribucionmuestral del estadistico, coincidiendo 10s limites inferior y superior con 10s valo-res x(,,,,,!) y x(,,,-,,,), donde b es el nmero de muestras bootstrap obtenido y elparkntesis mayor representa la ordenacin de 10s datos.

    Breve estudio sobre el procedimiento percentilPara ejemplificar el procedimiento de elaboracin de un intervalo de con-fianza bootstrap mediante la tcnica percentil, se generaron 10 realizaciones deuna variable aleatoria con distribucin de probabilidad N(10,25), consistiendsel objetivo en estimar el valor de la media. La utilizacin de la tkcnica percentilno so10 se justifica en la eleccin de un procedimiento simple, a fin de mostrarel proceso, puesto que tambin puede considerarse como una estrategia adecua-da cuando el estimador carece de sesgo. La muestra original, obtenida mediantela simulacin, se halla en la Tabla 1, ademas de otros datos de inters. Mientrasel intervalo exacto del estadistico, fijado 1-a=O.l, es [7.4+12.6], la estimacibnnormal proporciona un intervalo [8.963s11.2471; pero, dado que el tamao rnues-tral es escaso, puede considerarse mas adecuada la construccin del intervalo enbase a la distribucin de Student, obtenindose [8.832+11.378]. Aunque puedc

    notarse que en ambas estrategias de estimacin el parametro poblacional pertc-nece al intervalo, cabe destacar que la reproduccin del mismo no es muy preci-sa, pues la amplitud de 10s intervalos es inferior a la esperada y la distancia a10s limites esperados bastante elevada. Sobre este punto, el intervalo obtenido me-diante la estimacin bootstrap del error estandar, cuyo valor es 0.639, presentala misma caracterstica que 10s anteriores: excesiva amplitud del mismo. En este

  • 8/7/2019 61175-88999-1-PB

    9/12

    Bootstrap: funda men tos e introdu ccidn a sus aplicaciones 151

    TABLA1. VALORESCORRESPONDIENTES A LA MEDIA Y ERROR ESTANDARD E L A B I S T R I B U C I ~ NMUESTRAL BOOTSTRAP, OBTENIDA A PARTIR DE 100 MUESTRASBOOTSTRAP GENERADAS POR EL ALGORITMO MONTECARLOA PARTIR DE LOS DATOSMUESTRALES (10.25379, 9.049, 13.16632, 8.042605, 8.1233337, 13.24509, 12.63261, 9.524437 , 9.741493. 7.276687),CUYA MEDIA Y VARIANCIA SON, RESPECTIVAMENTE, 10.10554 Y 4.822998Muestra Media Variancia Muestra Media Variancia

    1 10.205640 4.101766 51 10.381200 2.8223202 9.827989 4.171061 52 10.350760 5.1563183 11.458920 4.589573 53 10.624370 3.1667754 9.979952 2.873359 54 10.789744 4.8470065 10.290950 5.123088 55 9.278691 3.2044686 10.391720 4.172241 56 9.809025 4.3165157 9.556492 2.056552 57 9.698462 2.1357908 . 11.062950 5.398397 58 10.425840 5.4177259 11.100500 4.918295 59 10.096740 6.495023

    10 9.250974 2.871189 60 9.912020 6.38272511 9.213295 2.717082 6 1 9.862844 5.07122212 10.395910 4.149604 62 10.352020 3.88106313 9.694277 4.221307 63 9.920154 4.90201214 10.598280 5.398763 64 9.632731 3.09572415 11.427160 5.565308 65 11.195120 4.55551516 9.791852 5.496623 66 10.540590 5.32636217 9.382947 2.650689 67 9.943721 5.21576618 10.524420 7.235026 68 10.466360 3.92724619 8.860502 3.250054 69 10.214530 5.01836520 10.215710 7.084893 70 10.002760 4.81644721 9.935846 5.158576 71 10.513050 5.89958422 10.129760 2.869710 72 9.554697 2.76304823 9.928306 5.553230 73 10.036290 4.92698224 10.030060 4.626425 74 9.934134 5.97334825 10.097460 4.859213 75 10.654240 5.86763626 11.495790 4.180732 76 10.303660 2.46224027 9.499108 4.969503 77 9.6641 18 0.42504928 10.600200 5.212606 78 10.705470 5.78997229 9.075514 2.474413 79 11.098420 4.60017930 10.589900 4.395020 80 10.005090 5.0700693 1 10.657210 3.774034 81 10.295340 5.01074232 10.788920 6.622749 82 9.797809 5.20659133 9.684062 3.904507 83 10.659250 4.75016334 11.O80500 4.101427 84 10.472570 4.13597335 10.494050 6.319865 85 9.695092 3.46856736 9.914664 3.627625 86 9.286694 2.72416237 9.990919 4.091397 87 8.989834 2.59866738 10.955940 7.172133 88 9.268716 2.79130139 9.316626 4.066040 89 10.275950 2 .78732640 10.420920 6.872342 90 10.926390 5.0613884 1 10.196760 2.980388 91 9.374389 4.22162642 9.471998 2.221761 92 9.705834 3.99053343 10.509640 3.365248 93 10.227160 6.07077444 10.739080 6.532281 94 9.834112 3.33464245 11.113290 3.288289 95 9.902759 3.47041846 9.686462 4.017965 96 9.953394 4.56469147 10.375010 5.344944 97 10.626510 3.50796248 11.669870 3.131144 98 9.218829 2.69201049 9.259055 3.075745 99 8.584343 2.69978250 11.774470 3.074436 1O0 9.878884 5.272332

  • 8/7/2019 61175-88999-1-PB

    10/12

    152 A. Solanas y K Sierra

    sentido, qui ocurre cuando se elabora un intervalo bootstrap mediante el proce-dimiento percentil? En este caso, con 100 muestras bootstrap, se obtuvo [9.21+-11.21,reflejando una disminucin de la amplitud del intervalo comparativamente a 10santeriores. Ciertamente, el intervalo bootstrap contiene el parametro, 10 cua1 po-dria sugerir una primera valoracin optimista y considerar que mejora las ante-riores estimaciones en la medida que proporciona un rango de valores mas estre-cho; pero esta primera impresin no puede descontextualizarse del incrementaen la tasa de error tipo I que conlleva no reproducir exactamente el intervalo te-rico cuando ste no se recubre totalmente.Puesto que 10s anteriores resultados se obtuvieron a partir de una nicamuestra original, constituyendo mas un ejemplo ilustrativo que un intento de apra-ximarse al problema de la estimacin de parametros mediante intervalos, realiza-mos un breve experimento de simulacin. En una primera condicin fueron ge-nerada~200 muestras originales, especificandose las mismas caracteristicasanteriores sobre la variable aleatoria. En la segunda condicin, idntica en cuan-to al nmero de muestras generadas, se especific que la variable aleatoria tuvie-ra distribucin de probabilidad U(10-5.31/2, 10+5.31/2),por 10 cua1 coincidianmedia y variancia de ambas variables aleatorias. El numero de muestras boots-trap generadas a partir de 10s datos de cada muestra original fue nicamente de100, muy escaso si consideramos las recomendaciones realizadas para otros esta-disticos sobre 10s cuales se han elaborado intervalos de confianza bootstrap, si-tundose 10s valores aconsejados entre 500 y 2000. A partir de 10s datos de cadauna de las muestras originales se obtuvieron 10s intervalos de confianza siguien-tes: normal, student, percentil y studentboot. En el ultimo de stos se estimabael error estandar mediante 10s datos de la estimacin de la distribuci6n muestraldel estadistico, utilizandose este dato para construir el intervalo de confianza con-siderando la distribucin de Student. Los resultados del experimento se mues-tran en la Tabla 2.

    TABLA2. TASADE ERROR EMPRICA Y AMPLITUD PROMEDIO DEL INTERVAL0DE CONFIANZA DEL ESTAD~STICOMEDIA. SEGENERARON 200 MUESTRAS ORIGINALESDE TAMAgO 18, PIJNDOSE EL NUMERO DE MUESTRAS BOOTSTRAP Y LA TASADE E R R O R NOMI NAL EN 100 Y -0.1, RESPECTIVAMEEZTE. LASDIFERENTES

    ESTIMACIONES SE INDICAN EN LA TABLA, ADEMAS DE LAS CONDICIONES DEL EXPERIMENTOUniforme NormalTasa de error Am plitud Tasa de error Amplitud

    Normal 0.140 5.118 O. 160 4.806Student 0.090 5.703 O. 140 5.355Studentboot O.100 5.386 0.145 5.049Percentil 0.160 4.961 8.170 4.662

    Los resultados obtenidos ponen de manifiesto que el procedimiento per-centil muestra una mayor tasa de error tipo I, aunque el valor empirico no distaexcesivamente de la tasa nominal. Esta mayor tasa de error es consecuencia dela menor amplitud de 10s intervalos, por 10 cua1 no recubre adecuadamente el

  • 8/7/2019 61175-88999-1-PB

    11/12

    Bootstrap: fundamentos e introduccidn a sus aplicaciones 153

    intervalo exacto, incrementandose 10s errores en la estimacin. Por el contrario,como era esperado, la elaboracin de intervalos de confianza fundamentados enla distribucin t se muestra aceptable, en general. Cabe destacar que la estima-cin bootstrap del error estandar permite elaborar intervalos mas estrechos, portanto mas informativos, dato relevante cuando se mantiene una tasa de error tip0I aceptable y se reproduce con bastante precision la amplitud del intervalo exacto.Si la tasa de error tipo I del procedimiento percentil se mostrara algo me-nor, podria considerarse la ventaja que supone la escasa amplitud del intervalode confianza percentil; pero, como puede notarse, la tasa de error se mantieneen niveles similares al intervalo estandar. Estos resultados, en principio contra-r i o ~a la utilizacin del procedimiento percentil en la elaboracin del IC del esta-distico media, mejorarian si el nmero de muestras bootstrap hubiera sido ma-yor, puesto que la estimacin de la distribucion muestral bootstrap es excesivamentecruda. Incorporar un mayor nmero de muestras bootstrap seria deseable y, dela suavizacin resultante, seguramente se mejoraria la tasa obtenida en la condi-cin de la variable aleatoria normal. Con menor plausibilidad esta seria una ex-plicacin de 10s datos obtenidos en la condicin de la variable aleatoria uniforme.

    Discusion

    La tcnica bootstrap se propone como un procedimiento general para esti-mar el error estadistico en cualquiera de sus formas, aunque esta amplia aplica-bilidad conlleva que existan tcnicas que, bajo determinadas condiciones, mejo-ran las estimaciones del error estadistico. La breve investigacin realizada es unejemplo de este hecho, pues como hemos podido comprobar, para el estadisticomedia, existen 10s intervalos de confianza elaborados mediante la distribucint , que reproducen con mayor precisin la tasa de error nominal. A este respecto,posiblemente, 10s resultados obtenidos al utilizar el procedimiento percentil hu-bieran mejorado si el nmero de muestras bootstrap hubiera sido mayor; pero,en cualquier caso, no hemos podido observar un mejor comportamiento de latcnica bootstrap cuando 10s datos procedian de poblaciones con distribucinuniforme.En el estudio se ha evaluado el procedimiento percentil frente a otras tcni-cas que sabiamos previamente que mostraban niveles de reproduccin de la tasanominal muy aceptables, pero es necesario probar otras condiciones de simula-cin. Entre stas, puede modificarse la distribucion de la variable aleatoria, elestadistico objetivo, la presencia de dependencia entre las observaciones, etc. Estaevaluacin sistematica permitira, progresivamente, determinar si la tcnica boots-trap puede ser adoptada frente a otras estrategias.Un punto favorable al procedimiento percentil consiste en que elabora in-tervalos de confianza estrechos, 10 cua1 permite considerar mas informativos 10sintervalos elaborados. Pero este aspecto destacable necesita combinarse con laya mencionada reproduccin de la tasa nominal de error tip0 I; en caso de no

  • 8/7/2019 61175-88999-1-PB

    12/12

    154 A. Solanas y I/: Sierra

    producirse este hecho, el estadstic0 cometer un mayor nmero de errores en sudecisin.En el mbito psicolgico la tcnica bootstrap tiene el mismo campo de apli-cacin que en cualquier disciplina, nicamente destacar que 10s datos proceden-tes de la medicin del comportamiento humano no estan exentos de caracteristi-cas que violan 10s supuestos de diversos modelos estadisticos, hecho que incidesobre la tasa de error tipo I de las tcnicas clsicas, especialmente en investiga-ciones donde se obtienen medidas repetidas. En otro tpico psicolgico, la tCcni-ca bootstrap puede ser utilizada en el proceso de seleccin de items, proporcio-nando estimaciones del error estandar de 10s estadisticos utilizados para obtener10s items adecuados.

    Efron, B. (1979a). ?'he 1977 Rietz lecture. The Annals of Statistics, 7(1), 1-26.Efron, B. (1979b). Computers and the theory of statistics: thinking the unthinkable. Siam Revielr: 21(4),460-480.Efron, B. (1982). The Jackknife, the boo tstrap and other resatnpling plans. Philadelphia: Society for In-dustrial and Applied Mathematics.Bfron, B. & Tibshiirani (1986). Bootstrap methods for standar errors, confidence intervals, and other tnea-sures of satatistical accuracy. Statistical Science, 1(1), 54-77.Quenouille, M.H. (1956). Notes on bias estimation. Biornetrika, 43 , 353-360.Stine, R.A. (1985). Bootstrap prediction intervals for regression. Journal o ft h e American S tutistical A,s.~o-ciation, 392(80), 1026-1031.Tukey, J. (1958). Bias and confidence in not quite large samples abstract. Annals of Mathemotic Stutistics,29, 614.Tukey, J. (1977). Exploratory data analysis. Reading, M . A . : Addison-Llresley.