vÝpoČetnÉ aspekty metÓdy bootstrap matúš maciak, …antoch/robust06/postery/maciak.pdf · c...

1
ROBUST 2006 Poster Section 2006 c JČMF VÝPOČETNÉ ASPEKTY METÓDY BOOTSTRAP Matúš Maciak, Jaroslav Ševčík [email protected] , [email protected] Matematicko-fyzikální fakulta, UNIVERZITA KARLOVA V PRAZE Katedra Pravděpodobnosti a matematické statistiky Abstrakt: Účelom tejto práce bolo poskytnúť stručný prehľad modernej a v praxi stále čoraz častejšie používanej štatistickej metódy bootstrap, a tiež konkrétne ilustrovať jej použitie v štatistickom software. K tomuto účelu sme zvolili v akademickej oblasti často používaný, voľne dostupný program R a jeho komerčnú verziu S-PLUS. Okrem niekoľkých vzorových príkladov, ktoré slúžia k lepšej názornosti tejto metódy, sme pomocou simulácií aj zisťovali, ako je potrebné vhodne voliť počet boostrapových výberov. Keďže táto populárna metóda je na aplikáciu pomerne jednoduchá, snažili sme sa upozorniť aj na to, že v pozadí tohoto prístupu stojí náročná teória a mala by byť preto používaná s rozvahou. Čo je to BOOTSTRAP? Medzi klasické výpočetné úlohy v matematickej štatistike patrí nepochybne zisťovanie bodového odhadu pre nejaký parameter, prípadne štatistiku. Často nás však zaujímajú aj variácia alebo konfidenčné intervaly tohoto odhadu. Skúmame preto jeho rozdelenie. Tradične sa v štatistike k tomuto účelu používa CLV, teda za určitých predpokladov hľadané rozdelenie pri dostatočne veľkom rozsahu dát aprox- imujeme normálnym rozdelením. Uplatnením moderných výpočtových prostriedkov sa však ponúka aj ďalšia možnosť, a to použiť k odhadu rozdelenia skúmaného parametru, či štatistiky tzv. resample metódy, označované aj ako com- puter intensive methods. Jednou z takýchto metód je aj metóda bootstrap, uvedená Efronom v roku 1979. Pre úplnosť spomeňme zvyšné základné resamplové techniky. Sú to subsampling, ktorého špeciálnym prípadom je jackknife, ďalej permutačné testy a krížové overovanie. 1. Parametrický bootstrap: Majme náhodný výber X 1 ,X 2 ,...,X N z rozdelenia F (X, ξ ). Skú- mame štatistiku θ = θ (F ), ktorú odhadneme z dát. Parametrický bootstrap vychádza z predpokladu apriornej informácie o rozdelení F (X, ξ ). Predpokladáme teda konkrétny tvar tohoto rozdelenia, ktoré je určené vektorom parametrov ξ =(ξ 1 ,...,ξ K ), ktorý odhadneme z náhodného výberu X 1 ,X 2 ,...,X N . Z takto získaného odhadnutého rozdelenia F N (X, ξ ) simulujeme B náhodných výberov (bootstrapové výbery, dodávame náhodu), kde N < B << N N a pre každý náhodný výber spočítame θ * N,i ,i =1,...,B . Z týchto odhadov z každého boot- strapového výberu získavame aproximáciu rozdelenia odhadu θ N . Príklad 1: (výberový priemer) Skúmajme dáta, ktoré udávajú počet hodín medzi poruchami klima- tizácie v Boeingu 720 jet aircraft (3, 5, 7, 18, 43, 85, 91, 98, 100, 130, 230, 487). Zaujíma nás rozdelenie odhadu strednej hodnoty - výberového priemeru. Zdá sa, že EDF sa dá dobre nafitovať expo- nenciálnym, alebo gamma rozdelením. Simulujme teda náh. výbery z odhadnutého gamma rozdelenia a pomocou nich aproximujeme rozde- lenie výberového priemeru. Z obrázku (obr. 1) je vidieť, že výberový priemer má výrazne zošikmené rozdelenie, čo potvrdzuje aj normal Q-Q plot, podľa ktorého nejde o normálne rozdelenie. Naproti tomu Gamma Q-Q plot naznačuje tomu, že ide o gamma rozdelenie. Bootstrapove rozdelenie vyberoveho priemeru mean Density 50 100 150 200 250 300 0.0 0.002 0.004 0.006 0.008 0.010 0.012 Observed Mean Normal Q-Q plot Kvantily normalneho rozdelenia vyb. priemery bootstrapovych vyberov -2 0 2 50 100 150 200 250 300 Gamma Q-Q plot Kvantily gama rozdelenia vyb. priemery bootstrapovych vyberov 50 100 150 200 250 50 100 150 200 250 300 Obr.1 Aroximácia výberového priemeru dát o klimatizácii parametrickým bootstrapom, normal a gamma Q-Q plot štatistík z bootstrapových výberov. 2. Neparametrický bootstrap: Podobne ako v prechádzajúcom prípade majme náhodný výber X 1 ,X 2 ,...,X N z rozdelenia F (X ) a skúmame štatistiku θ = θ (F ), ktorú odhadneme z dát. V prípade neparametrického bootstrapu však nepredpokladáme apriórnu informáciu o tvare rozdelenia F . Neznámu F aproximujeme pomocou EDF, ako F N a z tejto simulujeme N pozorovaní, čo znamená, že z náhodného výberu X 1 ,X 2 ,...,X N vyberáme N krát s opakovaním. Dostávame prvý bootstrapový výber X * 1,1 ,...,X * 1,N . Postup opakujeme B -krát. Pre každý takto získaný bootstrapový výber spočítame odhad skúmanej štatistiky θ * N,i ,i =1,...,B . Z týchto odhadov napokon aproxinujeme rozdele- nie odhadu θ N . Príklad 2: (korelačný koeficient) Skújmame korelačný koeficient medzi dvoma výbermi (data city z knižnice boot v R o raste populácie v rôznych amerických mestách). Použijeme neparametrický bootstrap na aproxiáciu rozdelenia kore- lačného koeficientu. (Obr. 2) Histogram of bootcity1$t bootcity1$t Density -0.5 0.0 0.5 1.0 0 1 2 3 4 5 6 7 ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●● ●● -3 -2 -1 0 1 2 3 0 1 2 3 4 5 Normal Q-Q Plot Theoretical Quantiles Sample Quantiles Obr.2 Odhad rozdelenia pre korelačný koeficient a normal Q-Q plot pre Fisherové transfor- mácie korelačných koeficientov z boostrapových výberov. Kedy možno bootstrap použiť? Bootstrap možno aplikovať len na štatistiky,o ktorých vieme, že boot- strapová aproximácia spĺňa určité teoretické vlastnosti, a síce konzis- tenciu a asymptotickú presnosť (rýchlosť konvergencie ku skutočnému rozdeleniu, Edgeworthov rozvoj). Tieto požiadavky sú splnené u väčšiny bežných štatistík, ako sú napr. hladké funkcie výberových momentov (priemer, rozptyl, atď), odhady v lineárnych a zobec- nených lineárnych modeloch, väčšina max. vierohodných odhadov a veľa štatistík odvodených z časových rád. V lineárnych modeloch existujú dva prístupy pri aplikácii bootstrapu na odhad regresných koeficientov a to resampling residuals a resampling cases. V poslednej dobe sa často využíva nový spôsob generovania náhodných výberov, označovaný ako wild bootstrap. Tento vykazuje lepšie vlastnosti a je vhodný v prípade heteroskedastických dát. U časových rád sa pre konštrukciu bootstrapových výberov používa re- samplovanie blokov. Základné prístupy sú based resampling, block resampling a metóda blocks of blocks. Bootstrap verzus konvenčný prístup(CLV) Výhody Bootstrapu: Je jednoduchý na použitie. Oslobodzuje nás od dvoch obmedzení klasického prístupu, a síce predpokladu zvonového rozdelenia dát a nutnosti zamerať sa na štatistiky, ktorých teoretické vlastnosti môžu byť analyzované matematicky. Často pozorujeme rýchlejšiu konvergenciu ku skutočnému rozdeleniu ak v prípade CLV, je teda vhodný aj pre menšie výbery. Nevýhody Bootstrapu: Niekedy môže poskytnúť klamlivý obraz skutočnosti (napr. u dát s odľahlými pozorovaniami) Aplikácia bootstrapu v R 2.2.0 Existujú knižnice boot, bootstrap a simpleboot, ktoré umožňujú aplikáciu bootstrapových štatistických metód v R (podľa odporúčaní sa vyžaduje verzia R 2.2.0 a viac). K dispozícii sú oba prístupy, parametrický aj neparametrický boot- strap. Funkcie pre jednoduchý bootstrap (boot(), bootstrap() a pairs.boot()) s možnými metódami ordinary, balanced, anthitetic bootstrap a permutation. Na bootstrap v lineárnom modele slúži funkcia lm.boot() s voliteľnými metódami model-based resampling a resampling cases. K použitiu bootstrapu v časových radách sú nutné ešte dodatočné knižnice (tseries, zoo, quadprog).Funkcie ts- boot() a tsbootstrap() umožňujú využiť metódy Model-based re- sampling, Block resampling a tiež metódu Blocks-of-blocks.V prípade niektorej z metód blokov je k dispozícia voľba pevnej dĺžky bloku, alebo dĺžky bloku s geometrickým rozdelením s voliteľnou stred- nou hodnotou l . Konfidenčné intervaly Klasické konfidenčné intervaly sú založené na asymptotickej aproximácii, ktorá je v praxi často nepresná (interval θ ± z (α) σ , kde z (α) sú percentily normálneho rozdelenia). Pri bootstrape sa okrem empirických percentilov využívajú aj vylepšené konfidenčné intervaly, a to ABC, BC α a t-bootstrap. 1. BC α Intervaly pre parameter θ: bootstrapové výbery X * i,N ,X * i,N ,...,X * i,N pre i =1,...,B odhady θ * N,1 ,..., θ * N,B odhad distribučnej funkcie θ , G(θ) ako G(c)= B i=1 I { θ * N,i c} BC α interval je θ * BC α [α], θ * BC α [1 - α] , kde θ * BC α [α]= G -1 φ z 0 + z 0 +z α 1-a(z 0 +z α ) , kde z α = φ -1 (α), z 0 je biasová korekcia a a je akcelerácia. 2. ABC Intervaly pre parameter θ: analytická verzia BC α konfidenčných intervalov. ABC konfidenčný interval je θ * ABC [α], θ * ABC [1 - α] , kde θ * ABC [α]= θ + ω (1- ) 2 θ, kde ω = z 0 + z α . 3. t-bootstrap intervaly pre parameter θ: náhodný výber X * 1 ,X * 2 ,...,X * N odhadneme θ(X ) a smero- datnú odchýlku σ θ statistika T = θ-θ σ θ z bootstrapových výberov odhadneme kvantily T (α) . t-bootstrap interval je θ - σT (α) , θ - σT (1-α) Príklad 3: (výberový korelačný koeficient) Porovnanie konfidenčných intervalov, počítaných rôznymi metódami pre odhad korelačného koeficientu ρ, kde ρ = 0.723: Parametrický prístup α ABC BC α t-bootstrap Standard 0.05 0.47 0.47 0.45 0.55 0.95 0.86 0.86 0.87 0.90 Neparametrický prístup α ABC BC α t-bootstrap Standard 0.05 0.56 0.55 0.51 0.59 0.95 0.83 0.85 0.86 0.85 K výpočtu BC α , ABC a t-bootstrap konfidenčných limít sú určené funkcie abc.ci(), boot.ci(), abc.par(), abc.non(), bcanon() a boott(). Príklad 4: (testová štatistika - časová rada) Máme časovú radu {X t , t = {1, 2,..., 309}}, kde X t je logarit- mus podielu ceny ovčej vlny na austrálskom trhu a minimálnej ceny stanovenej na daný týždeň. Testujeme hypotézu H 0 že ide o náhodnú prechádzku proti alternatíve H 1 , že ide o autoregresnú postupnosť prvého radu. Volíme testovú štatistiku T = 1- α s α kde α je odhad au- toregresného koeficientu a s α je smerodatná odchýlka pre α. Metódou Block resampling s geometrickým rozdelením dĺžky blokov so stred- nou hodnotou l = 20 a počtom opakováni R = 5000 odhadneme rozdelenie pre testovú štatistiku T . ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 density.default(x = boot1$t[, 1]) odhad hustoty testovej statistiky Density ●● ●● ● ●● 0 1000 2000 3000 4000 5000 1.2 1.3 1.4 1.5 1.6 1.7 1.8 pocet bootstrapovych vyberov statistika T Obr.3 Odhad hustoty rozdelenia testovej štatistiky T , spočítaný na základe 1000 bootstrapových výberov a odhad štatistiky spočítaný z pôvodných dát. Na druhom obrázku je bootstrapový odhad testovej štatistiky T , počítaný pre rôzne hodnoty počtu opakovaní bootstrapových výberov v piatich prípadoch. Hodnoty štatistiky T blízko nule by svedčili v prospech nulovej hy- potézy. Na základe zkonštruovaných konfidenčných intervalov pre štatistiku T so spoľahlivosťou 95% však zamietneme nulovú hypotézu H 0 . Aplikácia v S-plus Pre účely bootstrapu je nutné stiahnúť knižnicu S+Resample. K dispozícii je na stránke http://www.insightful.com/downloads/ libraries. Knižnica podporuje parametrický aj neparametr- ciký bootstrap, premutačné testy, metódu jackknife, odhady v lineárnych modeloch, atď. Implementácia funkcií a význam parametrov je podobný ako v R-ku. K dispozícii sú funkcie sam- ple(), bootstrap(), pbootstrap(), sbootstrap(), pre permutačné testy je určená funkcia permutationTest() a pre empirické percentily a iné konfidenčné intervaly funkcie limits.emp(), limits.bca(). Voľba počtu opakovaní V prípade jednoduchých štatistík, ako je napr. výberový priemer, dobré výsledky dostávame už pri B = 500 opakovaniach (Obr. 4). K tomuto účelu sme simulovali hodnotu vychýlenia a rozptylu boot- strapového odhadu tejto štatistiky (data o klimatizácii) pri 10, 20, 50, 100, 200 a 500 opakovaniach. V tomto prípade ľahko teoret- icky zistíme, k čomu by malo konvergovať toto vychýlenie a rozptyl, E * ( X * N )= X N , Var * ( X * N )= S 2 N N , kde S 2 N = 1 N N i=1 (X i - X N ) 2 . 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 pocet opakovani B Bias 0 100 200 300 400 500 -5 0 5 10 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 55 5 5 5 5 5 pocet opakovani B Variancia 0 100 200 300 400 500 1000 1500 2000 Obr.4 Empirický bias a rozptyl bootstrapového odhadu strednej hodnoty v piatich prípadoch pre rôzny počet opakovaní B (data o klimatizácii). V prípade komplikovanejších štatistík občas potrebujeme väčší počet bootstrapových opakovaní, aby sme dosiahli menšie vychýlenie a rozptyl bootstrapového odhadu. Pre konfidenčné intervaly sa do- poručuje hodnota B aspoň 1000, v prípade niektorých iných štatistík to môže byť aj 10000 a viac (Nezabudnime, že počet bootstrapových výberov B musí byť väčší ako je rozsah dát N ). Treba preto pri ap- likácii bootstrapu myslieť aj na túto skutočnosť (v S-PLUS je defaultne nastavené B = 1000,v R nie je defaultne nastavenie). Počet opakovaní bootstrapového odhadu skúmali aj v prípade testovej štatistiky z prík- ladu 4, (Obr. 3). Na záver ešte pridávame simuláciu počtu opakovaní bootstrapového odhadu pre korelačný koeficient (Obr. 5). 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 44 4 4 4 4 5 5 5 5 5 5 5 5 5 počet opakovaní B Bias 0 1000 2000 3000 4000 5000 -0.06 -0.04 -0.02 0.0 0.02 0.04 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 33 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 55 55 5 5 5 5 počet opakovaní B Variancia 0 1000 2000 3000 4000 5000 0.005 0.010 0.015 0.020 0.025 0.030 Obr.5 Empirický bias a rozptyl bootstrapového odhadu korelačného koeficientu v piatich prí- padoch pre rôzny počet opakovaní B (data o štandardizovaných testoch z helpu ku knižnici S+Resample). Vplyv odľahlých pozorovaní Napokon sa ešte pozrime, ako odhaliť, či bootstrapový odhad môže byť poškodený odľahlým pozorovaním, teda či existuje v datovom súbore odľahlé pozorovanie. Na tento účel sa používa metóda jackknife, ktorá spočíta bootsrapový odhad štatistiky N-krát pre každý datový súbor, ktorý vznikne z pôvodného vynechaním jedného pozorovania. Ak sa po vynechaní nejakého pozorovania bootstrapový odhad výrazne odlišuje od ostatných klasifikuje sa ako odľahlé. V R k dispozícii funk- cia jackknife() av S-PLUS funkcia jack.after.bootstrap() Literatúra [1] A.C. Davison a D.V. Hinkley. (1997). Bootstrap Methods and their application, Cambridge University Press Poďakovanie: Na záver by sme sa radi poďakovali ČSOB banke za grant, vďaka ktorému sme sa mohli zúčastniť na konferencii ROBUST 2006.

Upload: others

Post on 24-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: VÝPOČETNÉ ASPEKTY METÓDY BOOTSTRAP Matúš Maciak, …antoch/robust06/postery/maciak.pdf · c JČMF VÝPOČETNÉ ASPEKTY METÓDY BOOTSTRAP Matúš Maciak, Jaroslav Ševčík mmatthew@matfyz.cz,

ROBUST 2006 Poster Section 2006 c© JČMF

VÝPOČETNÉ ASPEKTY METÓDY BOOTSTRAPMatúš Maciak, Jaroslav Ševčík

[email protected], [email protected]

Matematicko-fyzikální fakulta, UNIVERZITA KARLOVA V PRAZEKatedra Pravděpodobnosti a matematické statistiky

Abstrakt: Účelom tejto práce bolo poskytnúť stručný prehľad modernej a v praxi stále čoraz častejšie používanej štatistickej metódy bootstrap, a tiež konkrétne ilustrovať jej použitie v štatistickomsoftware. K tomuto účelu sme zvolili v akademickej oblasti často používaný, voľne dostupný program R a jeho komerčnú verziu S-PLUS. Okrem niekoľkých vzorových príkladov, ktoré slúžia k lepšejnázornosti tejto metódy, sme pomocou simulácií aj zisťovali, ako je potrebné vhodne voliť počet boostrapových výberov. Keďže táto populárna metóda je na aplikáciu pomerne jednoduchá, snažili sme saupozorniť aj na to, že v pozadí tohoto prístupu stojí náročná teória a mala by byť preto používaná s rozvahou.

Čo je to BOOTSTRAP?Medzi klasické výpočetné úlohy v matematickej štatistikepatrí nepochybne zisťovanie bodového odhadu pre nejakýparameter, prípadne štatistiku. Často nás však zaujímajúaj variácia alebo konfidenčné intervaly tohoto odhadu.Skúmame preto jeho rozdelenie. Tradične sa v štatistike ktomuto účelu používa CLV, teda za určitých predpokladovhľadané rozdelenie pri dostatočne veľkom rozsahu dát aprox-imujeme normálnym rozdelením. Uplatnením modernýchvýpočtových prostriedkov sa však ponúka aj ďalšia možnosť,a to použiť k odhadu rozdelenia skúmaného parametru, čištatistiky tzv. resample metódy, označované aj ako com-puter intensive methods. Jednou z takýchto metód je ajmetóda bootstrap, uvedená Efronom v roku 1979. Preúplnosť spomeňme zvyšné základné resamplové techniky. Súto subsampling, ktorého špeciálnym prípadom je jackknife,ďalej permutačné testy a krížové overovanie.

1. Parametrický bootstrap:

Majme náhodný výber X1, X2, . . . , XN z rozdelenia F (X, ξ). Skú-mame štatistiku θ = θ(F ), ktorú odhadneme z dát. Parametrickýbootstrap vychádza z predpokladu apriornej informácie o rozdeleníF (X, ξ). Predpokladáme teda konkrétny tvar tohoto rozdelenia, ktoréje určené vektorom parametrov ξ = (ξ1, . . . , ξK), ktorý odhadneme znáhodného výberu X1, X2, . . . , XN . Z takto získaného odhadnutéhorozdelenia FN(X, ξ) simulujeme B náhodných výberov (bootstrapovévýbery, dodávame náhodu), kde N < B << NN a pre každý náhodnývýber spočítame θ∗N,i, i = 1, . . . , B. Z týchto odhadov z každého boot-strapového výberu získavame aproximáciu rozdelenia odhadu θN .

Príklad 1: (výberový priemer)Skúmajme dáta, ktoré udávajú počet hodín medzi poruchami klima-tizácie v Boeingu 720 jet aircraft (3, 5, 7, 18, 43, 85, 91, 98, 100, 130,

230, 487). Zaujíma nás rozdelenie odhadu strednej hodnoty -výberového priemeru. Zdá sa, že EDF sa dá dobre nafitovať expo-nenciálnym, alebo gamma rozdelením. Simulujme teda náh. výbery zodhadnutého gamma rozdelenia a pomocou nich aproximujeme rozde-lenie výberového priemeru. Z obrázku (obr. 1) je vidieť, že výberovýpriemer má výrazne zošikmené rozdelenie, čo potvrdzuje aj normalQ-Q plot, podľa ktorého nejde o normálne rozdelenie. Naproti tomuGamma Q-Q plot naznačuje tomu, že ide o gamma rozdelenie.

Bootstrapove rozdelenie vyberoveho priemeru

mean

Density

50 100 150 200 250 300

0.0

0.002

0.004

0.006

0.008

0.010

0.012

ObservedMean

Normal Q-Q plot

Kvantily normalneho rozdelenia

vyb. priemery bootstrapovych vyberov

-2 0 2

50

100

150

200

250

300

Gamma Q-Q plot

Kvantily gama rozdelenia

vyb. priemery bootstrapovych vyberov

50 100 150 200 250

50

100

150

200

250

300

Obr.1 Aroximácia výberového priemeru dát o klimatizácii parametrickým bootstrapom, normal

a gamma Q-Q plot štatistík z bootstrapových výberov.

2. Neparametrický bootstrap:

Podobne ako v prechádzajúcom prípade majme náhodný výberX1, X2, . . . , XN z rozdelenia F (X) a skúmame štatistiku θ = θ(F ),ktorú odhadneme z dát. V prípade neparametrického bootstrapu všaknepredpokladáme apriórnu informáciu o tvare rozdelenia F . NeznámuF aproximujeme pomocou EDF, ako FN a z tejto simulujeme N

pozorovaní, čo znamená, že z náhodného výberu X1, X2, . . . , XN

vyberáme N krát s opakovaním. Dostávame prvý bootstrapovývýber X∗

1,1, . . . , X∗1,N . Postup opakujeme B-krát. Pre každý takto

získaný bootstrapový výber spočítame odhad skúmanej štatistikyθ∗N,i, i = 1, . . . , B. Z týchto odhadov napokon aproxinujeme rozdele-nie odhadu θN .

Príklad 2: (korelačný koeficient)Skújmame korelačný koeficient medzi dvoma výbermi (data city zknižnice boot v R o raste populácie v rôznych amerických mestách).Použijeme neparametrický bootstrap na aproxiáciu rozdelenia kore-lačného koeficientu. (Obr. 2)

Histogram of bootcity1$t

bootcity1$t

Dens

ity

−0.5 0.0 0.5 1.0

01

23

45

67

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●●● ●

●●●

●●

●●●●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●● ●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●●

●●

●●

●● ●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

−3 −2 −1 0 1 2 3

01

23

45

Normal Q−Q Plot

Theoretical Quantiles

Samp

le Qu

antile

s

Obr.2 Odhad rozdelenia pre korelačný koeficient a normal Q-Q plot pre Fisherové transfor-

mácie korelačných koeficientov z boostrapových výberov.

Kedy možno bootstrap použiť?Bootstrap možno aplikovať len na štatistiky,o ktorých vieme, že boot-strapová aproximácia spĺňa určité teoretické vlastnosti, a síce konzis-tenciu a asymptotickú presnosť (rýchlosť konvergencie ku skutočnému

rozdeleniu, Edgeworthov rozvoj). Tieto požiadavky sú splnené uväčšiny bežných štatistík, ako sú napr. hladké funkcie výberovýchmomentov (priemer, rozptyl, atď), odhady v lineárnych a zobec-nených lineárnych modeloch, väčšina max. vierohodnýchodhadov a veľa štatistík odvodených z časových rád. V lineárnychmodeloch existujú dva prístupy pri aplikácii bootstrapu na odhadregresných koeficientov a to resampling residuals a resamplingcases. V poslednej dobe sa často využíva nový spôsob generovanianáhodných výberov, označovaný ako wild bootstrap. Tento vykazujelepšie vlastnosti a je vhodný v prípade heteroskedastických dát. Učasových rád sa pre konštrukciu bootstrapových výberov používa re-samplovanie blokov. Základné prístupy sú based resampling, blockresampling a metóda blocks of blocks.

Bootstrap verzus konvenčný prístup(CLV)Výhody Bootstrapu: Je jednoduchý na použitie. Oslobodzuje násod dvoch obmedzení klasického prístupu, a síce predpokladu zvonovéhorozdelenia dát a nutnosti zamerať sa na štatistiky, ktorých teoretickévlastnosti môžu byť analyzované matematicky. Často pozorujemerýchlejšiu konvergenciu ku skutočnému rozdeleniu ak v prípade CLV,je teda vhodný aj pre menšie výbery.

Nevýhody Bootstrapu: Niekedy môže poskytnúť klamlivý obrazskutočnosti (napr. u dát s odľahlými pozorovaniami)

Aplikácia bootstrapu v R 2.2.0Existujú knižnice boot, bootstrap a simpleboot, ktoré umožňujúaplikáciu bootstrapových štatistických metód v R (podľa odporúčaní savyžaduje verzia R 2.2.0 a viac).

K dispozícii sú oba prístupy, parametrický aj neparametrický boot-strap. Funkcie pre jednoduchý bootstrap (boot(), bootstrap() apairs.boot()) s možnými metódami ordinary, balanced, anthiteticbootstrap a permutation. Na bootstrap v lineárnom modele slúžifunkcia lm.boot() s voliteľnými metódami model-based resamplinga resampling cases. K použitiu bootstrapu v časových radách súnutné ešte dodatočné knižnice (tseries, zoo, quadprog).Funkcie ts-boot() a tsbootstrap() umožňujú využiť metódy Model-based re-sampling, Block resampling a tiež metódu Blocks-of-blocks. Vprípade niektorej z metód blokov je k dispozícia voľba pevnej dĺžkybloku, alebo dĺžky bloku s geometrickým rozdelením s voliteľnou stred-nou hodnotou l.

Konfidenčné intervalyKlasické konfidenčné intervaly sú založené na asymptotickejaproximácii, ktorá je v praxi často nepresná (interval θ ± z(α)σ, kdez(α) sú percentily normálneho rozdelenia). Pri bootstrape sa okremempirických percentilov využívajú aj vylepšené konfidenčné intervaly,a to ABC, BCα a t-bootstrap.

1. BCα Intervaly pre parameter θ:→ bootstrapové výbery X∗

i,N , X∗i,N , . . . , X∗

i,N pre i = 1, . . . , B →odhady θ∗N,1, . . . , θ

∗N,B → odhad distribučnej funkcie θ , G(θ) ako

G(c) =∑B

i=1 I{θ∗N,i≤c}

⇒ BCα interval je[θ∗BCα

[α], θ∗BCα[1− α]

], kde

θ∗BCα[α] = G−1φ

(z0 + z0+zα

1−a(z0+zα)

),

kde zα = φ−1(α), z0 je biasová korekcia a a je akcelerácia.

2. ABC Intervaly pre parameter θ:→ analytická verzia BCα konfidenčných intervalov.⇒ ABC konfidenčný interval je

[θ∗ABC [α], θ∗ABC [1− α]

], kde

θ∗ABC [α] = θ + ω(1−aω)2

√θ, kde ω = z0 + zα.

3. t-bootstrap intervaly pre parameter θ:→ náhodný výber X∗

1 , X∗2 , . . . , X

∗N → odhadneme θ(X) a smero-

datnú odchýlku σθ → statistika T = θ−θσθ

→ z bootstrapovýchvýberov odhadneme kvantily T (α).

⇒ t-bootstrap interval je[θ − σT (α), θ − σT (1−α)

]

Príklad 3: (výberový korelačný koeficient)Porovnanie konfidenčných intervalov, počítaných rôznymi metódamipre odhad korelačného koeficientu ρ, kde ρ = 0.723:

Parametrický prístupα ABC BCα t-bootstrap Standard

0.05 0.47 0.47 0.45 0.550.95 0.86 0.86 0.87 0.90

Neparametrický prístupα ABC BCα t-bootstrap Standard

0.05 0.56 0.55 0.51 0.590.95 0.83 0.85 0.86 0.85

K výpočtu BCα, ABC a t-bootstrap konfidenčných limít sú určenéfunkcie abc.ci(), boot.ci(), abc.par(), abc.non(), bcanon() a boott().Príklad 4: (testová štatistika - časová rada)Máme časovú radu {Xt, t = {1, 2, . . . , 309}}, kde Xt je logarit-mus podielu ceny ovčej vlny na austrálskom trhu a minimálnej cenystanovenej na daný týždeň. Testujeme hypotézu H0 že ide o náhodnúprechádzku proti alternatíve H1, že ide o autoregresnú postupnosťprvého radu. Volíme testovú štatistiku T = 1−α

sαkde α je odhad au-

toregresného koeficientu a sα je smerodatná odchýlka pre α. MetódouBlock resampling s geometrickým rozdelením dĺžky blokov so stred-nou hodnotou l = 20 a počtom opakováni R = 5000 odhadnemerozdelenie pre testovú štatistiku T .

●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

density.default(x = boot1$t[, 1])

odhad hustoty testovej statistiky

Den

sity

●●

● ●● ●

●● ●

● ● ● ●

●●

● ●● ● ●

●●

● ● ● ●

●● ●

● ● ●

0 1000 2000 3000 4000 5000

1.2

1.3

1.4

1.5

1.6

1.7

1.8

pocet bootstrapovych vyberov

sta

tistik

a T

Obr.3 Odhad hustoty rozdelenia testovej štatistiky T , spočítaný na základe 1000 bootstrapovýchvýberov a odhad štatistiky spočítaný z pôvodných dát. Na druhom obrázku je bootstrapovýodhad testovej štatistiky T , počítaný pre rôzne hodnoty počtu opakovaní bootstrapových výberovv piatich prípadoch.

Hodnoty štatistiky T blízko nule by svedčili v prospech nulovej hy-potézy. Na základe zkonštruovaných konfidenčných intervalov preštatistiku T so spoľahlivosťou 95% však zamietneme nulovú hypotézuH0.

Aplikácia v S-plusPre účely bootstrapu je nutné stiahnúť knižnicu S+Resample. Kdispozícii je na stránke http://www.insightful.com/downloads/libraries. Knižnica podporuje parametrický aj neparametr-ciký bootstrap, premutačné testy, metódu jackknife, odhady vlineárnych modeloch, atď. Implementácia funkcií a významparametrov je podobný ako v R-ku. K dispozícii sú funkcie sam-ple(), bootstrap(), pbootstrap(), sbootstrap(), pre permutačné testyje určená funkcia permutationTest() a pre empirické percentily a inékonfidenčné intervaly funkcie limits.emp(), limits.bca().

Voľba počtu opakovaníV prípade jednoduchých štatistík, ako je napr. výberový priemer,dobré výsledky dostávame už pri B = 500 opakovaniach (Obr. 4).K tomuto účelu sme simulovali hodnotu vychýlenia a rozptylu boot-strapového odhadu tejto štatistiky (data o klimatizácii) pri 10, 20,50, 100, 200 a 500 opakovaniach. V tomto prípade ľahko teoret-icky zistíme, k čomu by malo konvergovať toto vychýlenie a rozptyl,E∗(X∗

N) = XN , Var∗(X∗N) =

S2N

N , kde S2N = 1

N

∑Ni=1(Xi −XN)2.

1

1

1

1

1

1 1

2

2

2

2

2

2

2

3

3

3

33

3

3

4

4

4

4

4

4

4

5

5

5

5

5

5 5

pocet opakovani B

Bias

0 100 200 300 400 500

-50

510 1

1

1 11

11

2

22

2

2 2

2

3

3

3

33

3

3

4

4

4

4

4

44

5 5

5

55

5

5

pocet opakovani B

Variancia

0 100 200 300 400 500

1000

1500

2000

Obr.4 Empirický bias a rozptyl bootstrapového odhadu strednej hodnoty v piatich prípadochpre rôzny počet opakovaní B (data o klimatizácii).

V prípade komplikovanejších štatistík občas potrebujeme väčší početbootstrapových opakovaní, aby sme dosiahli menšie vychýlenie arozptyl bootstrapového odhadu. Pre konfidenčné intervaly sa do-poručuje hodnota B aspoň 1000, v prípade niektorých iných štatistíkto môže byť aj 10000 a viac (Nezabudnime, že počet bootstrapovýchvýberov B musí byť väčší ako je rozsah dát N). Treba preto pri ap-likácii bootstrapu myslieť aj na túto skutočnosť (v S-PLUS je defaultnenastavené B = 1000, v R nie je defaultne nastavenie). Počet opakovaníbootstrapového odhadu skúmali aj v prípade testovej štatistiky z prík-ladu 4, (Obr. 3). Na záver ešte pridávame simuláciu počtu opakovaníbootstrapového odhadu pre korelačný koeficient (Obr. 5).

1

1

1

1

11

1 11 1

2

2

2

2

2

2

22 2

2

3

3

3

3

33

3

33 3

4

4

4

4

4 4

4 4 4 4

5555

55

5

5 5 5

počet opakovaní B

Bias

0 1000 2000 3000 4000 5000

-0.06

-0.04

-0.02

0.0

0.02

0.04

1

11

11

1

1 11 1

2

2

2

22

2 22 2 2

3

3

33

3

3

3 3 33

4

4

4

4

4

4

44 4 4

5

5

555 5

5

5 5 5

počet opakovaní B

Variancia

0 1000 2000 3000 4000 5000

0.005

0.010

0.015

0.020

0.025

0.030

Obr.5 Empirický bias a rozptyl bootstrapového odhadu korelačného koeficientu v piatich prí-padoch pre rôzny počet opakovaní B (data o štandardizovaných testoch z helpu ku knižniciS+Resample).

Vplyv odľahlých pozorovaníNapokon sa ešte pozrime, ako odhaliť, či bootstrapový odhad môže byťpoškodený odľahlým pozorovaním, teda či existuje v datovom súboreodľahlé pozorovanie. Na tento účel sa používa metóda jackknife,ktorá spočíta bootsrapový odhad štatistiky N-krát pre každý datovýsúbor, ktorý vznikne z pôvodného vynechaním jedného pozorovania.Ak sa po vynechaní nejakého pozorovania bootstrapový odhad výrazneodlišuje od ostatných klasifikuje sa ako odľahlé. V R k dispozícii funk-cia jackknife() a v S-PLUS funkcia jack.after.bootstrap()Literatúra[1] A.C. Davison a D.V. Hinkley. (1997). Bootstrap Methods and their application,Cambridge University PressPoďakovanie:Na záver by sme sa radi poďakovali ČSOB banke za grant, vďaka ktorémusme sa mohli zúčastniť na konferencii ROBUST 2006.