teste

13
TESTE PARAMETRICE Notiuni generale Modelul: F = P X 1 cu parametrul 2 R k ;k 1 Consideram familia fF ; 2 g Pentru 0 ; o ipoteza statistica este o subfamilie H : fF ; 2 0 g notat = f 2 0 g Ipoteza alternativa lui H este subfamilia complemen- tara H A : fF ; 2 0 g notat = f 2 0 g Ipoteza H se numeste simpla daca 0 se reduce la un singur punct, 0 = f 0 g : Ipoteza H se numeste compusa daca card ( 0 ) > 1: Observatiile: X 1 ; :::; X n ; var. al. indep. id. rep (F ) Spatiul de selectie ndimensional S n ; S n ; n N i=1 P X 1 i Denitie: O multime masurabila B 2S n se numeste regiune critica pentru ipoteza H : f 2 0 g daca i se ataseaza urmatoarea regula de decizie: (X 1 ; :::; X n )(!)=(x 1 ; :::; x n ) 2 B = ) respingem ipoteza H : f 2 0 g (X 1 ; :::; X n )(!)=(x 1 ; :::; x n ) 2 B C = ) acceptam ipoteza H : f 2 0 g A construi un test pentru ipoteza H : f 2 0 g cu alter- nativa H A : f 2 0 g revine la a deni o regiune critica B pentru H: 1

Upload: ilie-marius

Post on 08-Nov-2015

214 views

Category:

Documents


0 download

TRANSCRIPT

  • TESTE PARAMETRICE

    Notiuni generale

    Modelul: F = P X1 cu parametrul 2 Rk;k 1Consideram familia

    fF; 2 g

    Pentru 0 ; o ipoteza statistica este o subfamilie

    H : fF; 2 0g notat= f 2 0g

    Ipoteza alternativa lui H este subfamilia complemen-tara

    HA : fF; 2 0g notat= f 2 0gIpoteza H se numeste simpla daca 0 se reduce la un

    singur punct, 0 = f0g :Ipoteza H se numeste compusa daca card (0) > 1:

    Observatiile: X1; :::; Xn; var. al. indep. id. rep (F)Spatiul de selectie ndimensional

    Sn;Sn;

    nNi=1

    P X1i

    Denitie:

    O multime masurabila B 2 Sn se numeste regiune criticapentru ipoteza H : f 2 0g daca i se ataseaza urmatoarearegula de decizie:

    (X1; :::; Xn) (!) = (x1; :::; xn) 2 B =) respingem ipoteza H :f 2 0g

    (X1; :::; Xn) (!) = (x1; :::; xn) 2 BC =) acceptam ipoteza H :f 2 0g

    A construi un test pentru ipoteza H : f 2 0g cu alter-nativa HA : f 2 0g revine la a deni o regiune critica Bpentru H:

    1

  • Fie ipotezele H;HA si un test bazat pe o regiune criticaB:Posibilele erori de decizie sunt:

    eroare de I tip: respingerea lui H cand H este ade-varata

    eroare de II tip: acceptarea lui H cand H este falsa.

    Probabilitatile de eroare sunt

    () = P ((X1; :::; Xn) 2 B) pentru 2 0 () = P

    (X1; :::; Xn) 2 BC

    pentru 2 0

    Functia caracteristica operatoare a testului este

    OC () = P(X1; :::; Xn) 2 BC

    ; 2

    Puterea testului

    () = 1OC () ; 2

    2

  • TESTE PENTRU IPOTEZE SIMPLE CUALTERNATIVE SIMPLE

    Pentru doua valori 0; 1 2 ;0 6= 1 restrangem familia derepartitii la fF; 2 f0; 1gg si formulam ipotezele

    H : f = 0g ; HA : f = 1g

    Pentru un test bazat pe regiunea critica B avem

    = P0 ((X1; :::; Xn) 2 B) = P1

    (X1; :::; Xn) 2 BC

    Observatie:Daca B = Sn; avem = 1 si = 0Daca B = ; avem = 0 si = 1:

    Strategia Neyman - Pearson de constructie a lui B :

    probabilitatea erorii de I tip se tine sub control;

    se cauta B care minimizeaza probabilitatea erorii deII tip.

    Denitii:Fie ipoteza simpla H : f = 0g cu alternativa simpla HA :

    f = 1g : Fie 2 (0; 1) xat (va numit "prag de semni-catie").Familia regiunilor critice pentru H pentru care proba-

    bilitatea erorii de I tip este egala cu este

    C = fB 2 Sn j P0 ((X1; :::; Xn) 2 B) = g

    Multimea B 2 C se numeste cea mai buna regiune crit-ica pentru H; la pragul de semnicatie ; daca pentru oriceB 2 C are loc relatia

    P1

    (X1; :::; Xn) 2 (B)C

    P1

    (X1; :::; Xn) 2 BC

    sau relatia echivalenta

    P1 ((X1; :::; Xn) 2 B) P1 ((X1; :::; Xn) 2 B)

    3

  • In continuare vom construi o asemenea regiune critica.

    Fie modelul F = P X1;

    F =

    8>:Pxp (x; ) fxg; in caz discret

    sauf (x; ) l; in caz continuu

    Repartitia vectorului observatiilor (X1; :::; Xn) este e disc-reta, data prin masele de probabilitate

    P (X1 = x1; :::; Xn = xn) =nYi=1

    p (xi; ) ;

    e continua, data prin densitatea de repartite

    f (x1; :::; xn; ) =nYi=1

    f (xi; ) :

    Denitie:Fie modelul F = P X1; 2 f0; 1g ; ipotezele simple H :

    f = 0g, HA : f = 1g si datele statistice (x1; :::; xn) = (X1; :::; Xn) (!) :Numim raport al probabilitatilor functia

    un (x1; :::; xn) =

    8>>>>>:nQi=1

    p(xi;1)p(xi;0)

    ; in caz discret

    saunQi=1

    f(xi;1)f(xi;0)

    ; in caz continuu

    Teorema Neyman - Pearson

    Fie modelul F = f (x; ) l; 2 Rk; k 1 si e ipotezasimpla H : f = 0g cu alternativa simpla HA : f = 1g ; 0 6= 1:Fie X1; ::::; Xn observatii independente, identic repartizate(F) si e un (x1; :::; xn) raportul probabilitatilor corespunza-tor. Fie 2 (0; 1) arbitrar xat si e k1 cuantila de rang(1 ) a repartitiei lui un (X1; :::; Xn) cand = 0; adica

    P0 (un (X1; :::; Xn) < k1) = 1 :

    Atunci multimea masurabilaeB = f(x1; :::; xn) j un (x1; :::; xn) k1g4

  • este cea mai buna regiune critica pentru H la pragul desemnicatie (adica eB = B)Demonstratie:Avem eB 2 C pentru ca

    P0

    (X1; :::; Xn) 2 eB = P0 (un (X1; :::; Xn) k1) =

    Fie B 2 C: Evaluam urmatoarea diferenta

    P1

    (X1; :::; Xn) 2 eB P1 ((X1; :::; Xn) 2 B) =

    P1

    (X1; :::; Xn) 2 eB \BC P1 (X1; :::; Xn) 2 eBC \B =Z

    eB\BCnYi=1

    f (xi; 1) dx1:::dxn Z

    ( eB)C\BnYi=1

    f (xi; 1) dx1:::dxn =

    ZeB\BC

    un (x1; :::; xn)

    nYi=1

    f (xi; 0) dx1:::dxnZ

    ( eB)C\Bun (x1; :::; xn)

    nYi=1

    f (xi; 0) dx1:::dxn

    Tinand cont de constructia lui eB obtinemP1

    (X1; :::; Xn) 2 eB P1 ((X1; :::; Xn) 2 B) Z

    eB\BCk1

    nYi=1

    f (xi; 0) dx1:::dxn Z

    ( eB)C\Bk1

    nYi=1

    f (xi; 0) dx1:::dxn =

    k1

    P0

    (X1; :::; Xn) 2 eB \BC P0 (X1; :::; Xn) 2 eBC \B =

    k1P0

    (X1; :::; Xn) 2 eB P0 ((X1; :::; Xn) 2 B) = k1 ( ) = 0

    DeciP1

    (X1; :::; Xn) 2 eB P1 ((X1; :::; Xn) 2 B)

    adica eB = B:In concluzie, FORMA celei mai bune regiuni critice

    este

    B = f(x1; :::; xn) j un (x1; :::; xn) kg= f(x1; :::; xn) j lnun (x1; :::; xn) cg

    5

  • iar constanta k (respectiv c) se determina din conditia capragul de semnicatie sa e ;

    P0 (un (X1; :::; Xn) < k) = 1

    O versiune a teoremei Neyman - Pearson se obtineimediat pentru cazul discret,

    F =Xx2A

    p (x; ) fxg:

    TESTUL RAPORTULUI PROBABILITATILOR

    PENTRU H : f = 0g, HA : f = 1g

    (a) Constructia lui B

    se calculeaza un (x1; :::; xn)

    se determina k = k1 (respectiv c = c1) asa incatP0 (un (X1; :::; Xn) < k1) = 1

    (b) Aplicarea testului

    Se observa (x1; :::; xn) Se calculeaza valoarea numerica a lui un (x1; :::; xn) Regula de decizie:

    un (x1; :::; xn) k1 =) se respinge H : f = 0gun (x1; :::; xn) < k1 =) se accepta H : f = 0g

    Valorile probabilitatilor de eroare:Prin constructie,

    P0 ((X1; :::; Xn) 2 B) =

    In virtutea teoremei Neyman - Pearson, = min = P1 (un (x1; :::; xn) < k1)

    6

  • APLICATIA 1T.R.P. pentru modelul B (1; ) ; 2 (0; 1)

    F =1X

    x=0

    x (1 )1x fxg; 2 (0; 1)

    Consideram 0 < 0 < 1 < 1 si ipotezele H : f = 0g, HA :f = 1g :

    un (x1; :::; xn) =nYi=1

    xi1 (1 1)1xixi0 (1 0)1xi

    =

    10

    Pni=1 xi

    1 11 0

    nPni=1 xi

    lnun (x1; :::; xn) =nXi=1

    xi ln 1 (1 0)0 (1 1) + n ln

    1 11 0

    Pentru 2 (0; 1) arbitar xat, forma celei mai buneregiuni critice pentru H la pragul de semnicatie este

    B = flnun (x1; :::; xn) cg =(

    nXi=1

    xi C)

    undeC =

    1

    ln 1(10)0(11)

    c n ln 1 1

    1 0

    Determinam constanta C asa incat B 2 C:Pentru = 0; repartitia variabilei aleatoare

    Pni=1Xi este

    binomiala, B (n; 0) :Fie C1 cuantila de rang (1 ) a acestei repartitii,

    nXy=0

    y

  • si avem

    P0 ((X1; :::; Xn) 2 B) = P0

    nXi=1

    Xi C1!= 1 P0

    nXi=1

    Xi < C1

    !

    P0

    nXi=1

    Xi > C1

    != 1 P0

    nXi=1

    Xi C1!

    min = P1

    (X1; :::; Xn) 2 (B)C

    =

    nXy=0

    y

  • Pentru = 0; repartitia variabilei aleatoarePn

    i=1Xi estenormala, N (n0; n) : Rezulta

    1pn

    nXi=1

    Xi n0! N (0; 1)

    Pentru determinarea constantei C impunem conditia

    P0

    1pn

    nXi=1

    Xi n0!:nQi=1

    p (xi; ) ; in caz discretnQi=1

    f (xi; ) ; in caz continuu

    In conditii de regularitate pentru L ca functie in ; scriemsistemul de verosimilitate maxima

    @ lnL

    @i= 0; i = 1; :::; k

    Notam cu bVM (X1; :::; Xn) estimatorul de verosimilitatemaxima, determinat pentru selectii ndimensionale.

    Numim raport al verosimilitatilor functia

    (x1; :::; xn) =L (x1; :::; xn; 0)

    Lx1; :::; xn; bVM (x1; :::; xn)

    TEOREMA (cazul k = 1)

    Fie fXn; n 1gun sir de variabile aleatoare independente,identic repartizate F = P X1; 2 R si e 0 2 valoareaadevarata a parametrului. Presupunem vericate urma-toarele conditii:

    1. este un interval deschis al lui R;

    10

  • 2. F admite densitatea de repartitie f (x; ) si fx j f (x; ) > 0geste independenta de ;

    3. Exista o vecinatate V a lui 0 asa incat pentru orice 2 V avem:

    functia f (x; ) este de trei ori derivabila in raport cu oricare ar x si derivatele sunt integrabile;

    exista functiile G1; G2 si H (; ) integrabile pe R asa incat@f (x; )@ < G1 (x)@2f (x; )@2 < G2 (x)@3f (x; )@3 < H (x; )Z

    R

    H (x; ) f (x; ) dx < K

    unde K este o constanta independenta de ;

    exista "informatia Fisher"

    M

    @f (X; )

    @

    2notat= i1 ()

    0 < i1 ()

  • Pentru demonstratie:Craiu Virgil, Paunescu Virgil, "Elemente de statistica

    matematica cu aplicatii", Editura Mondo - Ec, 1998

    EXTENSIA TEOREMEI in cazul k > 1 (parametrul este un vector kdimensional) ofera pentru comporta-mentul asimptotic al raportului de verosimilitati urma-toarea concluzie:

    2 ln (X1; :::; Xn) repartitie! Z 2 (k)

    TESTUL RAPORTULUI DE VEROSIMILITATI

    PENTRU H : f = 0g, HA : f 6= 9g

    Algoritm:

    se observa (x1; :::; xn) ; se calculeaza valorile bVM (x1; :::; xn) si (x1; :::; xn) ; pentru 2 (0; 1) arbitrar xat, e hk;1 cuantila de rang(1 )a repartitiei 2cu k grade de libertate. Daca

    2 ln (x1; :::; xn) hk;1

    decidem sa respingem ipoteza H : f = 0g :

    Observatii:Asimptotic, probabilitatea erorii de I tip (respingerea

    ipotezei H cand H este adevarata) este egala cu :Acesta este un test general, caci repartitia limita a lui

    2 ln (X1; :::; Xn) este independenta de model.

    12

  • APLICATIE

    T.R.V pentru modelul N ; 2 ; = ; 2 2 R (0;1)H :

    =

    0;

    20

    ; HA :

    6= 0; 20

    Functia de verosimilitate este

    Lx1; :::; xn;;

    2=22

    n=2exp

    ( 122

    nXi=1

    (xi )2)

    Reamintim ca E.V.M. pentru parametrii repartitieinormale sunt

    bVM (X1; :::; Xn) = X = 1n

    nXi=1

    Xi

    c2VM (X1; :::; Xn) = 1n

    nXi=1

    Xi X

    2Raportul de verosimilitati este

    (x1; :::; xn) =Lx1; :::; xn;0;

    20

    Lx1; :::; xn; bVM ;c2VM =

    =

    220

    n=2exp

    1220

    nPi=1

    (xi 0)2

    2c2VMn=2 exp 1

    2c2VMnPi=1

    (xi x)2 =

    =

    20c2VM

    !n=2exp

    ( 1220

    nXi=1

    (xi 0)2 + n2

    )

    2 ln (x1; :::; xn)

    = n ln

    20c2VM

    !+

    nXi=1

    xi 00

    2 n

    Repartitia limita a lui 2 ln (X1; :::; Xn) pentru n!1 esterepartitia 2 (2) :Pentru 2 (0; 1) arbitrar xat, e h2;1 cuantila de rang

    (1 ) a repartitiei 2 cu 2 grade de libertate. Daca2 ln (x1; :::; xn) h2;1

    decidem sa respingem ipoteza H : = 0; 20 :13