teste
TRANSCRIPT
-
TESTE PARAMETRICE
Notiuni generale
Modelul: F = P X1 cu parametrul 2 Rk;k 1Consideram familia
fF; 2 g
Pentru 0 ; o ipoteza statistica este o subfamilie
H : fF; 2 0g notat= f 2 0g
Ipoteza alternativa lui H este subfamilia complemen-tara
HA : fF; 2 0g notat= f 2 0gIpoteza H se numeste simpla daca 0 se reduce la un
singur punct, 0 = f0g :Ipoteza H se numeste compusa daca card (0) > 1:
Observatiile: X1; :::; Xn; var. al. indep. id. rep (F)Spatiul de selectie ndimensional
Sn;Sn;
nNi=1
P X1i
Denitie:
O multime masurabila B 2 Sn se numeste regiune criticapentru ipoteza H : f 2 0g daca i se ataseaza urmatoarearegula de decizie:
(X1; :::; Xn) (!) = (x1; :::; xn) 2 B =) respingem ipoteza H :f 2 0g
(X1; :::; Xn) (!) = (x1; :::; xn) 2 BC =) acceptam ipoteza H :f 2 0g
A construi un test pentru ipoteza H : f 2 0g cu alter-nativa HA : f 2 0g revine la a deni o regiune critica Bpentru H:
1
-
Fie ipotezele H;HA si un test bazat pe o regiune criticaB:Posibilele erori de decizie sunt:
eroare de I tip: respingerea lui H cand H este ade-varata
eroare de II tip: acceptarea lui H cand H este falsa.
Probabilitatile de eroare sunt
() = P ((X1; :::; Xn) 2 B) pentru 2 0 () = P
(X1; :::; Xn) 2 BC
pentru 2 0
Functia caracteristica operatoare a testului este
OC () = P(X1; :::; Xn) 2 BC
; 2
Puterea testului
() = 1OC () ; 2
2
-
TESTE PENTRU IPOTEZE SIMPLE CUALTERNATIVE SIMPLE
Pentru doua valori 0; 1 2 ;0 6= 1 restrangem familia derepartitii la fF; 2 f0; 1gg si formulam ipotezele
H : f = 0g ; HA : f = 1g
Pentru un test bazat pe regiunea critica B avem
= P0 ((X1; :::; Xn) 2 B) = P1
(X1; :::; Xn) 2 BC
Observatie:Daca B = Sn; avem = 1 si = 0Daca B = ; avem = 0 si = 1:
Strategia Neyman - Pearson de constructie a lui B :
probabilitatea erorii de I tip se tine sub control;
se cauta B care minimizeaza probabilitatea erorii deII tip.
Denitii:Fie ipoteza simpla H : f = 0g cu alternativa simpla HA :
f = 1g : Fie 2 (0; 1) xat (va numit "prag de semni-catie").Familia regiunilor critice pentru H pentru care proba-
bilitatea erorii de I tip este egala cu este
C = fB 2 Sn j P0 ((X1; :::; Xn) 2 B) = g
Multimea B 2 C se numeste cea mai buna regiune crit-ica pentru H; la pragul de semnicatie ; daca pentru oriceB 2 C are loc relatia
P1
(X1; :::; Xn) 2 (B)C
P1
(X1; :::; Xn) 2 BC
sau relatia echivalenta
P1 ((X1; :::; Xn) 2 B) P1 ((X1; :::; Xn) 2 B)
3
-
In continuare vom construi o asemenea regiune critica.
Fie modelul F = P X1;
F =
8>:Pxp (x; ) fxg; in caz discret
sauf (x; ) l; in caz continuu
Repartitia vectorului observatiilor (X1; :::; Xn) este e disc-reta, data prin masele de probabilitate
P (X1 = x1; :::; Xn = xn) =nYi=1
p (xi; ) ;
e continua, data prin densitatea de repartite
f (x1; :::; xn; ) =nYi=1
f (xi; ) :
Denitie:Fie modelul F = P X1; 2 f0; 1g ; ipotezele simple H :
f = 0g, HA : f = 1g si datele statistice (x1; :::; xn) = (X1; :::; Xn) (!) :Numim raport al probabilitatilor functia
un (x1; :::; xn) =
8>>>>>:nQi=1
p(xi;1)p(xi;0)
; in caz discret
saunQi=1
f(xi;1)f(xi;0)
; in caz continuu
Teorema Neyman - Pearson
Fie modelul F = f (x; ) l; 2 Rk; k 1 si e ipotezasimpla H : f = 0g cu alternativa simpla HA : f = 1g ; 0 6= 1:Fie X1; ::::; Xn observatii independente, identic repartizate(F) si e un (x1; :::; xn) raportul probabilitatilor corespunza-tor. Fie 2 (0; 1) arbitrar xat si e k1 cuantila de rang(1 ) a repartitiei lui un (X1; :::; Xn) cand = 0; adica
P0 (un (X1; :::; Xn) < k1) = 1 :
Atunci multimea masurabilaeB = f(x1; :::; xn) j un (x1; :::; xn) k1g4
-
este cea mai buna regiune critica pentru H la pragul desemnicatie (adica eB = B)Demonstratie:Avem eB 2 C pentru ca
P0
(X1; :::; Xn) 2 eB = P0 (un (X1; :::; Xn) k1) =
Fie B 2 C: Evaluam urmatoarea diferenta
P1
(X1; :::; Xn) 2 eB P1 ((X1; :::; Xn) 2 B) =
P1
(X1; :::; Xn) 2 eB \BC P1 (X1; :::; Xn) 2 eBC \B =Z
eB\BCnYi=1
f (xi; 1) dx1:::dxn Z
( eB)C\BnYi=1
f (xi; 1) dx1:::dxn =
ZeB\BC
un (x1; :::; xn)
nYi=1
f (xi; 0) dx1:::dxnZ
( eB)C\Bun (x1; :::; xn)
nYi=1
f (xi; 0) dx1:::dxn
Tinand cont de constructia lui eB obtinemP1
(X1; :::; Xn) 2 eB P1 ((X1; :::; Xn) 2 B) Z
eB\BCk1
nYi=1
f (xi; 0) dx1:::dxn Z
( eB)C\Bk1
nYi=1
f (xi; 0) dx1:::dxn =
k1
P0
(X1; :::; Xn) 2 eB \BC P0 (X1; :::; Xn) 2 eBC \B =
k1P0
(X1; :::; Xn) 2 eB P0 ((X1; :::; Xn) 2 B) = k1 ( ) = 0
DeciP1
(X1; :::; Xn) 2 eB P1 ((X1; :::; Xn) 2 B)
adica eB = B:In concluzie, FORMA celei mai bune regiuni critice
este
B = f(x1; :::; xn) j un (x1; :::; xn) kg= f(x1; :::; xn) j lnun (x1; :::; xn) cg
5
-
iar constanta k (respectiv c) se determina din conditia capragul de semnicatie sa e ;
P0 (un (X1; :::; Xn) < k) = 1
O versiune a teoremei Neyman - Pearson se obtineimediat pentru cazul discret,
F =Xx2A
p (x; ) fxg:
TESTUL RAPORTULUI PROBABILITATILOR
PENTRU H : f = 0g, HA : f = 1g
(a) Constructia lui B
se calculeaza un (x1; :::; xn)
se determina k = k1 (respectiv c = c1) asa incatP0 (un (X1; :::; Xn) < k1) = 1
(b) Aplicarea testului
Se observa (x1; :::; xn) Se calculeaza valoarea numerica a lui un (x1; :::; xn) Regula de decizie:
un (x1; :::; xn) k1 =) se respinge H : f = 0gun (x1; :::; xn) < k1 =) se accepta H : f = 0g
Valorile probabilitatilor de eroare:Prin constructie,
P0 ((X1; :::; Xn) 2 B) =
In virtutea teoremei Neyman - Pearson, = min = P1 (un (x1; :::; xn) < k1)
6
-
APLICATIA 1T.R.P. pentru modelul B (1; ) ; 2 (0; 1)
F =1X
x=0
x (1 )1x fxg; 2 (0; 1)
Consideram 0 < 0 < 1 < 1 si ipotezele H : f = 0g, HA :f = 1g :
un (x1; :::; xn) =nYi=1
xi1 (1 1)1xixi0 (1 0)1xi
=
10
Pni=1 xi
1 11 0
nPni=1 xi
lnun (x1; :::; xn) =nXi=1
xi ln 1 (1 0)0 (1 1) + n ln
1 11 0
Pentru 2 (0; 1) arbitar xat, forma celei mai buneregiuni critice pentru H la pragul de semnicatie este
B = flnun (x1; :::; xn) cg =(
nXi=1
xi C)
undeC =
1
ln 1(10)0(11)
c n ln 1 1
1 0
Determinam constanta C asa incat B 2 C:Pentru = 0; repartitia variabilei aleatoare
Pni=1Xi este
binomiala, B (n; 0) :Fie C1 cuantila de rang (1 ) a acestei repartitii,
nXy=0
y
-
si avem
P0 ((X1; :::; Xn) 2 B) = P0
nXi=1
Xi C1!= 1 P0
nXi=1
Xi < C1
!
P0
nXi=1
Xi > C1
!= 1 P0
nXi=1
Xi C1!
min = P1
(X1; :::; Xn) 2 (B)C
=
nXy=0
y
-
Pentru = 0; repartitia variabilei aleatoarePn
i=1Xi estenormala, N (n0; n) : Rezulta
1pn
nXi=1
Xi n0! N (0; 1)
Pentru determinarea constantei C impunem conditia
P0
1pn
nXi=1
Xi n0!:nQi=1
p (xi; ) ; in caz discretnQi=1
f (xi; ) ; in caz continuu
In conditii de regularitate pentru L ca functie in ; scriemsistemul de verosimilitate maxima
@ lnL
@i= 0; i = 1; :::; k
Notam cu bVM (X1; :::; Xn) estimatorul de verosimilitatemaxima, determinat pentru selectii ndimensionale.
Numim raport al verosimilitatilor functia
(x1; :::; xn) =L (x1; :::; xn; 0)
Lx1; :::; xn; bVM (x1; :::; xn)
TEOREMA (cazul k = 1)
Fie fXn; n 1gun sir de variabile aleatoare independente,identic repartizate F = P X1; 2 R si e 0 2 valoareaadevarata a parametrului. Presupunem vericate urma-toarele conditii:
1. este un interval deschis al lui R;
10
-
2. F admite densitatea de repartitie f (x; ) si fx j f (x; ) > 0geste independenta de ;
3. Exista o vecinatate V a lui 0 asa incat pentru orice 2 V avem:
functia f (x; ) este de trei ori derivabila in raport cu oricare ar x si derivatele sunt integrabile;
exista functiile G1; G2 si H (; ) integrabile pe R asa incat@f (x; )@ < G1 (x)@2f (x; )@2 < G2 (x)@3f (x; )@3 < H (x; )Z
R
H (x; ) f (x; ) dx < K
unde K este o constanta independenta de ;
exista "informatia Fisher"
M
@f (X; )
@
2notat= i1 ()
0 < i1 ()
-
Pentru demonstratie:Craiu Virgil, Paunescu Virgil, "Elemente de statistica
matematica cu aplicatii", Editura Mondo - Ec, 1998
EXTENSIA TEOREMEI in cazul k > 1 (parametrul este un vector kdimensional) ofera pentru comporta-mentul asimptotic al raportului de verosimilitati urma-toarea concluzie:
2 ln (X1; :::; Xn) repartitie! Z 2 (k)
TESTUL RAPORTULUI DE VEROSIMILITATI
PENTRU H : f = 0g, HA : f 6= 9g
Algoritm:
se observa (x1; :::; xn) ; se calculeaza valorile bVM (x1; :::; xn) si (x1; :::; xn) ; pentru 2 (0; 1) arbitrar xat, e hk;1 cuantila de rang(1 )a repartitiei 2cu k grade de libertate. Daca
2 ln (x1; :::; xn) hk;1
decidem sa respingem ipoteza H : f = 0g :
Observatii:Asimptotic, probabilitatea erorii de I tip (respingerea
ipotezei H cand H este adevarata) este egala cu :Acesta este un test general, caci repartitia limita a lui
2 ln (X1; :::; Xn) este independenta de model.
12
-
APLICATIE
T.R.V pentru modelul N ; 2 ; = ; 2 2 R (0;1)H :
=
0;
20
; HA :
6= 0; 20
Functia de verosimilitate este
Lx1; :::; xn;;
2=22
n=2exp
( 122
nXi=1
(xi )2)
Reamintim ca E.V.M. pentru parametrii repartitieinormale sunt
bVM (X1; :::; Xn) = X = 1n
nXi=1
Xi
c2VM (X1; :::; Xn) = 1n
nXi=1
Xi X
2Raportul de verosimilitati este
(x1; :::; xn) =Lx1; :::; xn;0;
20
Lx1; :::; xn; bVM ;c2VM =
=
220
n=2exp
1220
nPi=1
(xi 0)2
2c2VMn=2 exp 1
2c2VMnPi=1
(xi x)2 =
=
20c2VM
!n=2exp
( 1220
nXi=1
(xi 0)2 + n2
)
2 ln (x1; :::; xn)
= n ln
20c2VM
!+
nXi=1
xi 00
2 n
Repartitia limita a lui 2 ln (X1; :::; Xn) pentru n!1 esterepartitia 2 (2) :Pentru 2 (0; 1) arbitrar xat, e h2;1 cuantila de rang
(1 ) a repartitiei 2 cu 2 grade de libertate. Daca2 ln (x1; :::; xn) h2;1
decidem sa respingem ipoteza H : = 0; 20 :13