űjtött adatok vizsgálata következtetések levonásakeszei.chem.elte.hu/statisztika/kisstat.pdfa...

25
– 1 – BEVEZETÉS A statisztika teljesen laikusoknak: nagy munkával gyűjtött adatok vizsgálata, abból következtetések levonása („statistical inference”) (Egy kicsit sok hűhó semmiért – azaz Much ado about nothing.) Mi is a statisztika? Egy populációból veszünk mintát. (A szavakat a KSH találta ki.) A minta alapján akarunk valamit mondani, de az egész populációról. Állítsunk megbízhatóságáról is nyilatkozunk. NÉPSZAVAZÁS A „mintavétel” nem akármilyen. Akárhányszor elvégezzük, más és más eredményt kapunk. Ez a „mintavétel” lesz a dolog kulcsa. . VENEREAL DISEASE Ezért kell érteni a valószínűségszámításhoz. Nevezzük a mintavételt kísérletnek . Kísérlet : determinisztikus : előre meghatározható eredményhez vezet véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?) Mi kell a statisztika tanulásához? MATEMATIKA: halmazelmélet algebra mértékelmélet (differenciál- és integrálszámítás) analízis Példa: NÉPSZAVAZÁS (Belépjen-e az Egyesült Királyság az Európai Unióba?) YES NO SUM Scotland 1 332 186 947 769 2 279 355 Northern Ireland 259 251 237 311 497 162 Kérdés: Van-e különbség Scotland és Northern Ireland véleménye között? Válasz: Annak a valószínűsége, hogy nincs, 10 -8 .

Upload: others

Post on 28-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

  • – 1 –

    BEVEZETÉS

    A statisztika teljesen laikusoknak: nagy munkával gyűjtött adatok vizsgálata, abból következtetések levonása („statistical inference”)

    (Egy kicsit sok hűhó semmiért – azaz Much ado about nothing.)

    Mi is a statisztika?

    � Egy populációból veszünk mintát. (A szavakat a KSH találta ki.)

    � A minta alapján akarunk valamit mondani, de az egész populációról.

    � Állítsunk megbízhatóságáról is nyilatkozunk. → NÉPSZAVAZÁS

    � A „mintavétel” nem akármilyen. Akárhányszor elvégezzük, más és más eredményt

    kapunk.

    Ez a „mintavétel” lesz a dolog kulcsa. . → VENEREAL DISEASE ↓ Ezért kell érteni a valószínűségszámításhoz.

    Nevezzük a mintavételt kísérletnek .

    Kísérlet : → determinisztikus : előre meghatározható eredményhez vezet

    → véletlen : statisztikai törvényeknek engedelmeskedik

    (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?)

    Mi kell a statisztika tanulásához?

    MATEMATIKA: halmazelmélet

    algebra

    mértékelmélet (differenciál- és integrálszámítás)

    analízis

    Példa: NÉPSZAVAZÁS (Belépjen-e az Egyesült Királyság az Európai Unióba?)

    YES NO SUM

    Scotland 1 332 186 947 769 2 279 355

    Northern Ireland 259 251 237 311 497 162

    Kérdés: Van-e különbség Scotland és Northern Ireland véleménye között?

    Válasz: Annak a valószínűsége, hogy nincs, 10−8.

  • – 2 –

    MIK A VÉLETLEN TÖRVÉNYEI ?

    Definíció: Eseménytér: a véletlen kísérlet összes lehetséges „kimenetelének” halmaza.

    Elemei: az egyes kísérletek kimenetelei.

    Az eseménytér lehet: − korlátos folytonos: pl. testmagasság

    − végtelen diszkrét: pl. radioaktív bomlás

    − véges diszkrét: pl. látósejtek száma a retinán,

    kockadobás,

    urna

    (MI A BAJ A KLASSZIKUS ELMÉLETTEL?? (Kombinatorika))

    − végtelen folytonos: ha így definiáljuk!

    − egyváltozós

    − többváltozós

    Definíció: Esemény: Az eseménytér tetszőleges részhalmaza.

    Elnevezés: Bekövetkezik egy esemény, ha a kísérlet olyan kimenetele fordul elő,

    amelynek valódi része az esemény.

    HF. Hány lehetséges esemény van egy kocka dobásánál (és kettőnél)?

    Egy kocka: ábra

    Ø: az üres halmaz (hogy az eseménytér zárt legyen, ne vezessen ki belőle semmilyen művelet.)

    Definíció: Diszjunkt (egymást kizáró) események:

    Ha (tetszőleges párra) nincsen páronként közös részük. (A metszetük üres.)

    Példák: Páratlan / páros kocka – 2 vagy kisebb / 2-nél nagyobb

    A VALÓSZÍNŰSÉGSZÁMÍTÁS AXIÓMÁI

    Legyen: A és B egy eseménytér két (diszjunkt) eseménye (azaz A ∩ B = 0).

    Jelölés: P(A) az A, P(B) a B esemény valószínűségeit jelölő számok, ha teljesül 3 axióma.

    1. 0 ≤ P(A) ║ P(B)-re természetesen ugyanez igaz

    2. P(A ∪ B) = P(A) + P(B)

    3. P(S) = 1

    S: A teljes eseménytér

  • – 3 –

    Milyen esemény A ∪ B???

    Ennyi axióma elég.

    Szokás még: ( )∑∞

    =

    =

    =

    11

    AAi

    i

    i

    i PP U

    vagy 0 ≤ P(A) ≤ 1 – de ezek már az előzőek következményei!

    Néhány fontos következmény: valószínűség számítás tételek

    0. P(Ø) = 0

    1. P(A) ≤ 1

    2. P( A ) ≤ 1 − P(A) ║ Hány eseményt specifikál egy kísérlet kimenetele? ( A az A komplementere.)

    3. ( )∑∞

    =

    =

    =

    11

    AAi

    i

    i

    i PP U − kiterjesztés több (páronként független) eseményre

    4. A 2. axióma következménye: események különbségének valószínűsége

    ( ) ( ) ( )VAAB/A ∩−= PPP

    (Ha ( ) ( ) ( )BAB/AAB PPP −=→⊆ ║ Milyen esemény az A / B?

    5. Ha két esemény nem diszjunkt, felbontható három diszjunkt eseményre. Legyen ≠∩ ED Ø

    Felbontás: D ∩ E, D / (D ∩ E), E / (D ∩ E) → uniójuk: D ∪ E

    P (D ∩ E) = P (D / (D ∩ E)) + P (E / (D ∩ E) =

    = P (D) + P (E) − P (D ∩ E)

    Vegyük észre: ha D és E diszjunktak, visszakapjuk a 2. axiómát.

    Kiterjeszthetjük több eseményre → POINCARÉ tétele.

    Mit jelent A ⊆ B? (Ha B, akkor A is.)

    Ekkor: P (A) ≤ P (B)

    P (B / A) = P (B) − P (A) Hogy állunk P (A / B)-vel?

    FELTÉTELES VALÓSZÍNŰSÉG

    Jelölés: BA : A, feltéve, hogy B bekövetkezett.

    Definíció: ( ) ( )( )B

    BABA

    P

    PP

    ∩= „az A esemény B-re vonatkoztatott feltételes valószínűsége.”

  • – 4 –

    Tétel: A és B események függetlenek, ha P (A ∩ B) = P (A) ⋅ P (B)

    Bizonyítás: ( )

    ( )( )B

    A

    BAP

    P

    P=

    ∩ → ( ) ( )BAB PP = (a B esemény valószínűsége független A-tól.)

    Szimmetria okokból → ( ) ( )ABA PP = ■

    A valószínűség gyakorlati értelmezése:

    – Tapasztalati gyakoriság

    – Klasszikus valószínűség (egyenletes, diszkrét)

    – Geometriai valószínűség

    Definíció: Függetlenek egymástól azok a kísérletek, amelyek kimeneteleinek valószínűségét

    nem befolyásolják a többi kísérletek kimenetelei.

    Elnevezés: Ismétlés: ha az újabb kísérletek függetlenek a korábbiaktól.

    Bernoulli tétele (sztochasztikus konvergencia):

    n

    hp n

    A,A = tapasztalati gyakoriság

    ( )( ) 1Alim ,A =

  • – 5 –

    Definíció:

    A valószínűségi változó az eseménytéren értelmezett függvény. A kísérlet minden egyes

    kimenetelének megfelelően felvesz egy értéket, ez az ő realizációja.

    Értékkészlete alkotja a valószínűségi változó eseményterét.

    Más neve: statisztika.

    Változó: NAGY latin betű, realizáció: kis latin betű

    Mit jelent P (X = x)? Hogy van ez egy kocka dobásánál??

    Mi a folytonos megfelelője a P (X = x) -nek??

    P (x < X ≤ x + ∆ x)

    vagy, ha elvégezhető a ∆∆∆∆x →→→→ 0 átmenet: P (x < X ≤ x + d x)

    Mi a ∆ x → 0 feltétele???

    N. B. – Valószínűségi változók bármely függvénye is valószínűségi változó! (Miért?)

    – Bármely függvény, amely érvényes valószínűségi változók között,

    érvényes ugyanúgy a realizációk között is. (Miért?)

    VALÓSZÍNŰSÉGI SŰRŰSÉGFÜGGVÉNY

    Legyen X egy valószínűségi változó,

    S az ő eseménytere.

    Kérdés: Hogyan oszlanak el S fölött a valószínűségek?

    Definíció: Ha X folytonos valószínűségi változó, akkor valószínűségi sűrűségfüggvénye az az

    f (x) függvény, amelynek az A intervallumon vett integrálja megadja annak a

    valószínűségét, hogy X realizációi az A intervallumon belül lesznek, azaz:

    1. ( ) ( ) ( )∫==∈A

    jel

    dxxAPAXP f

    2. Az X ∈ (X, x + d x) elemi esemény valószínűsége f (x) d x, és f (x) d x ≥ 0 , ∀x

    3. ( ) 1fS

    =∫ dxx

    A (−∞, ∞)-beli definíció esetén: ( ) 1f =∫∞

    ∞−

    dxx – Hogy lehet ezt így kiterjeszteni?

  • – 6 –

    Definíció: Ha X diszkrét valószínűségi változó, akkor minden egyes x értéke (realizációja)

    elemi esemény, p(x) valószínűséggel.

    Ekkor a p(x) = P (X = x) az X valószínűségi sűrűségfüggvénye.

    Erre igaz

    1. ( ) ( ) ( )∑∈

    ==∈Ax

    xpAPAxPjelölés

    2. 0 ≤ p (x) ≤ 1

    3. ( )∑∈

    =Ax

    xp 1

    Analógia: Tömegpontok / kontinuum mechanikája

    ∑ ∫=test test

    i dVm ρ

    ( ) ( )∑ ∫=test test

    i dVfmf ρ ρ : tömegsűrűség

    (Stieltjes integrál)

    Mostanra épült fel teljesen a használható matematikai apparátus:

    Véletlenkísérlet

    S halmaz

    ⊆A S

    kimenetelek évalószínűsége

    esem ny

    valószínűség áltozó

    iv

    a realizáció valószínűsége

    esem nyt ré é

    0

    0

    1

    1

    P(A)

    p( )x

    f d ( )x x

    ∈X R1

    X

    X

    (A matematikus nem az S halmazt tekinti alapként,

    hanem annak összes részhalmazából álló H halmazt!)

  • – 7 –

    Definíció: Az Y valószínűségi változó eloszlásfüggvénye:

    F(x) = P (y ≤ x)

    ( ) ( )∑<

    =xy

    ypxF diszkrét

    ( )

    = ∫

    ∞−

    x

    dyyfxF folytonos

    Fogalmak áttekintése \ eloszlás típusa folytonos diszkrét

    sűrűségfüggvény f (x) p(x)

    elemi esemény valószínűsége f (x) dx p(x)

    adott A esemény valószínűsége ( )∫A

    dxxf ( )∑A

    xp

    eloszlásfüggvény F(x) F(x)

    P (X ≤ x) F(x) F(x)

    P (x1 ≤ X ≤ x2) F(x2) − F(x1)

    ( )∫2

    1

    x

    x

    dxxf

    F(x2) − F(x1)

    ( )∑=

    =

    2

    1

    xX

    xX

    xp

    Vegyük észre! ( ) 0lim =≤<→

    bXaPba

    folytonos X-re

    P(x = b) = 0 ∀ b majdnem lehetetlen esemény

    p (x ≠ b) = 0 majdnem biztos esemény

    Definíció: X valószínűségi változó bármely g(x) függvényének várható értéke:

    ( )( )( ) ( )

    ( ) ( )

    −=

    ∞−

    Sx

    xpxg

    dxxfxg

    xgM

    diszkrét

    folytonos

    VÁRHATÓ ÉRTÉK

  • – 8 –

    (Stieltjes integrállal: ( )( ) ( ) ( )∫=1

    0

    xdFxgxgM )

    Feltételek: Ha a ( ) ( )xpxg∑ sor konvergens.

    vagy a ( ) ( )∫∞

    ∞−

    dxxfxg integrál létezik és véges.

    Speciális várható értékek:

    X várható értéke (X átlaga, X eloszlásának középértéke)

    ( )( )

    ( )

    ===∑

    ∞−

    Sx

    x

    xpx

    dxxfxxMµµ

    Jelentése: ezt „szórják körül” a kísérlet eredményei.

    M: mean (más jelölés: E: expectation)

    X (eloszlásának) r-edik centrális momentuma

    ( )[ ] ( )( )[ ]rrr xMxMxM −=−= µµ N.B.: Ha az eloszlás szimmetrikus, minden páratlan centrális momentuma zérus.

    ábra

    2. centrális momentum: X (eloszlásának) szórásnégyzete / varianciája

    ( ) ( ) ( )[ ] ( )( )[ ]22222 xMxMxMxVxD −=−==== µµσ

    Elnevezés: Standard deviáció (hiba): ( )xD2=σ

    D: deviation σ : scatter

    Két valószínűségi változó esetén: KOVARIANCIA

    ( ) ( )( )[ ]rx YxMYXC µµ −−=,

    Vegyük észre a határesetet: C (X, X) = D2(X) = V(X) (szórásnégyzet, variancia)

    Kovariancia mátrix: elemei: C(Xi, Xj)

    főátló: V(Xi) (= variancia)

    Belőle származik a korrelációs együttható:

    ( ) ( )( ) ( )YDxD

    YXCYX

    22

    ,,

    ⋅=ρ „normált kovariancia”

  • – 9 –

    Tétel: Ha X és Y függetlenek M(XY) = M(X) · M(Y)

    ekkor C(X, Y) = 0 és ρ (X, Y) = 0

    MEGFORDÍTVA CSAK AKKOR IGAZ, ha X és Y együttes eloszlása normális.

    Tétel: Minden nemnegatív f (x), ha integrálható a (−∞, ∞) intervallumon, és

    ( ) 1=∫∞

    ∞−

    dxxf , valószínűségi sűrűségfüggvény lehet.

    Ha ( ) 1≠∫∞

    ∞−

    dxxg , de véges, akkor

    ( )xgN

    1 is lehet sűrűségfüggvény, ahol ( )∫

    ∞−

    = dxxgN

    N : NORMA

    ELOSZLÁSFÜGGVÉNY TÍPUSOK

    Binomális eloszlás Legyen: tetszőlegesen ismételhető kísérlet két kimenetellel: A és A

    P(A) = p P( A ) = q = 1−p

    Binomiális mintavétel

    Legyen n ismétlésből K az A események száma

    { }nS K,2,1,0= k ∈ S

    Definíció: knk qpk

    nkKP

    == )( ez a sűrűségfüggvény

    Jelölés: K ~ B(p, n)

    A név eredete: P (K = k) kifejezés a (p + q)n binomális sorból való.

    pn=µ ( )ppnqpn −== 12σ

    Más név: Bernoulli-eloszlás ismételt alternatívák eloszlása

    Alakalmazás: Népszavazás, feleletválasztás, stb.....

  • – 10 –

    Poisson eloszlás

    Diszkrét Gyakran használható.

    Időben: egyenletes valószínűséggel bekövetkező események száma adott időintervallumban.

    Térben: egyenletes valószínűséggel bekövetkező események (véletlen elhelyezkedése) száma adott felületen. (Esőcsepp, radioaktív bomlás, gépelési hiba, LÓRÚGÁS, forgalom, gólok focimeccsen, telefonhívások, sejtszaporodás, születések száma)

    Eseménytér: N

    Jelölés: K ~ Pn(m)

    Definíció P (K = k) = P(b) = !k

    em

    mk

    k ∈ N

    m=µ m=2σ m=σ

    Tétel: c-szeres intervallum: K ~ Pn(c·m)

    ha K1 ~ Pn(m1) és K1 ~ Pn(m2) függetlenek, akkor K1 + K2 ~ Pn(m1 + m2)

    Határeloszlás-tételek:

    ( ) ( )pnPnnpB →, ha 1

  • – 11 –

    22 1

    a=σ

    a

    1=σ

    A Poisson rokona! − POISSON-folyamat

    Normális eloszlás

    Felfedezője: Abraham de Moivre − ezért hívják még Gauss-eloszlásnak.

    Pétervári játék: Addig dobunk, míg fej nem jön ki. Ha n-edikre dobunk fejet, 2n rubelt kapunk. Mennyit kell befizetni a banknak, hogy ne menjen tönkre?

    Dobások: Bn(0.5, n)

    de Moivre: ( ) ∫∞−

    −=

  • – 12 –

    2~ νχx ν a szabadsági fokok száma

    Miért fontos? Ha x1, x2, x3, .... xn függetlenek és N (µ, σ2) eloszlásúak:

    ∑=

    −=

    n

    i

    ixW

    12σ

    µ 2~ nW χ

    Várható értéke: νµ =

    Mérések!

    Elnevezés: nn

    W m2

    redukált χ2- eloszlás: µ = 1

    Student-féle t-eloszlás (Student: angol úr álneve, ezen a néven írta matematikai cikkeit)

    Kivételes: t kis betű, de valószínűségi változó!!

    ( )2

    12

    12

    ,2

    1

    1+

    +⋅

    νν

    βνt

    tf ∞

  • – 13 –

    STATISZTIKAI MÓDSZEREK

    Mintavétel: x (x1, x2, x3, .... xn) elemek kiválasztása a sokaságból → minta

    Becslés: ( )xfT = statisztikák számítása

    mintastatisztika T függ a mintától !!

    Statisztikai analízis: kvizsgálato

    silleszkedé

    modell

    hipotézis

    nciaszingifika

    akonfidenci

    Szükség van T eloszlásának ismeretére!!

    (Az x eloszlás ismeretére nem mindig: NEMPARAMÉTERES ROBUSZTUS módszerek)

    A feladat leggyakrabban

    ( )( )( )21 tTtP

    tTP

    tTP

    ≤≤

    típusú valószínűségek számítása

    Mintavétel − külön tudomány (pl. kísérlettervezés)

    Idealizált: n ismétlés: mérések x1, x2 , .... xn azonos eloszlású kimentelek

    ( ) ( )xTxxT njel

    1, =K a megfigyelések valamely függvénye: mintastatisztika T(x) eloszlása a minta eloszlása, amely az xi-k eloszlásától függ.

    Konkrét példák

    A minta középértéke : ( )n

    x

    xT

    n

    i

    i∑== 1

    Jelölés: x − eloszlása általában nem ismert!

    ha ( )2,~ σµNxi , akkor

    nNx

    2

    ,~σ

    µ

    ( ) ( ) µ== xMxM µ torzítatlan becslése ( )

    nxD

    22 σ= ezért a minta középértéke

    N.B. n növelésével csak n

    1-szeresére csökken a szórás!

  • – 14 –

    A minta szórásnégyzete

    Definíció: ( ) ( )∑= −

    −==

    n

    i

    i

    n

    xxxSS

    1

    22

    1

    Ha ( ) iNxi ∀,,~ 2σµ , akkor 1~ −

    −nt

    n

    S

    x µ számláló: Z-szerű, nevező: redukált χ2-szerű

    Számolás :

    ( )

    1

    2

    2

    2

    −=∑ ∑

    n

    n

    xx

    S

    i

    i

    ( ) 22 σ=SM σ2 torzítatlan becslése S2 a minta szórásnégyzete

    A minta kovarianciája:

    ( ) ( )( )∑= −

    −−=

    n

    i

    ii

    n

    yyxxYXC

    1 1,ˆ

    ( )( ) ( )YXCYXCM ,,ˆ = a kovariancia torzítatlan becslése

    BECSLÉS

    A minta T statisztikáját úgy választjuk meg (no meg a mintát!), hogy az eloszlás θ paraméteréhez közel legyen.

    (Szovjet mondás: A hazugságnak három fokozata van: 1. hazugság 2. arcátlan hazugság 3. statisztika )

    A magyar nyelv sem kutya:

    Az eljárás: becslés (estimation) – becslési eljárás

    A T valószínűségi változó: becslés (estimator) – becslő függvény T egy ϑ̂ realizációja: becslés (estimate) – becsült érték

    N. B. T egy valószínűségi változó. Realizációja a konkrét mintától függ. Általában ∃ eloszlása, várható értéke, szórása.

    Egy jó „becslő”

    1. torzítatlan M(T) = θ

    2. hatásos („minimum variancia”)

    3. elégséges − ha a T(x) minden szükséges információt tartalmaz θ-ról. (A hatásos becslés elégséges!!) 4. konzisztens ha ( ) 1lim =

  • – 15 –

    Módszerek

    Maximum likelihood (ML) −MVU, elégséges, konzisztens Legkisebb négyzetes − azonos normális eloszlású mintaelemek esetén maximum likelihood Momentumok módszere − nem foglalkozunk vele Minimax − ezzel sem

    x=µ̂ ML becslés (MVU)

    ( )1

    ˆ2

    22

    −== ∑

    n

    xxS

    iσ ML becslés (MVU)

    ( )n

    xxi∑ −=2

    2σ̂ aszimptotikusan hatásos, konzisztens.

    ( )n

    xD2

    2 σ= a becsült várható érték relatív hibája: n

    1

    (egy realizáció σ standard hibájához viszonyítva)

    HIBATERJEDÉS

    Legyen θ1, θ2, ....θr fizikai mennyiségek φ függvénye a becsülendő

    � Becsüljük az egyedi θi -ket és szórásukat

    � Ebből becsüljük φ (θ)-t és D2(φ (θ))-t

    Legyen a becslő függvény: φ (T1, T2, ....Tr)

    Fejtsük sorba θ körül! (Taylor-sor)

    ( ) ( ) ( ) KKK +−∂∂

    += ∑=

    r

    i

    iii

    rr TTTT

    12121 ,,,, ϑϑ

    φϑϑϑφφ (magasabb rendű tagok)

    � Ha D2 (θi) kicsi θi-hez képest, akkor Ti −θi is kicsi. Így elegendő a

    (Ti −θi) elsőfokú tagok figyelembevétele, a (Ti −θi)2 már elhanyagolható. (Közelítés!)

    � Tegyük fel: Ti torzítatlan becslő ⇒ M(Ti −θi) = 0

    ⇒ M(φ (T1, T2, ....Tr)) = φ (θ1, θ2, ....θr)

    így φ becslése is torzítatlan. Ez nem mindig közelítés!

    A becslő statisztika szórásnégyzete:

    ( )[ ] ( ) ( )[ ]{ }22121212 ,,,,,, rrr TTTMTTTD ϑϑϑφφφ KKK −=

    A Taylor-sorból a jobb oldalon [ ]-ben lévő különbség éppen ( )∑=

    −∂∂r

    i

    ii

    i

    T1

    ϑϑφ

    :

    ( )[ ] ( )

    ∂∂

    ≅ ∑=

    2

    121

    2 ,,r

    i

    ii

    i

    r TMTTTD ϑϑφ

    φ K

    A jobb oldal egy r tagú összeg négyzete, amely kifejtve:

  • – 16 –

    ( ) ( )∑∑∑< ==

    −∂∂

    ∂∂

    +⋅

    ∂∂

    ji

    r

    j

    jiji

    r

    i

    ii

    TTCTD

    11

    22

    2ϑφ

    ϑφ

    ϑφ

    Függvények várható értékének és szórásának becslése:

    � ii t=*ϑ a Ti statisztikák realizációja

    � φ (θ1, θ2, ....θr) becslése φ(t1, t2, ....tr)

    � D2 (Ti) becslése S2 (Ti)

    C (Ti , Tj) becslése Ĉ (Ti , Tj)

    � D2(φ) becslése:

    ( )[ ] ( ) ( )∑∑∑=

  • – 17 –

    Ha ( l1, l2) a konfidenciaintervallum, mekkora a ( )[ ]21,llP ∈ϑ valószínűség??

    Válasz: 0 vagy 1!

    Ezért MEGBÍZHATÓSÁG

    A konfidencia-intervallum számítása

    P = 1 − α

    µ + δµ − δ µ

    f ( t )

    t vá l

    Példák σ 2 ismert, x=µ̂ ( )2,~ σµNx

    nNx

    2

    ,~σ

    µ , de µ nem ismert

    x

    P = 1 − α

    µ + δµ − δ µ

    f (t)

    tvá l

    δ−x δ+x

    111144444444444422224444444444443333 ez az intervallum realizációja

    Legyen: µ−= xY →

    nNY

    2

    ,0~σ

    még jobb:

    n

    xZ

    σµ−

    = → ( )1,0~ NZ − ezt a legkönnyebb számítani is.

  • – 18 –

    δ+

    δ−

    P = 1 − α

    0

    f (z )

    z vá l

    Konkrét számítás:

    ( ) ( ) ( ) ( ) αδµδµδµδµδµ

    δµ

    −=−−+==+≤≤− ∫+

    1FFxdxfxP

    Használjuk ki a standard normális transzformációt (vegyük észre: ekkor eltűnik a µµµµ – ez volt a cél):

    ( )

    −−

    ==− ∫

    −n

    Fn

    Fzdzf

    n

    n

    δδα

    δ

    δ

    1

    Miért jobb N(0,1)? 1. Egyszerűbb

    2. Könyvtári szubrutinok ezt számolják

    3. Táblázatokban ez szerepel

    (Manapság már nincs jelentősége; a számítógép N(0, σ 2 / n)-t is tudna számolni.)

    Eljárás: 1. θ becslése t=ϑ̂

    2. T eloszlásának meghatározása

    3. T célszerű transzformációja

    4. ( )δϑδϑα +≤≤−=− TP1 valószínűség kiszámítható megfogalmazása (a kiszámítható azt jelenti, ne szerepeljen benne az ismeretlen θ )

    ez eddig általában kész recept (a matematikusok már megcsinálták)

    5. δ meghatározása az adott mintára ez a feladat

    (VIZSGÁLAT = TESZT)

    Nullhipotézis − alternatív hipotézis

    H0 H1

    Lényeg: Rögzítsünk egy α szignifikanciaszintet,

    ami egy igaz H0 elvetése valószínűségének felső határa.

    HIPOTÉZIS VIZSGÁLATOK

  • – 19 –

    Példák:

    >

    <

    =

    egyoldali :

    egyoldali :

    kétoldali :

    :

    0''

    1

    0'1

    01

    00

    ϑϑϑϑ

    ϑϑ

    ϑϑH

    H

    H

    H alternatív hipotézis

    Lehet: H0: θ ≤ θ0 vagy θ ≥ θ0 is.

    H0-t megvédjük vagy elvetjük α szignifikanciaszinten (α : 0,1; 0,05; 0,01)

    A döntés alapja az

    ( )0HcTP ≥=α vagy ( )0HcTP ≥=α

    Elvetjük H0-t, ha t ≥ c vagy t ≥ 0

    c : kritikus érték

    Honnan tudjuk 1. c értékét?

    2. Az α valószínűséget?

    Válasz: Ismerjük (vagy azt hisszük, hogy ismerjük!!) T eloszlását,

    és abból kiszámíthatjuk fix α-hoz a c-t.

    Ezt a c-t hasonlítjuk a mintából számított t realizációhoz.

    Az α szignifikancia-szint értéke a minta elemeinek számától (is) függ.

    Ha t ≅ c vagy t ≅ 0 , érdemes új mintát (több adatot) vizsgálni.

    Ha t 0, akkor a bűnöst elítéljük, ha a gyanúsítottak között

    van, de ha a gyanúsított ártatlan, akkor is kénytelenek vagyunk

    elítélni, a bűnös pedig a markába nevet.

    KOCKÁZATI FÜGGVÉNYEK

    1. fajú hiba: Az igaz H0 elvetése / (a csalfa H1 elfogadása)

    2. fajú hiba: A hamis H0 elfogadása / (az igaz H1 elvetése)

    A VENEREAL DISEASES példában: használ a gyógyszer: 5-5 % szignifikancia

    Σ nem használ: 5 % szignifikancia

  • – 20 –

    Legyen K a javult esetek száma

    Tegyük fel: K ∼ B(p, n)

    H0: pkezelt > pnem kezelt

    H1: pkezelt = pnem kezelt

    ( ) ( )2

    22

    1

    11

    21

    ˆ1ˆˆ1ˆ

    ˆˆ

    n

    pp

    n

    pp

    ppT

    −+

    −= 0HX : t ≥ z (1 − α )

    A VARIANCIA-ANALÍZIS (ANOVA) is hipotézis-teszt (ANOVA = Analysis Of VAriance)

    H0: ijjijx ενµ ++=

    H1: ijjiijx ενµµ +++=

    µ: alaphatás

    µ i: Az i-edik „kezelés” hatása (pl. adag mennyisége)

    ν j: A j-edik blokk hatása (pl. életkor, nemek)

    ε ij : A mérési hiba. ( M(ε ij ) = 0 , D2(ε ij ) = σ 2 )

    -------------------------------------------------------------------------------------------------------------

    MIRE HASZNÁLJUK MI A BECSLÉSEKET − ÁLTALÁBAN

    − pl. A REAKCIÓKINETIKÁBAN

    � Függ-vagy-nem-függ-tőle kérdések eldöntésére (hipotézisvizsgálatok)

    � Az összefüggés módjának eldöntésére (függvényillesztések)

    � Adott eltérések oka lehet-e a véletlen ingadozás, vagy szisztematikus függésről van-e szó??

    − Mekkora a valószínűsége egy adott eltérésnek?? (szignifikancia valószínűség)

    − Kiszór-e egy pont, vagy szabad neki akkorát ingadozni??

    (Utóbbiak csúnya, bonyolult, megbízhatatlan tesztek.)

    � n darab mérés átlagolása esetén ( )xsx 2,→

    x a µ paraméter becsült értéke, s2(x) a σ 2 paraméter becsült értéke

    ( ) ( )n

    xsxs = a becsült x szórása µ körül. (Innen marad benne az

    n

    1.)

    HOGYAN ADJUNK MEG EGY BECSÜLT EREDMÉNYT?

  • – 21 –

    Mi az ( )xs információtartalma?

    Legyen ns

    xT

    /

    µ−= ; T∼ tn −1 (n – 1 szabadsági fokú Student-eloszlás)

    Ekkor: ( ) ( )[ ] ααα −=−≤≤ −− 12/12/ 11 nn tTtP

    Az 1 − α megbízhatósági szintű konfidencia-intervallum:

    n

    stx n ⋅

    −± − 211

    α , átrendezve:

    n

    t

    sxn

    −⋅±

    − 211

    α

    │ 20 x mérésszám, 10 x pontosság ↓↓↓↓

    n 2 3 5 10 20 30 40 60 120 1000

    n

    tn

    −− 211

    α 9,0 2,5 1,15 0,70 0,47 0,37 0,32 0,26 0,18 0,06

    | ↑↑↑↑ 100 x mérésszám, 10 x pontosság

    α = 0,05 95 %-os konfidencia-intervallumok

    � (Feltételezett!!) függvény (= modell) paramétereinek becslése esetén

    (Maga az eredmény megadása a 24. oldal végén található.)

    Statisztikai modell: ( ) ε+= xfY − pl. REAKCIÓMECHANIZMUS

    (realizációk: ( ) iii xfy ε+= )

    Y: valószínűségi változó

    f (x): determinisztikus függvény

    ε : valószínűségi változó: M(ε) = 0 ∀x

    ( ) 22 iiD σε = ha x = xi

    (Határeset, amit szeretünk feltételezni: ,22 σσ ≡i ∀i )

    ⇒ Csak VÉLETLEN hiba esetén használható!! (Egyébként pl. ANOVA!)

    Cél: nem ε eloszlásának jellemzése, azok paramétereivel,

    hanem az f (x) modellfüggvény paramétereinek becslése, lehetőleg MVU!

  • – 22 –

    Vegyük észre: ez egy feltételes valószínűség!

    ( )ii xyP − ez adja a fenti modellt. A leggyakrabban használt becslő módszer: legkisebb négyzetes

    ( )( )∑=

    −=n

    i

    iii xfYwQ1

    2 legyen minimális

    wi súlyok számítása − hogy az f (x) paramétereire MVU-becslést kapjunk.

    feltétel: ( ) ϑϑ =ˆM és ( )ϑ̂2D minimális

    Példa: Legyen Y = α ⋅ x − modellfüggvény

    Statisztikai modell: Y = α ⋅ x + ε − ( ) 22 σε =D

    Minta: { }nnii yxyxyx ,,,,,,, 11 KK yi = α ⋅ xi + ε − ( ) 22 iiD σε =

    Legyen A az α becslő függvénye: yi = A ⋅ xi + ε (A: mintastatisztika)

    ( )∑=

    −=n

    i

    iii xAywQ1

    2

    Feladat I. A minimalizálja a Q-t: 0=∂∂

    A

    Q

    ( ) 02 =−−=∂∂

    ∑ ii

    iii xxAywA

    Q

    ( ) 02 2 =−− ∑i

    iiiii xwAyxw

    ∑∑ =i

    ii

    i

    iii xwAyxw2

    ∑=

    i

    ii

    i

    iii

    xw

    yxw

    A2

    Feladat II. A láthatóan nem csak az { }ii yx , mintától. hanem a wi súlyoktól is függ.

    Eredeti feltételünk: legyen σ2(A) minimális

    ( ) ( ) ( )ii i

    i

    i i

    yy

    Ax

    x

    AA

    22

    22

    2 σσσ ∑∑

    ∂∂

    +

    ∂∂

    =

    � Tegyük fel: C (Xi , Yi) = 0 (Mi a feltétele???)

    � Tegyük fel: ( ) ( )ii xy 22 σσ >> , ∀i (KÖVETKEZMÉNY!!!)

  • – 23 –

    Nem mindegy, mit illesztünk minek a függvényében!!

    ∑=

    ∂∂

    i

    ii

    ii

    i xw

    xw

    y

    A2

    ( )( )( )2

    2

    222

    2

    =

    i

    ii

    i

    iii

    xw

    yxw

    A

    σσ minimumfeltétel:

    ( ),0

    2

    =∂

    jw

    Aσ ∀j

    ↓ rendezzük:

    ( ) ( )ji

    iii

    i

    iiw

    yxwxwA∂

    ∂=

    ⋅ ∑∑ 222

    2

    22 σσ

    ( ) ( )jjjji

    ii yxwxxwA22222 22 σσ =

    ⋅∑

    ( )

    ( )ji

    ii

    jy

    xwA

    w2

    22

    σ

    σ ∑= – ez a jó súly

    A 0=∂∂

    A

    Q egyenlet elosztható ( ) ∑⋅

    i

    ii xwA22σ -tel:

    ( )( )j

    k

    k

    j

    y

    y

    w

    w

    2

    2

    σ

    σ=

    Tehát elegendő a ( )ii

    yw

    2

    1

    σ= választás.

    A feladat megoldása:

    ( )

    ( )∑

    =

    ==n

    i

    i

    i

    n

    i

    ii

    i

    xy

    yxy

    A

    1

    22

    12

    1

    1

    σ

    σ MVU becslés

    egyszerűbb írásmóddal:

    ∑=

    i

    ii

    i

    iii

    xw

    yxw

    A2

    ( )( )2

    2

    222

    2

    ⋅=

    i

    ii

    i

    iii

    xw

    ySxw

    AS ( )i

    iy

    w2

    1

    σ=

    Megjegyzések: 1. ( )iyS 2 becsülhető az adatokból.

  • – 24 –

    2. Ha ji ww = , azaz ( ) ( ) 222 σσσ =≡ ji yy ∀ i, j , akkor írható iww ≡= 1 .

    Ilyen esetben:

    („súlyozatlan becslés”:) ∑

    ∑= 2

    i

    i

    ii

    x

    yx

    A és ( ) ( )∑ ∑=⋅

    =i

    i

    i

    i ySx

    xAS

    2

    2

    22

    ∑i

    ix2

    Mi a helyzet, ha nem igaz ( ) ( )xy 22 σσ >> ?

    Ekkor ( ) ( )ii

    ii

    xx

    fy

    w

    22

    21 σσ

    ∂∂

    +=

    Mivel Ax

    f

    i

    =∂∂

    ⇒ iw

    1 függvénye A-nak!

    Következmény: Az A becsült értéke függ wi-ktől, a wi-k pedig A-tól!

    Ilyenkor csak iteratív módszerek használhatók! („Implicit legkisebb négyzetes becslés”)

    Egy elnevezés története: Regressziós analízis (regresszió!)

    latin: regressio = visszafejlődés, visszatérés az egyszerűbb/régi formához

    gyerekek

    szülõk

    0

    átlag

    Tu

    lajd

    onság

    Eltérés (Sir Francis Galton)

    Regressziószámítás − itt alkalmazták (publikálva) először függvény (egyenes) paramétereinek becslésére a legkisebb négyzetes módszert. (Galton úr jó statisztikus volt.)

    Azért én a legkisebb négyzetes becslés nevet jobban szeretem. Az nevén nevezi az eljárást.

    (Nevezett Galton úrnak nagy szerepe volt a statisztikai módszerek széleskörű elterjedésében.)

    Most térhetünk rá az eredmény megadásának problémájára:

    HOGYAN ADJUK MEG A BECSÜLT PARAMÉTEREKET??

    n db mérés → r paraméterre: ( )ii s ϑϑ 2,

    Mi az ( )is ϑ2 információtartalma??

  • – 25 –

    Legyen: ( )i

    iii

    ST

    ϑϑϑ −

    ; rntT −~ (a Ti n – r szabadsági fokú Student eloszlású.)

    újfent: ( ) ( )[ ] ααα −=−≤≤ −− 1212/ rnrn tTtP

    Ennek alapján az α−1 megbízhatósági szintű konfidencia-intervallum:

    ( ) ( )irni St ϑαϑ ⋅−± − 21ˆ

    n 1 2 3 5 10 20 40 100 1000

    tn – r (1 – α / 2 ) 12,7 4,3 3,2 2,6 2,23 2,09 2,02 1,98 1,96

    α = 0,05 95 %-os konfidencia-intervallumok

    Mi a helyzet a súlyozással?

    Milyen a mért x-ek és f (x)-ek hibája?

    1. Ha a kettő jelentősen eltér, legyen x a kisebb, y a nagyobb hibájú.

    2. Ha egyik hibája a másikhoz képest nem elhanyagolható,

    akkor implicit LSQ becslés kell. SÚLYRUTIN

    3. Ha a hibák azonosak: ji σσ ≡ ∀ i, j

    ji σσ11

    = wi = wj 1=j

    i

    w

    w SÚLYOZATLAN

    5. Ha a hibák azonosak, de transzformálunk: a hibák a mért érték függvényei lesznek

    (ld. hibaterjedés)

    pl. relatív hiba 2

    1

    ywi = Poisson-eloszlású minta

    ywi

    1= , stb.....

    6. Ha a hibák nem azonosak: az MVU becsléshez meg kell adni a hibákat is: )(1 2 ii yw σ=

    7. Ha különböző súlyozású becslési eredményeket hasonlítunk össze,

    célszerű a 1≡iw -re ( )nwi =∑ -re normálás.

    Ez meg itt a vége