wykład 2 wrocław, 11 x 2006

Wykład 2 Wrocław, 11 X 2006

Wpływ przekształceńCo się stanie ze średnią i odchyleniem standardowym gdy zmienimy jednostki ?• stopnie Celsiusza stopnie

Fahrenheita • dolary 1,000 dolarów• wartość faktyczna odległość od

minimum• cm : mm, in, nm, m, ft; dolary : euro

Zmiana wartości wynikająca ze zmiany jednostek dana jest zwykle funkcją liniową:

y’ = ay + c

Przykłady:

• y’ = 1.8 y + 32

• y’ = 1/1000 y ( + 0)

• y’ = (1)y - ymin

Liniowa transformacja zmiennych, cd.

• Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć (|a| >1), ścieśnić (|a|<1), przesunąć (c<>0) i obrócić (a<0).

Wpływ stałej (odejmujemy 20)

y Dev. y’ Dev

25 -1 5 -1

26 0 6 0

28 2 8 2

25 -1 5 -1

Średnia 26 6


• Średnia

zmienia się tak jak y. Mamy:

y’ = ay + c• Odchylenie standardowe

s zmienia się tylko w zależności od współczynnika a. Stała c nie ma wpływu na odchylenie standardowe, ponieważ zależy ono jedynie od odchyleń od średniej. Mamy:

s’ = |a| s

y


• Wariancja próbkowa

Wariancja jest kwadratem SD. Mamy:

s2’ = a2s2

• Przykład:Y- temperatura w F: = 98.6, s = 0.9, s2 = 0.81 Pytanie 1: Oblicz średnią, odchylenie standardowe i

wariancję dla tych samych danych wyrażonych w stopniach Celsjusza.

y

Odpowiedź

Standardyzacja

• Pytanie 2: Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób

Y' = (Y- )/s =(Y-98.6)/0.9 ?

• Jest to transformacja liniowa: Y' = 1/s Y - y/s.• Odpowiedź:

y

Liniowa transformacja zmiennych: inne statystyki

• Funkcja liniowa zmienia:medianę i kwartyle tak jak średnią,rozstęp i IQR tak jak odchylenie

standardowe.

Transformacje nieliniowe

• Funkcje nieliniowe (np. logarytm) zmieniają kształt histogramu i na ogół nie ma dla nich prostych formuł umożliwiających obliczenie nowej średniej i nowego odchylenia standardowego.

• Parametry te liczymy z definicji korzystając z „nowego’’ zbioru danych.

• Przykład : dla Y’=log(Y) na ogóły’ ≠ logy• Z medianą i kwartylami jest lepiej...• Czasami używamy funkcji nieliniowych, aby

przekształcić skośne dane w bardziej symetryczne.

Wnioskowanie statystyczne Próba a populacja

• Populacja: – Zbiór, z którego losujemy próbę i który chcemy

opisać.– Czasami rzeczywista, czasami abstrakcyjna (np.

„nieskończenie duża próba”) .• Próba:

– Podzbiór populacji.– Próba powinna być reprezentatywna dla populacji.

• Wnioskowanie statystyczne:– Wnioskowanie o populacji w oparciu o próbę.

Populacja

Próbay s

Próbkowanie

Wnioskowanie

Populacja Próba

Grupa wykładowa 10 losowo wybranych studentów

Wszyscy pacjenci biorący Prozac 30 pacjentów biorących Prozac

``wszystkie’’ rzuty kostkami 25 rzutów kostką

Wszystkie owocówki ze śmietnika, alboWszystkie owocówki w okolicy

Owocówki złapane na śmietniku

Parametry : ,

Statystyki y, s

Parametry populacji

• μ = średnia w populacji, μ=EY, wartość oczekiwana zmiennej Y

• σ = odchylenie standardowe w populacji,

σ =(Var Y)1/2, ...i inne.

• Statystyki z próby są estymatorami, służą do oceny parametrów całej populacji.

Przykład

• Grupy krwi u 3696 osób żyjących w Anglii.

• Około 44% ludzi w próbie ma grupę krwi A.• A w Anglii??

– Czy nie było systematycznego błędu przy próbkowaniu?– Czy rozmiar próby był dość duży?

Grupa krwi Liczność

A 1,634

B 327

AB 119

O 1616

suma 3696

Możliwe błędy przy próbkowaniu:

• Próba złożona z przyjaciół i pracowników może nie być reprezentatywna.

Mimo tego...

• Grupy krwi mogą być reprezentatywne.

Ale już...

• Pomiary ciśnienia nie byłyby reprezentatywne (ciśnienie na ogół wzrasta z wiekiem).

Populacja a próba

• Średnia z próbyy na ogół różni się od wartości oczekiwanej μ=EY (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera (Mocne Prawo Wielkich Liczb).

• Średnia z próby jest estymatorem wartości oczekiwanej.

• Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s2 są estymatorami odpowiednich parametrów w populacji: σ i σ2=Var Y.

Przykład

• Rozmiar populacji=50, średnia w populacji =26.48• Dane: 25.5 17.8 36.7 29.8 40.7 26.0 7.7 27.7 10.3

22.3 45.4 43.4 20.2 42.2 44.5 1.6 5.7 48.6 23.9 27.2 17.0 19.5 47.7 3.9 39.3 9.2 30.7 18.9 25.7 32.8 16.8 11.7 13.9 4.9 49.4 30.5 20.7 38.1 25.6 40.7 45.0 30.8 11.3 34.0 49.7 21.3 3.5 28.7 19.7 35.6

• stopniowo powiększamy próbę losową do rozmiarów n=10, 20, 30, 40

• otrzymana średnia z próby: 23.5 (dla n=10), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40)

Histogram z populacji a histogram próbkowy

• Dane dyskretne (klasy) Oznaczamy: pi=frakcja (częstość) osobników w

całej populacji w i-tej kategorii. pi można ustalić w oparciu o histogram

skonstruowany dla całej populacji. Oznaczamy: = estymator obliczony w oparciu o

histogram z próby (zaobserwowana częstość w danej kategorii).

ip̂

Przykład

n

10 0.1 0.3

20 0.1 0.35

40 0.2 0.25

80 0.15 0.225

160 0.1625 0.1875

320 0.1781 0.1938

5p̂

Rozmiar populacji =10000. 5 klas o tej samej częstości pi= (?). W tabeli tylko kategorie 1. i 5.

1p̂

Próbkowanie, cd.

• Prosta próba losowa:

Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem.

Wybory poszczególnych osobników są od siebie niezależne.

Jak wybrać prostą próbę losową:

• Mechanizm losujący, np.:– Przyznajemy numer każdemu osobnikowi– Zapisujemy numery na kulach– Mieszamy kule w urnie– Losujemy kule=numery=osobników, tyle razy, ile

wynosi rozmiar próby• Do losowania możemy również użyć komputera lub

gotowej tablicy liczb (numerów) losowych (zob. dalej).

• Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze.

Błędy w póbkowaniu, cd,Przykład 1 (Ochotnicy)

• Dziennikarka Ann Landers spytała swoich czytelników „Gdybyście mogli zacząć je-szcze raz: czy mielibyście znowu dzieci?”

• Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie!

• Populacja: wszyscy rodzice w USA

Przykład 1 (Ochotnicy) cd.

• Próba: pewna część populacji, która zdecydowała się odpisać, n=10,000.

• Czasopismo Newsday przeprowadziło „statystycznie zaplanowaną” ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak!

• Ochotnicy: bardzo zła reprezentatywność (badanie bezwartościowe).

Przykład 2

Przewidywanie wyników wyborów prezydenckich w USA, 1936:

• Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących)

• Odpowiedziało 2.4 miliona:– Przewidywanie: Landon 57%, Roosevelt 43%– Wynik wyborów: Roosevelt 62%, Landon 38%

• Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933

Przyczyny błędu Literary Digest:

• Złe (dyskryminujące) próbkowanie– Użyto książek telefonicznych, list

członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów

• Brak odpowiedzi– Tylko 24% odpowiedziało (niemal wyłącznie

Republikanie)

Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób.

Obciążenie w próbkowaniu

• Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby.

• Losowy wybór elementów do próby zwykle eliminuje takie obciążenie.

Warianty losowego wyboru: Stratyfikacja

• Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej warstwie.

• Przykłady warstw: – studenci & studentki– grupy zawodowe– regiony geograficzne

Podstawowe metody estymacji(patrz tablica)

• Metoda momentów

• Metoda największej wiarogodności

wykład 2 wrocław, 11 x 2006

Documents