wykład 2 wrocław, 11 x 2006
DESCRIPTION
Wykład 2 Wrocław, 11 X 2006. Wpływ przekształceń Co się stanie ze średnią i odchyleniem standardowym gdy zmienimy jednostki ? stopnie Celsius za stopnie Fahrenheit a dol ary 1,000 dolarów wartość faktyczna odległość od minimum cm : mm, in, nm, m, ft ; dol ary : euro. - PowerPoint PPT PresentationTRANSCRIPT
Wykład 2 Wrocław, 11 X 2006
Wpływ przekształceńCo się stanie ze średnią i odchyleniem standardowym gdy zmienimy jednostki ?• stopnie Celsiusza stopnie
Fahrenheita • dolary 1,000 dolarów• wartość faktyczna odległość od
minimum• cm : mm, in, nm, m, ft; dolary : euro
Zmiana wartości wynikająca ze zmiany jednostek dana jest zwykle funkcją liniową:
y’ = ay + c
Przykłady:
• y’ = 1.8 y + 32
• y’ = 1/1000 y ( + 0)
• y’ = (1)y - ymin
Liniowa transformacja zmiennych, cd.
• Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć (|a| >1), ścieśnić (|a|<1), przesunąć (c<>0) i obrócić (a<0).
Wpływ stałej (odejmujemy 20)
y Dev. y’ Dev
25 -1 5 -1
26 0 6 0
28 2 8 2
25 -1 5 -1
Średnia 26 6
Liniowa transformacja zmiennych, cd.
• Średnia
zmienia się tak jak y. Mamy:
y’ = ay + c• Odchylenie standardowe
s zmienia się tylko w zależności od współczynnika a. Stała c nie ma wpływu na odchylenie standardowe, ponieważ zależy ono jedynie od odchyleń od średniej. Mamy:
s’ = |a| s
y
Liniowa transformacja zmiennych, cd.
• Wariancja próbkowa
Wariancja jest kwadratem SD. Mamy:
s2’ = a2s2
• Przykład:Y- temperatura w F: = 98.6, s = 0.9, s2 = 0.81 Pytanie 1: Oblicz średnią, odchylenie standardowe i
wariancję dla tych samych danych wyrażonych w stopniach Celsjusza.
y
Odpowiedź
Standardyzacja
• Pytanie 2: Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób
Y' = (Y- )/s =(Y-98.6)/0.9 ?
• Jest to transformacja liniowa: Y' = 1/s Y - y/s.• Odpowiedź:
y
Liniowa transformacja zmiennych: inne statystyki
• Funkcja liniowa zmienia:medianę i kwartyle tak jak średnią,rozstęp i IQR tak jak odchylenie
standardowe.
Transformacje nieliniowe
• Funkcje nieliniowe (np. logarytm) zmieniają kształt histogramu i na ogół nie ma dla nich prostych formuł umożliwiających obliczenie nowej średniej i nowego odchylenia standardowego.
• Parametry te liczymy z definicji korzystając z „nowego’’ zbioru danych.
• Przykład : dla Y’=log(Y) na ogóły’ ≠ logy• Z medianą i kwartylami jest lepiej...• Czasami używamy funkcji nieliniowych, aby
przekształcić skośne dane w bardziej symetryczne.
Wnioskowanie statystyczne Próba a populacja
• Populacja: – Zbiór, z którego losujemy próbę i który chcemy
opisać.– Czasami rzeczywista, czasami abstrakcyjna (np.
„nieskończenie duża próba”) .• Próba:
– Podzbiór populacji.– Próba powinna być reprezentatywna dla populacji.
• Wnioskowanie statystyczne:– Wnioskowanie o populacji w oparciu o próbę.
Populacja
Próbay s
Próbkowanie
Wnioskowanie
Populacja Próba
Grupa wykładowa 10 losowo wybranych studentów
Wszyscy pacjenci biorący Prozac 30 pacjentów biorących Prozac
``wszystkie’’ rzuty kostkami 25 rzutów kostką
Wszystkie owocówki ze śmietnika, alboWszystkie owocówki w okolicy
Owocówki złapane na śmietniku
Parametry : ,
Statystyki y, s
Parametry populacji
• μ = średnia w populacji, μ=EY, wartość oczekiwana zmiennej Y
• σ = odchylenie standardowe w populacji,
σ =(Var Y)1/2, ...i inne.
• Statystyki z próby są estymatorami, służą do oceny parametrów całej populacji.
Przykład
• Grupy krwi u 3696 osób żyjących w Anglii.
• Około 44% ludzi w próbie ma grupę krwi A.• A w Anglii??
– Czy nie było systematycznego błędu przy próbkowaniu?– Czy rozmiar próby był dość duży?
Grupa krwi Liczność
A 1,634
B 327
AB 119
O 1616
suma 3696
Możliwe błędy przy próbkowaniu:
• Próba złożona z przyjaciół i pracowników może nie być reprezentatywna.
Mimo tego...
• Grupy krwi mogą być reprezentatywne.
Ale już...
• Pomiary ciśnienia nie byłyby reprezentatywne (ciśnienie na ogół wzrasta z wiekiem).
Populacja a próba
• Średnia z próbyy na ogół różni się od wartości oczekiwanej μ=EY (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera (Mocne Prawo Wielkich Liczb).
• Średnia z próby jest estymatorem wartości oczekiwanej.
• Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s2 są estymatorami odpowiednich parametrów w populacji: σ i σ2=Var Y.
Przykład
• Rozmiar populacji=50, średnia w populacji =26.48• Dane: 25.5 17.8 36.7 29.8 40.7 26.0 7.7 27.7 10.3
22.3 45.4 43.4 20.2 42.2 44.5 1.6 5.7 48.6 23.9 27.2 17.0 19.5 47.7 3.9 39.3 9.2 30.7 18.9 25.7 32.8 16.8 11.7 13.9 4.9 49.4 30.5 20.7 38.1 25.6 40.7 45.0 30.8 11.3 34.0 49.7 21.3 3.5 28.7 19.7 35.6
• stopniowo powiększamy próbę losową do rozmiarów n=10, 20, 30, 40
• otrzymana średnia z próby: 23.5 (dla n=10), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40)
Histogram z populacji a histogram próbkowy
• Dane dyskretne (klasy) Oznaczamy: pi=frakcja (częstość) osobników w
całej populacji w i-tej kategorii. pi można ustalić w oparciu o histogram
skonstruowany dla całej populacji. Oznaczamy: = estymator obliczony w oparciu o
histogram z próby (zaobserwowana częstość w danej kategorii).
ip̂
Przykład
n
10 0.1 0.3
20 0.1 0.35
40 0.2 0.25
80 0.15 0.225
160 0.1625 0.1875
320 0.1781 0.1938
5p̂
Rozmiar populacji =10000. 5 klas o tej samej częstości pi= (?). W tabeli tylko kategorie 1. i 5.
1p̂
n=10
Próbkowanie, cd.
• Prosta próba losowa:
Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem.
Wybory poszczególnych osobników są od siebie niezależne.
Jak wybrać prostą próbę losową:
• Mechanizm losujący, np.:– Przyznajemy numer każdemu osobnikowi– Zapisujemy numery na kulach– Mieszamy kule w urnie– Losujemy kule=numery=osobników, tyle razy, ile
wynosi rozmiar próby• Do losowania możemy również użyć komputera lub
gotowej tablicy liczb (numerów) losowych (zob. dalej).
• Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze.
Błędy w póbkowaniu, cd,Przykład 1 (Ochotnicy)
• Dziennikarka Ann Landers spytała swoich czytelników „Gdybyście mogli zacząć je-szcze raz: czy mielibyście znowu dzieci?”
• Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie!
• Populacja: wszyscy rodzice w USA
Przykład 1 (Ochotnicy) cd.
• Próba: pewna część populacji, która zdecydowała się odpisać, n=10,000.
• Czasopismo Newsday przeprowadziło „statystycznie zaplanowaną” ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak!
• Ochotnicy: bardzo zła reprezentatywność (badanie bezwartościowe).
Przykład 2
Przewidywanie wyników wyborów prezydenckich w USA, 1936:
• Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących)
• Odpowiedziało 2.4 miliona:– Przewidywanie: Landon 57%, Roosevelt 43%– Wynik wyborów: Roosevelt 62%, Landon 38%
• Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933
Przyczyny błędu Literary Digest:
• Złe (dyskryminujące) próbkowanie– Użyto książek telefonicznych, list
członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów
• Brak odpowiedzi– Tylko 24% odpowiedziało (niemal wyłącznie
Republikanie)
Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób.
Obciążenie w próbkowaniu
• Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby.
• Losowy wybór elementów do próby zwykle eliminuje takie obciążenie.
Warianty losowego wyboru: Stratyfikacja
• Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej warstwie.
• Przykłady warstw: – studenci & studentki– grupy zawodowe– regiony geograficzne
Podstawowe metody estymacji(patrz tablica)
• Metoda momentów
• Metoda największej wiarogodności