statistik f ur studierende der sozialwissenschaften ...€¦ · statistik f ur studierende der...
TRANSCRIPT
Statistik fur Studierendeder SozialwissenschaftenWintersemester 2010/2011
F. Marohn
,,Es ist mir noch heute ratselhaft,
dass man herausbringt,
was sechzig Millionen Menschen denken,
wenn man zweitausend Menschen befragt.
Erklaren kann ich das nicht. Es ist eben so.”
Elisabeth Noelle–Neumann
Meinungsforscherin
StatSoz 1
Vorlesung und Aufgabenblatter im Internet unter
der Homepage des Lehrstuhls fur Statistik:
http://statistik.mathematik.uni-wuerzburg.de/
Vorlesungsverzeichnis WS 2010/2011
Vorlesung: Statistik fur Studierende der Sozialwis-senschaften
Mathematische Grundlagen: Grundlagen
Vorlesung: Kapitel 1, Kapitel 2, ...
Ubung: Blatt 1, Blatt 2, ...
StatSoz 2
1 Einleitung
1.1 Was soll Statistik?
1.2 Ziele
1.3 Vorkenntnisse
1.4 Literatur
1.1 Was soll Statistik?
In den empirischen Wissenschaften werden zur
Beantwortung vieler Fragestellungen bzw. zur
Uberprufung allgemeiner theoretischer Aussagen
Daten (Beobachtungen, Messwerte)
gesammelt.
Daten werden immer an einzelne
Untersuchungseinheiten (Objekte, Personen)
gewonnen.
StatSoz 3
Fragen der Statistik:
• Wie sollen welche Daten erhoben werden?
(→Datenerhebung)
• Wie soll man Daten beschreiben?
(→Beschreibende Statistik)
• Welche Schlusse lassen sich aus den Daten
ziehen? (→Schließende Statistik)
StatSoz 4
• Datenerhebung (kein zentraler Gegenstand
dieser Vorlesung)
(1) Ausarbeitung eines Fragenkatalogs: Ver-
standlichkeit, Prazision und ,,Neutralitat” der
Fragen sind von entscheidender Bedeutung.
Weitere Punkte: Umfang, Reihenfolge, Ant-
wortauswahl (Kategorien), Kontrollfragen
(2) Ziehung einer Stichprobe: Eine Stichpro-be ist eine Auswahl aus einer Grundgesamt-heit (= Menge aller potentiellen Untersu-
chungseinheiten); die Auswahl muss ,,zufallig”
erfolgen (Stichwort: Reprasentativitat).
Bemerkung: Vollige Kenntnis uber die Grund-
gesamtheit erhalt man nur durch eine Vollerhe-bung (Ausnahme).
StatSoz 5
• Beschreibende (deskriptive) Statistik
Extraktion der Information, die in den Daten
steckt, durch Datenaggregation. Dies geschieht
durch die Berechnung von
– absoluten, relativen bzw. prozentualen
Haufigkeiten (Erstellung einer empirischenHaufigkeitsverteilung); graphische Darstel-
lungsformen: Balken– und Tortendiagramm,
Histogramm.
StatSoz 6
– statistischen Kennzahlen (Mittelwert,...)
Zahlenbeispiel:
Stichprobe von funf Single–Haushalten
Daten (Einkommen in Tausend e):
2.2, 2.0, 1.6, 2.4, 1.8
Mittelwert (arithmetisches Mittel):
2.2 + 2.0 + 1.6 + 2.4 + 1.8
5= 2
StatSoz 7
• Schließende (induktive) Statistik
Frage: Wie gelangt man von der Stichprobe
zu einer allgemein gultigen Aussage, also zu
einer Aussage, die sich auf die Grundgesamtheit
bezieht?
Stichprobe?−→ Grundgesamtheit
Beispiel:
Interessierende Große (unbekannt): Mittelwert
einer Grundgesamtheit (etwa durchschnittliches
Realeinkommen aller Single–Haushalte einer
Stadt)
Empirische Große (bekannt): Mittelwert der
Stichprobe (durchschnittliches Realeinkommen
der Single–Haushalte aus der Stichprobe)
StatSoz 8
Beachte: Daten sind zufallsabhangig in dem
Sinne, dass eine andere Auswahl – also eine an-
dere Stichprobe – im Allgemeinen zu anderen
Daten fuhren wurde. In den Daten steckt also
eine gewisse Variabilitat, die es bei der Beant-
wortung obiger Frage zu berucksichtigen gilt!
Zahlenbeispiel:
Grundgesamtheit
Einheit WertA 2.2B 2.0C 1.6D 2.4E 1.8
Mittelwert=2
Stichprobe: A,C,D
Stichproben–Mittelwert:2.2 + 1.6 + 2.4
3= 2.07
StatSoz 9
Mogliche Stichproben vom Umfang 3:
Stichprobe Daten MittelwertABC 2.2, 2.0, 1.6 1.93ABD 2.2, 2.0, 2.4 2.20ABE 2.2, 2.0, 1.8 2.00ACD 2.2, 1.6, 2.4 2.07ACE 2.2, 1.6, 1.8 1.87ADE 2.2, 2.4, 1.8 2.13BCD 2.0, 1.6, 2.4 2.00BCE 2.0, 1.6, 1.8 1.80BDE 2.0, 2.4, 1.8 2.07CDE 1.6, 2.4, 1.8 1.93
Konsequenz: Es besteht eine Unsicherheit beim
induktiven Schließen von der Stichprobe auf die
Grundgesamtheit.
Naturliche Forderung an eine Stichprobe: Sie soll
moglichst reprasentativ, d.h. unverzerrt sein,
soll also die Verhaltnisse in der Grundgesamtheit
moglichst gut widerspiegeln.
StatSoz 10
Aber: Nur in den seltensten Fallen liegt eine
vollig reprasentative Stichprobe vor. Man hat es
daher immer mit einem
Stichprobenfehler (sampling error)
zu tun.
Der Stichprobenfehler beruht auf zufallige Ab-
weichungen der einzelnen Stichproben von der
Grundgesamtheit. Dieser Fehler ist unvermeid-
lich. Stichprobenfehler sind keine Fehler im ei-
gentlichen Sinne (Wahl einer ,,falschen” Stich-
probe oder andere methodische Fehler).
Bei einer Zufallsauswahl ist es moglich (mit-
tels der Wahrscheinlichkeitsrechnung), eine
Abschatzung fur den Stichprobenfehler anzuge-
ben.
Tendenziell gilt: Je großer der Stichprobenum-
fang, desto reprasentativer die Stichprobe.
StatSoz 11
Die Fragen, die aufgrund von Daten beantwortet
werden sollen, sind haufig von folgendem Typ:
(i) Ein–Stichproben–Problem Wie lasst sich
eine uns interessierende, aber unbekannte
Große (z. B. Mittelwert oder Anteilswert ei-
ner Grundgesamtheit) mittels einer Stichprobe
schatzen und wie genau ist diese Schatzung?
Beispiel: Eine Umfrage in einem Stadtteil er-
gab, dass 42 von 200 Pendlern, also 21%,
regelmaßig offentliche Verkehrsmittel benut-
zen. Wie groß ist der Anteil der Pendler dieses
Stadtteils, die regelmaßig offentliche Verkehrs-
mittel benutzen?
StatSoz 12
(ii) Zwei–Stichproben–Problem Sind Unter-
schiede von zwei Stichproben–Mittelwerten
,,rein zufalliger” Natur, d.h. sind Unterschiede
nur auf die Zufalligkeit der Daten zuruck-
zufuhren? Oder liegt ein systematischer, be-
deutender Unterschied vor, der einer Interpre-
tation wert ist? Unterscheiden sich also zwei
Grundgesamtheiten hinsichtlich ihrer Mittel-
werte?
Beispiel: 12 Kinder reicher Eltern und 12
Kinder armer Eltern werden gebeten, den
Durchmesser (in mm) eines 1 Euro–Stuckes
zu schatzen. Die folgenden Schatzungen wur-
den abgegeben:
StatSoz 13
reich arm
20 24
23 23
23 26
21 28
22 27
25 27
19 25
24 18
20 21
26 26
24 25
25 29
Mittelwert (reich)= 22.67
Mittelwert (arm) = 24.92
Sind die durchschnittlichen Schatzwerte von
armen Kinder signifikant großer als die von
reichen Kinder?
StatSoz 14
(iii) Statistischer Zusammenhang Gibt es einen
Zusammenhang zwischen zwei Großen X und
Y ?
Beispiel: Hat die Schulbildung (X) einen Ein-
fluss auf das Umweltbewusstsein (Y )? In ei-
ner einschlagigen EMNID–Umfrage wurde da-
zu 2004 ,,zufallig” ausgewahlten Personen die
Frage gestellt, wie sehr sie sich durch Umwelt-
schadstoffe beeintrachtigt fuhlten (mit den
vier Kategorien uberhaupt nicht, etwas, mit-
tel, sehr).
unge– Haupt– Real– Gym– Hoch–lernt schule schule nasium schule
nicht 212 434 169 79 45etwas 85 245 146 93 69mittel 38 85 74 56 48sehr 20 35 30 21 20
Tabelle 1–1 EMNID–Umfrageergebnisse
StatSoz 15
Zur Beantwortung dieser Fragen benotigt man
theoretische Verteilungen (Modelle), die auf
dem Begriff der Wahrscheinlichkeit aufbau-
en. Theoretische Verteilungen beschreiben den
,,Zufall”. Empirische Verteilungen (relativeHaufigkeiten) sind dazu ungeeignet!
Der ,,Zufall” lasst sich beschreiben. Denn: Er
folgt gewissen ,,Gesetzmaßigkeiten” (auch der
Zufall kann nicht machen was er will, Zufall
bedeutet nicht Willkur!) und zur Beschreibung
dieser ,,Gesetzmaßigkeiten” dienen die Model-
le der Wahrscheinlichkeitsrechnung. Mit wach-
senden Stichprobenumfangen lassen sich Ge-
setzmaßigkeiten erkennen (Stabilisierung):
StatSoz 16
Theoretische Verteilung:
ϕ(x) =1√2π· e−x2/2
ϕ ist die sogenannte Gaußsche Glockenkurve(Dichte der Standard–Normalverteilung).
Abbildung 1–1 Die Dichte ϕ
StatSoz 17
Ein Modell ist aus der beobachtbaren Wirklich-
keit nicht logisch ableitbar. Es gibt daher auch
kein richtiges oder falsches Modell (dazu fehlt
ein Kriterium), sondern nur ein geeignetes oder
weniger geeignetes Modell. Welches Modell man
wahlt, hangt von verschiedenen situationsbezo-
genen Faktoren ab.
Die Verfahren der schließenden Statistik
(Intervallschatzungen, Tests) hangen von dem
gewahlten Modell und den damit verbundenen
Annahmen ab. Es ist daher wichtig, sich mit
einigen wichtigen Modellen der Wahrscheinlich-
keitsrechnung vertraut zu machen!
StatSoz 18
Aussagen der schließenden Statistik sindWahrscheinlichkeitsaussagen uber die Ver-einbarkeit der in den Daten erfassten Rea-litat mit den Modellen.
Durch die Einbettung der Probleme in einen
wahrscheinlichkeitstheoretischen Rahmen wird
die Unsicherheit statistischer Aussagen nicht auf-
gehoben, wohl aber quantitativ erfassbar!
StatSoz 19
Beispiel: (Fortsetzung) Die Stichprobe ergab
einen Anteilswert von Pendlern, die offentliche
Verkehrsmittel benutzen, von 0.21.
Statistische Aussage: Mit einer Wahrscheinlich-
keit von 0.95 liegt der wahre (aber uns unbe-
kannte) Anteilswert p im Intervall [0.15, 0.27].
Rein logisch gesehen gilt naturlich:
Entweder p ∈ [0.15, 0.27] oder p /∈ [0.15, 0.27]
Nur eine dieser beiden Aussagen kann richtig
sein. Aber: Wir wissen nicht welche, da wir die
Zahl p nicht kennen (Unsicherheit)!!!
Wir konnen nur sagen, dass der Anteilswert p mit
einer gewissen Wahrscheinlichkeit in einem (von
den Daten abhangenden) Intervall liegt (Quan-
tifizierung der Unsicherheit).
StatSoz 20
1.2 Ziele
– Kennenlernen der wichtigsten Arten, Daten
darzustellen und zu beschreiben
– Grundidee von Wahrscheinlichkeitsmodellen
verstehen, Kennenlernen der gebrauchlichsten
Modelle der Wahrscheinlichkeitsrechnung
– Grundbegriffe und Grundaufgaben der schlie-
ßenden Statistik verstehen, Kennenlernen
grundlegender statistischer Verfahren (Punkt–
und Intervallschatzungen, Tests); kompe-
tenter Umgang mit den Begriffen statistischeSignifikanz und p–Wert
– Kritikfahigkeit und Sensibiliat gegenuber sta-
tistischen Anwendungen
– Erster Umgang mit statistischer Software
(SPSS); Output–Exegese (p–Wert,...)
StatSoz 21
– Basis zur selbststandigen Einarbeitung in wei-
tere (und kompliziertere) Methoden der stati-
stischen Datenanalyse
1.3 Vorkenntnisse
Kenntnisse der Schulmathematik sollten aus-
reichen. Allerdings: Ein vertieftes Verstandnis
(weiterfuhrender) statistischer Verfahren ist oh-
ne (hohere) Mathematik und einem gewissen
Formalismus nicht moglich.
Mathematik so wenig wie notig. Aber:
Ganz ohne Mathematik geht es nicht!
Und...
Mit Zahlen umgehen konnen schadet nie!
StatSoz 22
1.4 Literatur
Bortz, J. (2010): Statistik fur Human– und
Sozialwissenschaftler, 7. Auflage, Springer,
Berlin–Heidelberg.
Diaz–Bone, R. (2006) Statistik fur Soziolo-
gen, UVK Verlagsgesellschaft, Konstanz.
Hafner, R. (2000) Statistik fur Sozial– und
Wirtschaftswissenschaften, Band 1, Springer,
Wien–New York.
Kahler, W. M. (2004): Statistische Daten-
analyse, Vieweg, Wiesbaden.
StatSoz 23
Nachschlagewerke (rezeptartige Beschreibun-
gen, Tafeln von Verteilungen, Tabellen von kri-
tischen Werten):
Hartung J., Elpelt, B. und Klosener,
K.-H. (2002): Statistik. Lehr– und Hand-
buch der angewandten Statistik, 13. Auflage,
Oldenbourg–Verlag, Munchen.
Sheskin, D.J. (2004): Parametric and Non-
parametric Statistical Procedures, 3rd Edition,
Chapman& Hall, Boca Raton.
StatSoz 24