deskriptive statistik und explorative datenanalyse tu-dresden institut für soziologie lehrstuhl...
Post on 05-Apr-2015
113 Views
Preview:
TRANSCRIPT
Deskriptive Statistik Deskriptive Statistik und Explorative und Explorative DatenanalyseDatenanalyse
TU-DresdenTU-DresdenInstitut für SoziologieInstitut für SoziologieLehrstuhl für Methoden der empirischen SozialforschungLehrstuhl für Methoden der empirischen SozialforschungForschungsseminar Berufserfolg- und verläufe von Forschungsseminar Berufserfolg- und verläufe von HochschulabsolventenHochschulabsolventenReferentinnen: Betje Schulze, Anke BaronReferentinnen: Betje Schulze, Anke Baron
Deskriptive StatistikDeskriptive Statistik Die beschreibende (descriptive) Statistik versucht, große
und unübersichtliche, experimentell sowie durch Beobachtung oder Befragung gewonnene Datenmengen durch graphische Darstellung auf einen Blick verständlich zu machen.
Im Vordergrund stehen dabei Informationen über dieIm Vordergrund stehen dabei Informationen über die
Verteilung der Merkmalsausprägungen einzelner Verteilung der Merkmalsausprägungen einzelner Merkmale –Merkmale –
univariate Statistik – und der Kombinationen vonunivariate Statistik – und der Kombinationen von
Merkmalsausprägungen mehrerer Merkmale – bi- oderMerkmalsausprägungen mehrerer Merkmale – bi- oder
multivariate Statistik (Zusammenhänge, Abhängigkeiten).multivariate Statistik (Zusammenhänge, Abhängigkeiten). Die verwendeten Techniken hängen wesentlich vomDie verwendeten Techniken hängen wesentlich vom
Skalenniveau der einbezogenen Merkmale (Variablen) ab.Skalenniveau der einbezogenen Merkmale (Variablen) ab.
Explorative DatenanalyseExplorative Datenanalyse
Mittels einer guten Beschreibung, Mittels einer guten Beschreibung, wird der Datensatz auf wird der Datensatz auf Besonderheiten hin analysiertBesonderheiten hin analysiert
Reduktion von hochdimensionalen Reduktion von hochdimensionalen DatenDaten
Wird oft der schließenden Statistik Wird oft der schließenden Statistik vorgeschaltet vorgeschaltet
Man bekommt eine Idee davon, was Man bekommt eine Idee davon, was man eventuell mit der schließenden man eventuell mit der schließenden Statistik beweisen möchte Statistik beweisen möchte
SkalenniveausSkalenniveaus
NominalskalaNominalskala: - Klassifikation von Objekten : - Klassifikation von Objekten nach Gleichheit oder Verschiedenheit nach Gleichheit oder Verschiedenheit (Äquivalenzklassen)(Äquivalenzklassen)
OrdinalskalaOrdinalskala: - es wird eine Rangordnung : - es wird eine Rangordnung der Objekte bezüglich einer Eigenschaft der Objekte bezüglich einer Eigenschaft vorausgesetzt (Rangskala)vorausgesetzt (Rangskala)
IntervallskalaIntervallskala: - es wird nicht nur eine : - es wird nicht nur eine Aussage über die Rangfolge getroffen, Aussage über die Rangfolge getroffen, zusätzlich informieren die Skalenwerte auch zusätzlich informieren die Skalenwerte auch über die Abstände zwischen den Messwertenüber die Abstände zwischen den Messwerten
VerhältnisskalaVerhältnisskala: - es werden Aussagen : - es werden Aussagen über Verhältnisse, d.h. Quotienten von über Verhältnisse, d.h. Quotienten von Skalenwerten getroffen; Skalenwerten getroffen;
Skalen- und DatenniveausSkalen- und DatenniveausSkalentypSkalentyp DatennivDatenniv
eaueauInterpretInterpretation von ation von SkalenweSkalenwertenrten
MittelwerMittelwertt
StreuungStreuungs-maßes-maße
BeispieleBeispiele
Nominal-Nominal-skalaskala
NominalNominal
(qualitati(qualitativ)v)
gleich gleich oder oder verschiedeverschiedenn
ModalwertModalwert GeschlechGeschlecht,t,
Kinder Kinder (ja/nein)(ja/nein)
Ordinals-Ordinals-kalakala
OrdinalOrdinal
(qualitati(qualitativ)v)
größer, größer, kleiner kleiner oder oder gleichgleich
MedianMedian Quartil-Quartil-abstandabstand
Schulab-Schulab-schlüsseschlüsse
Intervall-Intervall-skalaskala
MetrischMetrisch
(quantita(quantitativ)tiv)
VergleichbVergleichbar-keit von ar-keit von
DifferenzeDifferenzenn
Arith-Arith-metisches metisches MittelMittel
Standard-Standard-abweichunabweichung/ Varianzg/ Varianz
TemperatuTemperaturr
VerhältniVerhältnis-skalas-skala
MetrischMetrisch
(quantita(quantitativ)tiv)
Gleichheit Gleichheit von von VerhältnisVerhältnissensen
Arith-Arith-metisches metisches
MittelMittel
Variations-Variations-koeffizientkoeffizient
EinkommeEinkommenn
Univariate DatenanalyseUnivariate Datenanalyse
Pro Objekt i (i=1, …, n; n Pro Objekt i (i=1, …, n; n Stichprobenumfang) wird ein Stichprobenumfang) wird ein Merkmal X durch Messung, Merkmal X durch Messung, Befragung oder Beobachtung Befragung oder Beobachtung erhobenerhoben
Z.B. Einkommen, Geschlecht, Z.B. Einkommen, Geschlecht, Adäquanz, VollbeschäftigungAdäquanz, Vollbeschäftigung
Das Resultat ist jeweils ein Wert Das Resultat ist jeweils ein Wert (Merkmalsausprägung) xi(Merkmalsausprägung) xi
Univariate DatenanalyseUnivariate Datenanalyse
Beschreibung der HäufigkeitsverteilungBeschreibung der Häufigkeitsverteilung
Ausprägung y(j)Ausprägung y(j) absolute Häufigkeit Njabsolute Häufigkeit Nj relative relative HäufigkeitHäufigkeit fj = fj = Nj / NNj / N
y (1)y (1) N1N1 f = N1 / Nf = N1 / N
.. . . ..
.. . . .. .. . . ..y (J)y (J) NJNJ fJ= NJ / NfJ= NJ / N
∑∑Nj = NNj = NjjεεJJ
Beispiel an der Variable Beispiel an der Variable „Alter“„Alter“
Ausprägung y(j)Ausprägung y(j) absolute absolute relative relative kummuliertekummulierte
Häufigkeit Häufigkeit Häufigkeit (%)Häufigkeit (%) HäufigkeitHäufigkeit
21 – 3021 – 30 4343 1,041,04 1,041,04
31 – 4031 – 40 881881 21,4121,41 22,4522,45
41 – 5041 – 50 13881388 33,7333,73 56,1856,18
51 – 6051 – 60 11701170 28,4428,44 84,6284,62
61 – 7061 – 70 570570 13,8613,86 98,4898,48
71 – 8071 – 80 6161 1,481,48 99,9699,96
81 – 9081 – 90 11 0,020,02 99,9899,98
GesamtGesamt 41144114 100100 ~100~100
Univariable Verteilung - Univariable Verteilung - Graphische DarstellungGraphische Darstellung
univariate Plotsunivariate Plots:: Untersuchung Untersuchung einzelner Variablen einzelner Variablen
Interesse auf: Ausreißer, Häufungen Interesse auf: Ausreißer, Häufungen von Beobachtungen in Teilen des von Beobachtungen in Teilen des Wertebereichs, Fehlen bestimmter Wertebereichs, Fehlen bestimmter Ausprägungen, Verteilungsform der Ausprägungen, Verteilungsform der Variablen Variablen
nominale und ordinale Datennominale und ordinale Daten
Stab- und Balkendiagramme Stab- und Balkendiagramme (barcharts)(barcharts)
sinnvoll nur für diskrete Merkmalesinnvoll nur für diskrete Merkmale i.d.R. auf X-Achse die Ausprägungen der Merkmale u. auf Y-i.d.R. auf X-Achse die Ausprägungen der Merkmale u. auf Y-
Achse die Häufigkeit des Auftretens der AusprägungenAchse die Häufigkeit des Auftretens der Ausprägungen absolute Häufigkeiten geeignet für Darstellung der absolute Häufigkeiten geeignet für Darstellung der
Untersuchungsergebnisse einer Population (Graphik 1); Untersuchungsergebnisse einer Population (Graphik 1); beim Vergleich mehrerer Populationen/ Subgruppen, mit beim Vergleich mehrerer Populationen/ Subgruppen, mit unterschiedlich großem Stichprobenumfang – relative unterschiedlich großem Stichprobenumfang – relative Häufigkeiten (Graphik 2)Häufigkeiten (Graphik 2)
jeder Merkmalsausprägung wird ein Strich/ Balken jeder Merkmalsausprägung wird ein Strich/ Balken zugeordnet -Anordnungsreihenfolge ist bei nominalen zugeordnet -Anordnungsreihenfolge ist bei nominalen Merkmalen beliebig, bei ordinalen existiert eine „natürliche“ Merkmalen beliebig, bei ordinalen existiert eine „natürliche“ Anordnungsreihenfolge (Rangreihe)Anordnungsreihenfolge (Rangreihe)
auch gruppierte metrische Daten können dargestellt werden auch gruppierte metrische Daten können dargestellt werden (z.B. Häufigkeiten versch. Einkommensklassen) (z.B. Häufigkeiten versch. Einkommensklassen)
ordinale Daten (und ordinale Daten (und gruppierte metrische Daten)gruppierte metrische Daten)
Box-(Whisker-)PlotBox-(Whisker-)Plot stellt Median, 25%- und 75%-Quantile (unteres und stellt Median, 25%- und 75%-Quantile (unteres und
oberes Quartil), Extremwerte und Ausreißer daroberes Quartil), Extremwerte und Ausreißer dar untere bzw. obere Grenze der Box: unteres bzw. oberes untere bzw. obere Grenze der Box: unteres bzw. oberes
Quartil (Hälfte der beobachteten Werte liegt in der Box); Quartil (Hälfte der beobachteten Werte liegt in der Box); Länge der Box: Quartilsabstand; Linie innerhalb der Box: Länge der Box: Quartilsabstand; Linie innerhalb der Box: Median; Ausreißer: zw. 1,5 und 3 Box-Längen vom Median; Ausreißer: zw. 1,5 und 3 Box-Längen vom unteren/ oberen Rand der Box entfernt (dargestellt als unteren/ oberen Rand der Box entfernt (dargestellt als °); Extremwerte: mehr als 3 Box-Längen entfernt (*); °); Extremwerte: mehr als 3 Box-Längen entfernt (*); äußeren Striche – Zäune: kleinster und größter äußeren Striche – Zäune: kleinster und größter beobachteter Wert, der kein Ausreißer istbeobachteter Wert, der kein Ausreißer ist
zwischen Median und unterem/ oberem Quartil immer zwischen Median und unterem/ oberem Quartil immer 25% der Fälle – kleinere Flächen deuten nur auf starke 25% der Fälle – kleinere Flächen deuten nur auf starke Konzentration der Fälle in diesem Wertebereich hinKonzentration der Fälle in diesem Wertebereich hin
ermöglicht Aussagen über Symmetrie, Schiefe sowie ermöglicht Aussagen über Symmetrie, Schiefe sowie Zahl und Lage extremer Beobachtungen Zahl und Lage extremer Beobachtungen
metrische Datenmetrische Daten
HistogrammeHistogramme besonders geeignet, um vermutliche Verteilung in besonders geeignet, um vermutliche Verteilung in
der Grundgesamtheit aufzudeckender Grundgesamtheit aufzudecken graphische Darstellung der Anzahl der graphische Darstellung der Anzahl der
Beobachtungen, die in die einzelnen Intervalle Beobachtungen, die in die einzelnen Intervalle einer Klasseneinteilung von einer Variablen falleneiner Klasseneinteilung von einer Variablen fallen
zentral: Festlegung der Anzahl und Breite der zentral: Festlegung der Anzahl und Breite der Intervalle sowie des Ursprungs des Histogramms Intervalle sowie des Ursprungs des Histogramms Bestimmung der Klasseneinteilung und des Bestimmung der Klasseneinteilung und des Beginns der Klasseneinteilung; hiervon hängt ab, Beginns der Klasseneinteilung; hiervon hängt ab, welchen Eindruck man von einer Verteilung welchen Eindruck man von einer Verteilung anhand des Histogramms gewinntanhand des Histogramms gewinnt
verschiedne Regeln zur Bestimmung der Anzahl verschiedne Regeln zur Bestimmung der Anzahl und Breite der Intervalleund Breite der Intervalle
Averaged Shifted Averaged Shifted Histograms Histograms
m Histogramme mit gleicher m Histogramme mit gleicher Intervallbreite h erstellt, die aber jeweils Intervallbreite h erstellt, die aber jeweils um den Betrag h/m verschobene um den Betrag h/m verschobene Ursprünge besitzenUrsprünge besitzen
für ein ASH wird dann der Mittelwert für ein ASH wird dann der Mittelwert der Beobachtungen im jeweiligen der Beobachtungen im jeweiligen Intervall aller Histogramme an einem Intervall aller Histogramme an einem Punkt berechnetPunkt berechnet
mit zunehmendem m erscheinen ASHs mit zunehmendem m erscheinen ASHs glatter; die Verteilung kann glatter; die Verteilung kann zuverlässiger dargestellt werden zuverlässiger dargestellt werden
Stem-and-Leaf-Display Stem-and-Leaf-Display (Stamm-Blatt-Diagramm)(Stamm-Blatt-Diagramm)
Verteilung einer Variablen durch die Länge von Zeilen Verteilung einer Variablen durch die Länge von Zeilen wiedergegeben, wobei die Zeilen durch die Ziffern der wiedergegeben, wobei die Zeilen durch die Ziffern der Ausprägungen der Variablen gebildet werdenAusprägungen der Variablen gebildet werden
die darzustellenden Ziffern werden hierbei in führende (stem) die darzustellenden Ziffern werden hierbei in führende (stem) und restliche (leaves) Ziffern eingeteiltund restliche (leaves) Ziffern eingeteilt
für jede führende Ziffer werden die zugehörigen restlichen für jede führende Ziffer werden die zugehörigen restlichen Ziffern rechts neben der führenden Ziffer aufgeführtZiffern rechts neben der führenden Ziffer aufgeführt
gleiche Merkmalsausprägungen werden direkt wiedergegebengleiche Merkmalsausprägungen werden direkt wiedergegeben zu beachten ist, dass die führenden Ziffern auch Werte zu beachten ist, dass die führenden Ziffern auch Werte
wiedergeben müssen, die in den Daten nicht vorhanden sind wiedergeben müssen, die in den Daten nicht vorhanden sind (stem, aber kein dazugehöriges leave)(stem, aber kein dazugehöriges leave)
links neben dem stem ist jeweils die Häufigkeiten der im links neben dem stem ist jeweils die Häufigkeiten der im Stamm und der entsprechenden Zeile angegebenen Stamm und der entsprechenden Zeile angegebenen Merkmalsausprägung zu findenMerkmalsausprägung zu finden
um aus dem Diagramm die Ursprungswerte ablesen zu um aus dem Diagramm die Ursprungswerte ablesen zu können, muss noch die Einheit angegeben werden (stem width)können, muss noch die Einheit angegeben werden (stem width)
- gibt Aufschluss über Spannweite und Symmetrie der Verteilung- zeigt Ausreißer, Lücken und Konzentrationen der Beobachtungen auf bestimmte Werte- liegt Interesse nicht in vermutlicher Verteilung der Grundgesamtheit, sondern in der Verteilung der Stichprobenwerte, ist das SLD dem Histogramm i.d.R. überlegen- am nützlichsten bei kleinen und mittleren Fallzahlen
Dot-PlotsDot-Plots
erhält man, wenn man für jede Beobachtung erhält man, wenn man für jede Beobachtung einer kontinuierlichen Variablen auf einem einer kontinuierlichen Variablen auf einem Zahlenstrahl an der Variabelenausprägung Zahlenstrahl an der Variabelenausprägung der Beobachtung ein Plotsymbol plottetder Beobachtung ein Plotsymbol plottet
Eindimensionale ScatterplotsEindimensionale Scatterplots stellen entlang einer Skala jeden stellen entlang einer Skala jeden
vorkommenden Wert mit einem Kreis darvorkommenden Wert mit einem Kreis dar bieten für kleinere Fallzahlen (n<100) bieten für kleinere Fallzahlen (n<100)
übersichtliche Darstellungübersichtliche Darstellung Problem des Überdruckens bei Problem des Überdruckens bei
Beobachtungen mit identischen Beobachtungen mit identischen AusprägungenAusprägungen
Stacked-Dot-PlotsStacked-Dot-Plots
Plotsymbole für Beobachtungen mit Plotsymbole für Beobachtungen mit identischen Ausprägungen werden identischen Ausprägungen werden nebeneinander dargestelltnebeneinander dargestellt
dies verhindert Überdrucken, schränkt dies verhindert Überdrucken, schränkt aber die Anwendung für den Bereich aber die Anwendung für den Bereich der Fallzahlen (ca. n<300) ein – der Fallzahlen (ca. n<300) ein – besonders bei starken Konzentrationen besonders bei starken Konzentrationen auf Teile des Wertebereichs auf Teile des Wertebereichs
Jittered Dot-PlotsJittered Dot-Plots
die einzelnen Beobachtungen werden die einzelnen Beobachtungen werden gegen gleichverteilte Zufallszahlen gegen gleichverteilte Zufallszahlen geplottetgeplottet
Beobachtungen mit identischer Beobachtungen mit identischer Ausprägung der interessierenden Ausprägung der interessierenden Variablen erhalten so unterschiedliche Variablen erhalten so unterschiedliche Plotpositionen in einer anderen Plotpositionen in einer anderen Dimension des Plots (die jedoch nicht Dimension des Plots (die jedoch nicht geplottet wird)geplottet wird)
auch für n>500auch für n>500
Q-Plots (Quantil-Plot)Q-Plots (Quantil-Plot) plottet für jede Ausprägung der nach Größe sortierten plottet für jede Ausprägung der nach Größe sortierten
Variablen das zugehörige Quantil (für jede Variablen das zugehörige Quantil (für jede Beobachtung wird also die Größe der Beobachtung Beobachtung wird also die Größe der Beobachtung gegen den Anteil der Beobachtungen geplottet, die gegen den Anteil der Beobachtungen geplottet, die kleiner als dieser Wert sind)kleiner als dieser Wert sind)
man kann hier den Wert der Quantile direkt ablesenman kann hier den Wert der Quantile direkt ablesen die Steilheit der durch die Punkte des Plots gebildeten die Steilheit der durch die Punkte des Plots gebildeten
Kurve gibt Aufschluss über die lokale Dichte: je Kurve gibt Aufschluss über die lokale Dichte: je steiler, desto stärker ist die lokale Dichte an diesen steiler, desto stärker ist die lokale Dichte an diesen Punkten (mehrere identische Ausprägungen einer Punkten (mehrere identische Ausprägungen einer Variablen führen zu senkrechten LinienVariablen führen zu senkrechten Linien
eine eingezeichnete Hilfslinie (Y=a+bX); lineare eine eingezeichnete Hilfslinie (Y=a+bX); lineare Regression der die beiden Achsen bildenden Größen) Regression der die beiden Achsen bildenden Größen) erleichtert Beurteilung der Steilheit und Erkennen erleichtert Beurteilung der Steilheit und Erkennen einzelner Ausreißereinzelner Ausreißer
Plots für den Vergleich Plots für den Vergleich empirischer Verteilungenempirischer Verteilungen
Frage nach Unterschied zweier oder mehrerer Frage nach Unterschied zweier oder mehrerer Verteilungen und Art der VerteilungsunterschiedeVerteilungen und Art der Verteilungsunterschiede
Back-to-Back-Stem-and-Leaf-Back-to-Back-Stem-and-Leaf-DisplaysDisplays (metrische Daten) (metrische Daten)
die Verteilung einer Variablen in zwei Gruppen wird in die Verteilung einer Variablen in zwei Gruppen wird in einem SLD „Rücken an Rücken“ dargestellt (ansonsten einem SLD „Rücken an Rücken“ dargestellt (ansonsten siehe SLD)siehe SLD)
Gruppierte BoxplotsGruppierte Boxplots (ordinale und gruppierte metrische Daten)(ordinale und gruppierte metrische Daten) es wird für jede Ausprägung einer es wird für jede Ausprägung einer
Gruppierungsvariablen ein Boxplot der abhängigen Gruppierungsvariablen ein Boxplot der abhängigen Variablen erstellt und gemeinsam dargestelltVariablen erstellt und gemeinsam dargestellt
eignen sich für raschen Vergleich einer Variablen eignen sich für raschen Vergleich einer Variablen zwischen verschiedenen Gruppenzwischen verschiedenen Gruppen
● gruppierte Box-Dot-Plots
- Box-Dot-Plot: Kombination eines symmetrischen Dot-Plots mit einem Box-Plot; erlaubt einfache Feststellung multipler Ausreißer, ungewöhnlicher Konzentrationen in kleinen Wertebereichen und die direkte Wahrnehmung der Fallzahl pro Gruppe- zwei oder mehr dieser Box-Dot-Plots werden nebeneinander dargestellt; so werden die Gruppen vergleichbar- gruppierte Box-Dot-Plots empfehlen sich immer dann, wenn Mittelwertdiffernezen in verschiedenen Gruppen untersucht werden sollen
Q-Q-PlotsQ-Q-Plots
die Quantile zweier empirischer Verteilungen werden die Quantile zweier empirischer Verteilungen werden direkt gegeneinander geplottetdirekt gegeneinander geplottet
wären die Verteilungen in beiden Gruppen gleich, so wären die Verteilungen in beiden Gruppen gleich, so müssten die Beobachtungen bei einem Q-Q-Plot auf müssten die Beobachtungen bei einem Q-Q-Plot auf einer Geraden liegen, die die identischen einer Geraden liegen, die die identischen Ausprägungen der Variablen in den beiden Gruppen Ausprägungen der Variablen in den beiden Gruppen verbindet verbindet
Plots zum Vergleich Plots zum Vergleich empirischer und theoretischer empirischer und theoretischer
VerteilungenVerteilungen Frage ob eine empirische Verteilung mit einer Frage ob eine empirische Verteilung mit einer
theoretischen übereinstimmttheoretischen übereinstimmt
Probability-PlotsProbability-Plots Quantile einer empirischen Verteilung werden gegen Quantile einer empirischen Verteilung werden gegen
die Quantile einer theoretischen Verteilung geplottetdie Quantile einer theoretischen Verteilung geplottet am häufigsten wird als theoretische Verteilung die am häufigsten wird als theoretische Verteilung die
Normalverteilung verwendet (normal probability Normalverteilung verwendet (normal probability plots)plots)
die erwarteten Werte werden unter Annahme der die erwarteten Werte werden unter Annahme der Normalverteilung entlang der Y-Achse geplottet, die Normalverteilung entlang der Y-Achse geplottet, die beobachteten Werte entlang der X-Achsebeobachteten Werte entlang der X-Achse
liegen die Plotpunkte auf der Linie Y=X stimmen liegen die Plotpunkte auf der Linie Y=X stimmen theoretische und empirische Verteilung übereintheoretische und empirische Verteilung überein
graphische Darstellungen möglicher Verteilungen graphische Darstellungen möglicher Verteilungen
Plots für kategorisierte Plots für kategorisierte VariablenVariablen
Vergleich der Verteilung einer kategorisierten Vergleich der Verteilung einer kategorisierten Variablen mit einer theoretischen VerteilungVariablen mit einer theoretischen Verteilung
● ● Überlagerte HistogrammeÜberlagerte Histogramme Histogramm wird mit der Kurve der theoretisch Histogramm wird mit der Kurve der theoretisch
erwarteten Häufigkeiten überlagerterwarteten Häufigkeiten überlagert
Bivariate DatenanalyseBivariate Datenanalyse
Pro Objekt i (i=1, …, n) werden zwei Pro Objekt i (i=1, …, n) werden zwei Merkmale X und Y gemeinsam Merkmale X und Y gemeinsam erhobenerhoben
Z.B. - Geschlecht und EinkommenZ.B. - Geschlecht und Einkommen
- Familienstand und - Familienstand und Einkommen Einkommen
Das Resultat ist ein Paar (xi, yi) von Das Resultat ist ein Paar (xi, yi) von Merkmalsausprägungen Merkmalsausprägungen
Bivariate DatananalyseBivariate Datananalyse Bivariate Daten werden meist in einer Bivariate Daten werden meist in einer
Kreuztabelle aufgezeigtKreuztabelle aufgezeigt Für eine korrekte und anschauliche Analyse Für eine korrekte und anschauliche Analyse
bzw. Darstellung ist das Layout der Tabelle bzw. Darstellung ist das Layout der Tabelle entscheidend: Hans Zeisels Regeln für die entscheidend: Hans Zeisels Regeln für die Darstellung von Daten in KreuztabellenDarstellung von Daten in Kreuztabellen
die erklärende Variable sollte im Kopf der die erklärende Variable sollte im Kopf der Tabelle zu finden sein in Verbindung mit Tabelle zu finden sein in Verbindung mit der Grundregel, Prozentwerte auf die der Grundregel, Prozentwerte auf die erklärende Variable als Basis zu beziehen – erklärende Variable als Basis zu beziehen – SpaltenprozenteSpaltenprozente
Bivariate DatenanalyseBivariate Datenanalyse
es kann aus verschiedenen es kann aus verschiedenen Gründen, z.B. viele Ausprägungen Gründen, z.B. viele Ausprägungen der erklärenden Variable, notwendig der erklärenden Variable, notwendig sein Zeilen- und Spalten der sein Zeilen- und Spalten der Kreuztabelle zu vertauschen und Kreuztabelle zu vertauschen und damit auch die Prozentuierungen damit auch die Prozentuierungen
das sollte allerdings für den das sollte allerdings für den Rezipienten erkenntlich gemacht Rezipienten erkenntlich gemacht werdenwerden
Beispiel: Layout von TabellenBeispiel: Layout von Tabellen
Wichtigkeit beruflichen Erfolgs * Geschlecht Crosstabulation
Count
324 680 1004
753 1601 2354
200 409 609
25 44 69
7 11 18
1309 2745 4054
Sehr wichtig
Wichtig
Teils/teils
Nicht wichtig
Überhaupt nicht wichtig
WichtigkeitberuflichenErfolgs
Total
Weiblich Männlich
Geschlecht
Total
Layout von TabellenLayout von Tabellen
Wichtigkeit beruflichen Erfolgs * Geschlecht Crosstabulation
Count
25 25 1004
58 58 2354
15 15 600
2 2 69
1 0 18
1309 2745 4054
Sehr wichtig
Wichtig
Teils/teils
Nicht wichtig
Überhaupt nicht wichtig
WichtigkeitberuflichenErfolgs
N
Weiblich(%)
Männlich(%)
Geschlecht
N
Bi- und Multivariate Bi- und Multivariate Verteilung – Graphische Verteilung – Graphische
DarstellungDarstellung Scatterplots:Scatterplots: Einschätzung der Art und Einschätzung der Art und
Größe des Zusammenhangs zweier Variablen, die Größe des Zusammenhangs zweier Variablen, die Identifikation ungewöhnlicher Beobachtungen, die Identifikation ungewöhnlicher Beobachtungen, die Entdeckung von Clustern, ... Entdeckung von Clustern, ...
die Wertepaare zweier Variablen werden dazu die Wertepaare zweier Variablen werden dazu gegeneinander geplottetgegeneinander geplottet
● ● Informationsangereicherte Informationsangereicherte ScatterplotsScatterplots
Scatterplot-SmootherScatterplot-Smoother
Beurteilung der Art des Zusammenhanges zweier Beurteilung der Art des Zusammenhanges zweier Variablen durch das Plotten von Hilslinien Variablen durch das Plotten von Hilslinien erleichtert erleichtert
häufig Regressionsgerade, die aber oft häufig Regressionsgerade, die aber oft unangemessen istunangemessen ist
die Beziehung zwischen zwei Variablen soll daher die Beziehung zwischen zwei Variablen soll daher ohne Festlegung auf ein parametrisches Modell ohne Festlegung auf ein parametrisches Modell untersucht werdenuntersucht werden
dazu dienen Scatterplot-Smoother: Median-Trace, dazu dienen Scatterplot-Smoother: Median-Trace, Kernel-Smoothed-Quantile-Plots, K-NN-Smoother, Kernel-Smoothed-Quantile-Plots, K-NN-Smoother, Running-Line-Smoother, LOWESS-SmootherRunning-Line-Smoother, LOWESS-Smoother
Plots für drei- und Plots für drei- und mehrdimensionale Datenmehrdimensionale Daten
Scatterplots für multivariate Daten/ Zusammenhänge Scatterplots für multivariate Daten/ Zusammenhänge zwischen drei oder mehr Variablenzwischen drei oder mehr Variablen
Scatterplots mit IconsScatterplots mit Icons
Icons: bildliche Darstellung von Objekten, deren Eigenschaften Icons: bildliche Darstellung von Objekten, deren Eigenschaften durch die Ausprägung einer oder mehrerer Variablen gesteuert durch die Ausprägung einer oder mehrerer Variablen gesteuert werden – Möglichkeit, im Scatterplot zusätzliche Dimensionen werden – Möglichkeit, im Scatterplot zusätzliche Dimensionen darzustellendarzustellen
für jeden Fall ein eigenes Icon geplottetfür jeden Fall ein eigenes Icon geplottet
● ● Bubble-Plots:Bubble-Plots: leere Kreise als Plotsymbolleere Kreise als Plotsymbol Größe gesteuert durch eine dritte VariableGröße gesteuert durch eine dritte Variable Nachteile: Beurteilung absoluter Größe der Bubbles fällt schwerNachteile: Beurteilung absoluter Größe der Bubbles fällt schwer leichter, wenn feste Bezugsgröße vorhandenleichter, wenn feste Bezugsgröße vorhanden... ...
● ● Rectangle-Plots:Rectangle-Plots:hier dienen Rechtecke innerhalb eines Rahmens hier dienen Rechtecke innerhalb eines Rahmens als Icons als Icons Größe der Rechtecke durch die dritte Variable Größe der Rechtecke durch die dritte Variable gesteuertgesteuert
● ● Arrow-Plots:Arrow-Plots:Möglichkeit, mehr als eine Dimension zusätzlich Möglichkeit, mehr als eine Dimension zusätzlich darzustellendarzustellengeben eine Variable durch die Länge des Pfeils, geben eine Variable durch die Länge des Pfeils, eine andere durch die Richtung des Pfeils wiedereine andere durch die Richtung des Pfeils wieder
Bedingte ScatterplotsBedingte Scatterplots
simultanes Aufstellen mehrerer simultanes Aufstellen mehrerer Scatterplots derselben Variablen Scatterplots derselben Variablen getrennt für Subgruppen der getrennt für Subgruppen der BeobachtungenBeobachtungen
eignen sich für: Vergleich der Art des eignen sich für: Vergleich der Art des Zusammenhangs in unterschiedlichen Zusammenhangs in unterschiedlichen Teilgruppen, Entdeckung Teilgruppen, Entdeckung mehrdimensionaler Cluster, mehrdimensionaler Cluster, Untersuchung von Interaktionseffekten Untersuchung von Interaktionseffekten stetiger Variablenstetiger Variablen
QuellenQuellen Clauß, G./ Finze, F.-R./ Partzsch, L. (2002): Clauß, G./ Finze, F.-R./ Partzsch, L. (2002):
Statistik. Für Soziologen, Pädagogen, Statistik. Für Soziologen, Pädagogen, Psychologen und Mediziner. Grundlagen. Psychologen und Mediziner. Grundlagen. Wissenschaftlicher Verlag Harri Deutsch. Wissenschaftlicher Verlag Harri Deutsch. Frankfurt am MainFrankfurt am Main
Schnell, Rainer (1994): Grafisch gestützte Schnell, Rainer (1994): Grafisch gestützte Datenanalyse. Oldenburgverlag. MünchenDatenanalyse. Oldenburgverlag. München
Toutenburg, Helge (2000): Deskriptive Toutenburg, Helge (2000): Deskriptive Statistik. Springerverlag. BerlinStatistik. Springerverlag. Berlin
Ludwig-Mayerhofer, W. (1994): Kleine Ludwig-Mayerhofer, W. (1994): Kleine Anmerkung, die Verbesserung der Darstellung Anmerkung, die Verbesserung der Darstellung von Kreuztabellen betreffend. Kölner von Kreuztabellen betreffend. Kölner Zeitschrift für Soziologie und Zeitschrift für Soziologie und Sozialpsychologie. 46. S. 122-129. Sozialpsychologie. 46. S. 122-129.
top related