walter krämer: statistik verstehen – eine gebrauchs ... 7 korrelation.pdf · vorzeichen,...

14
VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 1 Walter Krämer: Statistik verstehen – Eine Gebrauchs- anweisung, Piper Verlag, München 2003; S. 183-196 Korrelation und Kausalität In diesem Kapitel sehen wir uns einige Methoden an, Zusammenhänge zwischen zwei Merkmalen bzw. Variablen zu erkennen und zu messen. In der folgenden Tabelle z.B. sind die Körpergröße und das Gewicht von 13 Männern - der Autor dieser Zeilen und zwölf seiner Freunde und Bekannten, also alles »echte« Daten - aufgelistet. Wir erheben also pro Objekt unse- rer Neugier zwei Variablen: Größe (in cm) Gewicht (in kg) 170 60 172 76 175 60 176 75 177 66 180 65 180 78 183 75 185 87 187 72 188 90 190 82 194 92 Diese Daten können wir auch in ein Schaubild (siehe unten) übertragen. So sehen wir noch besser, was wir auch schon vorher wußten, nämlich, daß zwischen den Variablen »Größe« und »Gewicht« ein Zusammenhang, und zwar ein positiver Zusammenhang besteht: große Männer wiegen im allgemeinen mehr als kleine. Trotz der einen oder anderen Ausnahme nimmt das Gewicht mit wachsender Körpergröße zu. Man sagt dazu auch, Gewicht und Größe seien »positiv korreliert«.

Upload: nguyencong

Post on 12-Aug-2019

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 1

Walter Krämer: Statistik verstehen – Eine Gebrauchs-

anweisung, Piper Verlag, München 2003; S. 183-196

Korrelation und Kausalität

In diesem Kapitel sehen wir uns einige Methoden an, Zusammenhänge zwischen zwei Merkmalen bzw. Variablen zu erkennen und zu messen. In der folgenden Tabelle z.B. sind die Körpergröße und das Gewicht von 13 Männern - der Autor dieser Zeilen und zwölf seiner Freunde und Bekannten, also alles »echte« Daten - aufgelistet. Wir erheben also pro Objekt unse-rer Neugier zwei Variablen:

Größe (in cm) Gewicht (in kg) 170 60 172 76 175 60 176 75 177 66 180 65 180 78 183 75 185 87 187 72 188 90 190 82 194 92

Diese Daten können wir auch in ein Schaubild (siehe unten) übertragen.

So sehen wir noch besser, was wir auch schon vorher wußten, nämlich, daß zwischen den Variablen »Größe« und »Gewicht« ein Zusammenhang, und zwar ein positiver Zusammenhang besteht: große Männer wiegen im allgemeinen mehr als kleine. Trotz der einen oder anderen Ausnahme nimmt das Gewicht mit wachsender Körpergröße zu. Man sagt dazu auch, Gewicht und Größe seien »positiv korreliert«.

Page 2: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 2

Der Bravais-Pearson-Korrelationskoeffizient

Der bekannteste Gradmesser für den Zusammenhang zweier Datenreihen ist der berühmte Bravais-Pearson-Korrelationskoeffizient, oft kurz Korrelationskoeffizient genannt. Er wurde Ende des letzten Jahrhunderts von dem englischen Statistiker Francis Galton »entdeckt« und dann von dessen Kollegen Bravais und Pearson, die nicht ganz zu Recht der Zahl auch ihren Namen gaben, populär gemacht. Galton stellte zwei zentrale Überlegungen an, die zunächst nur die beiden Variablen separat betreffen, die aber auch helfen, seinen Korrelationskoeffizienten zu verstehen. Zunächst argu-mentierte er nämlich, daß Begriffe wie »groß« und »klein« oder »leicht« und »schwer« ohne einen Bezugspunkt wenig Sinn ergeben. Strenggenommen dürften wir also nicht sagen: »Große Männer sind schwerer als kleine«, ohne vorher festzulegen, was »große Männer« sind. Sind z.B. 180 cm »groß« oder nicht? Oder fängt »groß« erst bei zwei Meter an? Galtons Antwort war, daß »groß« und »klein« immer nur in Bezug auf einen wie auch immer definierten Durchschnitt gelten kann. Nicht die absoluten Werte, sondern die Abweichungen vom Mittelwert sind das eigentlich Interessante - bei Körpergröße und Gewicht wie bei allen andern Variablenpaaren auch. »Groß« heißt »größer als der Durchschnitt« und »klein« heißt »kleiner als der Durchschnitt«, und eine positive Korrelation von Größe und Gewicht bedeutet, daß Männer mit überdurchschnittlicher Körpergröße auch überdurchschnittlich viele Kilos auf die Waage bringen. Der übliche Durchschnitt ist dabei das arithmetische Mittel. Zwar hatte Galton selbst noch den Median benutzt, aber aus Gründen, die uns hier nicht interessieren sollen, ist man heute davon abgekommen. In unserem Beispiel erhalten wir etwa ein arithmetisches Mittel von 181,3 cm für die Größe und ein arithmetisches Mittel von 75,2 kg für das Gewicht - in obigem Schaubild als dünne Linien eingetragen -, so daß etwa die erste Person in der Tabelle um 11,3 cm kleiner und um 15,2 kg leichter als der Durchschnitt und die letzte Person in der Tabelle um 12,7 cm größer und um 16,8 kg schwerer als der Durchschnitt ist. Galtons zweite Überlegung war nun, daß diese Abweichungen vom Mittelwert um so mehr Gewicht besitzen, je weniger die Daten streuen. Oder anders ausgedrückt: eine gegebene Ab-weichung vom Mittelwert fällt um so mehr aus dem Rahmen, je enger sich die Daten um den Mittelwert versammeln: Wenn alle Männer 80 Kilo wiegen und nur einer bringt zwei Zentner auf die Waage, wiegt das im wahrsten Sinn des Wortes mehr, als wenn die Gewichte gleichmäßig zwischen 60 und 100 Kilo streuen. Daher schlug Galton vor, die Abweichungen vom Mittelwert nicht in cm oder kg, sondern in Vielfachen der jeweiligen Standardabweichung zu messen. Ist die Standardabweichung groß, ist eine gegebene absolute Abweichung vom Mittelwert weniger dramatisch, als wenn die Standardabweichung klein wäre. In unserem Beispiel hat die Variable »Körpergröße« eine Standardabweichung von 7,0 und die Variable »Gewicht« eine Standardabweichung von 10,1, so daß wir z.B. für die erste Person aus der Tabelle die folgenden sogenannten »standardisierten« Abweichungen vom Mittelwert erhalten: (170-181,3)/7,0 = -1,61 und (60-75,2)/10,1 = -1,50. (Anmerkung isa hager: Mithilfe dieser obigen sogenannten z-Transformation kann man Variablen standardisieren. Dazu zieht man einfach vom jeweiligen Messwert den Mittelwert ab und dividiert das Ganze dann durch die Standardabweichung, wie oben beschrieben. Dann erhält man eine Verteilung der Variable, wo der Mittelwert bei Null liegt und die anderen Werte in den negativen und postiven Bereich streuen, wie bei der Standardnormalverteilung. So kann man besser einschätzten, wie sehr die Messwerte vom Durchschnitt abweichen. Ähnliches passiert bei der Standardisierung der Residuen in Kreuztabellen. Auch dort wollten wir von der Anzahl der Personen zu einem für alle Zellen in der Kreuztabelle vergleichbaren Parameter gelangen, und haben auch wieder eine Art “Standardisierung” vorgenommen – siehe Text Chi-Quadrat-Test. )

Page 3: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 3

Mit anderen Worten, die erste Person ist um 1,61 Standardabweichungen kleiner und um 1,50 Standardabweichungen leichter als der Durchschnitt, und das bleibt auch so - ein großer Vorteil solcher standardisierter Daten -, wenn wir die Maßeinheiten wechseln: Ob wir die Größe in Zoll oder in Zentimetern, oder das Gewicht in Pfund oder in Kilo messen, die standardisierte Größe von Person 1 bleibt immer -1,61 und das standardisierte Gewicht bleibt immer -1,50. Das nächste Schaubild gibt die so erzeugten Wertepaare auch für die übrigen Personen aus der obigen Tabelle wider. Bis auf die Skalierung der Achsen ähnelt es sehr dem ersten Diagramm: Wie gehabt, häufen sich Abweichungen nach oben bei der Größe bei Abweichungen nach oben beim Gewicht, und Abweichungen nach unten bei der Größe bei Abweichungen nach unten beim Gewicht. Die Punkte im Quadranten I rechts oben entsprechen dabei Kombinationen von überdurchschnittlicher Größe und überdurchschnittlichem Gewicht, die Punkte im Quadranten III links unten Kombinationen von unterdurchschnittlicher Größe und unterdurchschnittlichem Gewicht. Die Punkte in den Quadranten II und IV schließlich gehören zu Kombinationen, bei denen eine Variable über und eine Variable unter ihrem Durchschnitt liegt.

In unserem Beispiel, wie ganz allgemein bei positiver Korrelation, häufen sich die Datenpunkte im rechten oberen und im linken unteren Quadranten, und das deutet auch schon an, wie man den Grad des Gleichklangs messen könnte: Je mehr Punkte in die Quadranten rechts oben und links unten fallen, desto stärker zeigen beide Variablen in die gleiche Richtung, desto größer ist die Korrelation. Allerdings ist die reine Anzahl der Punkte als Maß etwas zu grob, denn so würden wir nicht zwischen Punkten weit weg von den Achsen, d.h. mit großen Abweichungen für beide Variablen, und Punkten nahe den Achsen unterscheiden, für die eine der beiden Abweichungen fast verschwindet, wie in dem nächsten Schaubild (siehe nächste Seite) dargestellt. Ganz offensichtlich bewegen sich die Werte der beiden Variablen um so stärker in die gleiche Richtung, je größer die Fläche des schraffierten Rechtecks ist, je weiter rechts oben oder links unten im Schaubild sich der Datenpunkt befindet. Ist also die Fläche der schraffierten Rechtecke groß, so ist auch der positive Zusammenhang groß, und ist die Fläche der schraffierten Rechtecke klein, so ist auch der positive Zusammenhang klein.

Page 4: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 4

Das gleiche gilt für einen negativen Zusammenhang. Dieser ist um so negativer, je größer die entsprechenden Flächen in den Quadranten links oben und rechts unten sind, und damit sind wir auch schon bei unserem Korrelationskoeffizienten angelangt: Der Pearson-Korrelationskoeffi-zient ist definiert als die mittlere Fläche, welche die Punkte unseres Diagramms mit den Mittel-wert-Achsen bilden, wobei Flächen rechts oben und links unten positiv und Flächen links oben und rechts unten negativ zu zählen sind. Wer das ganze gern in Formeln mag, nennt die erste Variable X, die zweite Y, den Korrelations-koeffizienten rxy die standardisierten Werte der ersten Variablen xl, x2, ............xn, die standardi-sierten Werte der zweiten Variablen yl, y2, ........... yn, und schreibt statt dessen: rxy = (xlyl + x2y2 + .............. + xnyn)/n. Wie man leicht sieht, läuft diese Formel genau auf die mittlere Fläche unserer Rechtecke hinaus: Für Punkte rechts oben und links unten haben beide standardisierten Variablen das gleiche Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen Punkt und Achsen, ist positiv. Für Punkte links oben und rechts unten dagegen haben die Variablen verschiedene Vorzeichen, und das Produkt ist negativ. In unserem Beispiel erhalten wir so für den Korrelationskoeffizienten die Zahl r. = 0,76. Das ist nicht weit entfernt von seinem Maximum. Wie man nämlich zeigen kann, liegen Korrela-tionskoeffizienten immer zwischen +1 und - 1, d.h. ein Wert von 0,76 ist schon beachtlich groß.

Der Bravais-Pearson-Korrelationskoeffizient ist das arithmetische Mittel der Produkte der standardisierten Variablenpaare.

Die Kovarianz

Alternativ und etwas komplizierter kann man den Korrelationskoeffizienten auch mittels der Rohdaten schreiben (im weiteren zur Unterscheidung von den standardisierten Werten mit großen Buchstaben bezeichnet). Dazu erinnern wir uns, daß sx für die Standardabweichung der X-Werte und sy für die Standardabweichung der Y-Werte steht, und erhalten

Page 5: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 5

In dieser Form trifft man den Pearson-Korrelationskoeffizienten meistens in den Lehrbüchern an. Der Zähler in dem letzten Bruch wird auch »Kovarianz« genannt. Er ist ein alternatives Maß für den Gleichklang in den Daten, hängt aber im Gegensatz zum Korrelationskoeffizienten von den Maßeinheiten der Variablen ab. Wie man leicht nachrechnet, beträgt in unserem Beispiel die Kovarianz zwischen Größe und Gewicht (in cm und kg gemessen) 54,69. Messen wir unsere Variablen dagegen in mm und g, wächst die Kovarianz auf 546900, also das zehntausendfache an. Daher ist die Kovarianz als seriöses Maß für den Datengleichklang kaum zu gebrauchen. Negative Korrelation

Statt im Gleichschritt, wie bei Körpergröße und Gewicht, können Variablen auch konträr verlaufen: Große Werte der einen treten im Tandem mit kleinen Werten der anderen auf und um-gekehrt. Dann häufen sich die Datenpunkte in den Quadranten II links oben und IV rechts unten, und die Korrelation wird negativ.

Verein Punkte Tore K'lautern 48:20 72:45 München 45:23 74:41 Frankfurt 40:28 63:40 Hamburg 40:28 60:38 Stuttgart 38:30 57:44 Köln 37:31 50:43 Leverkusen 35:33 49:54 M'gladbach 35:33 49:54 Dortmund 34:34 46:57 Wattensch. 33:35 42:51 Düsseldorf 32:36 40:49 Karlsruhe 31:37 46:52 Bochum 26:39 50:52 Nürnberg 29:39 40:54 St. Pauli 27:41 33:53 Uerdingen 23:45 34:54

Ein Beispiel sind die pro Verein erzielten und eingefangenen Tore in der Fußball-Bundesliga. Wie wir etwa in der nebenstehenden Abschluß-tabelle der Saison 1990/91 sehen, lassen Klubs mit vielen erzielten Treffern in der Regel weniger Gegentore zu als Klubs, die nicht so viele Tore schießen. Dieser negative Zusammenhang zwischen Toren und Gegentoren wird am besten deutlich, wenn wir wieder wie gehabt die Daten, in diesem Fall die aktiven und passiven Treffer pro Saison, in ein Schaubild übertragen; dann ergibt sich ein Korrelationskoeffizient von -0,69:

Page 6: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 6

An solchen Diagrammen sieht man auch sehr schön, wann und warum zwei Variablen überhaupt nicht korrelieren: nämlich immer dann, wenn sich die Punkte relativ gleichmäßig über alle Quadranten verteilen, d.h. wenn große Werte der einen sowohl mit großen wie mit kleinen Werten der anderen zusammen auftreten, und umgekehrt. Eines von vielen Beispielen ist etwa, um bei der Fußball-Bundesliga zu bleiben, der Platz in der Tabelle und das Alter des Trainers. Die folgende Graphik zeigt einmal das Alter aller 20 Bundesligatrainer zu Beginn des Jahres 1992 zusammen mit dem Platz in der Tabelle, den ihre Mannschaft zu diesem Zeitpunkt inne-hatte. Hier ist kaum ein Muster zu erkennen, denn junge Trainer haben im großen und ganzen ebensolche Erfolge wie ihre älteren Kollegen und der resultierende Korrelationskoeffizient von -0,13 ist so gut wie Null:

Korrelation und Kausalität

So wie hier erklärt, ist der Korrelationskoeffizient strikt und ausschließlich ein Maß für Gleichklang in den Daten. Punkt. Von Kausalität, daß also das eine die Ursache des anderen wäre, ist dabei keine Rede. Eine positive Korrelation zweier Variablen X und Y heißt zunächst allein, daß relativ große Werte von X gerne mit relativ großen Werten von Y und relativ kleine Werte von X gerne mit relativ kleinen Werten von Y auftreten, und sonst nichts. Ob die Variable X auf die Variable Y im Sinn einer Kausalbeziehung einwirkt oder umgekehrt, ist daraus nicht zu entnehmen - und kann daraus auch nicht entnommen werden. Eine Korrelation zwischen zwei Variablen kann vielmehr viele Väter haben, von denen einer etwa »Zufall« heißt: Wenn wir z.B. die Tore pro Verein mit hinreichend vielen anderen Variablen korrelieren, wie Sitzplätze im Stadion, dessen Höhe über Meeresspiegel, Alter der Ehefrau des Torhüters, Intelligenzquotient des Präsidenten etc. wird uns der Zufall, falls wir nur lange genug suchen, irgendwann die eine oder andere hohe positive oder hohe negative Korrelation bescheren, auch wenn die Variablen nach menschlichem Ermessen nicht das mindeste gemeinsam haben. So hat man etwa in den 60er und 70er Jahren dieses Jahrhunderts eine erstaunliche negative Korrelation zwischen der Rocklänge in der Damenmode und dem Dow-Jones-Aktienindex fest-gestellt, wofür wohl nur der Zufall als Erklärung bleibt.

Page 7: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 7

Und selbst wenn eine Kausalität besteht, wirkt diese oft anders als man denkt. Ein immer wieder gern zitiertes Beispiel ist die negative Korrelation zwischen Körpertemperatur und Läusen auf dem Kopf (in Sozialwesen, wo Läuse noch nicht ausgerottet sind), woraus die Bewohner der Neuen Hebriden, einer Inselgruppe im südlichen Pazifik, dann den Schluß gezogen haben, daß Läuse Fieber senken und gut für die Gesundheit sind. In Wahrheit verläuft die Kausalrichtung natürlich genau umgekehrt: Hohes Fieber vertreibt die Läuse, d.h. die Ursache ist die Temperatur und die Wirkung sind die Läuse auf dem Kopf. Leider schweigt sich der Korrelationskoeffizient zu dieser Frage der Kausalität und Kausalitätsrichtung aber völlig aus. Über Ursache und Wirkung entscheidet keine Formel, son-dern immer nur das Sachproblem. Zuweilen ist dabei die Antwort klar, wie bei der Korrelation zwischen Körpergröße Vater und Körpergröße Sohn, zwischen Bierkonsum und Wetter, oder zwischen ausgebrachten Düngemitteln und Erträgen in der Landwirtschaft, aber oft ist die Kausalrichtung auch durchaus zweifelhaft. Eine allgemeine Regel gibt es leider nicht, denn selbst das Kriterium der zeitlichen Reihenfolge (»post hoc, ergo propter hoc«) führt wie bei Weihnachtskäufen häufig in die Irre: Alle Jahre wieder schnellen Anfang Dezember die Umsätze im Einzelhandel in die Höhe, aber trotzdem glaubt kein Mensch, daß es deshalb Weihnacht wird. Hier hinkt die Ursache der Wirkung vielmehr hinterher. Schließlich kann Korrelation auch ohne irgendeine direkte Kausalbeziehung allein durch einen oder mehrere gemeinsame Verwandte im Hintergrund entstehen, wie etwa die hohe positive Korrelation der Körpergröße von Geschwistern. Analog beobachten wir seit Jahrzehnten eine fast perfekte Korrelation zwischen den Börsenkursen von VW und Daimler-Benz (und zwischen den Kursen und Renditen vieler anderer Aktiengesellschaften ebenso), die allein durch die Hintergrundvariable »Autokonjunktur« entsteht. Andere Beispiele sind die jährlichen Nieder-schläge in Mainz und Wiesbaden, der Wasserstand von Rhein und Donau, die Inflation in Bayern und Baden Württemberg, die Preise von Benzin und Heizöl und viele andere Variablenpaare mehr. In allen diesen Fällen geht die Korrelation auf eine Kausalbeziehung, aber weniger zwischen den Variablen selbst, als vielmehr zwischen diesen und einer gemeinsamen Ursache wie das Wetter oder die allgemeine Wirtschaftslage im Hintergrund zurück. Solche Korrelationen sind die wohl häufigsten überhaupt. Zugleich ist die Mißdeutung solcher Korrelationen im Sinn einer direkten Kausalbeziehung einer der häufigsten Fehler in der gesamten angewandten Statistik. So können wir »beweisen«, daß Klapperstörche Kinder bringen, daß Krankenhäuser der Gesundheit schaden (denn immer mehr Menschen finden dort den Tod) oder daß Haarausfall das Einkommen erhöht: In der Tat korreliert bei Männern das Einkommen hoch negativ mit den Haaren auf dem Kopf, aber nicht, weil letztere uns am Geldverdienen hindern, sondern weil mit zunehmendem Alter das Einkommen wächst und die Haarpracht schrumpft.

Page 8: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 8

Peter Zöfel: Statistik verstehen. Ein Begleitbuch zur

computergestützten Anwendung. Ein Leitfaden zu statis-

tischen Lösungen; Addison-Wesley-Verlag, München 2002;

S. 118-122

Korrelation

In diesem Kapitel geht es um die Analyse des Zusammenhangs zwischen zwei Variablen, und zwar um die Beschreibung dieses Zusammenhangs mit Hilfe des so genannten Korrelations-koeffizienten. Dabei geht es um Zusammenhänge der Art „je größer die eine Variable, desto größer die andere" oder auch „je größer die eine Variable, desto kleiner die andere". Daraus ist zu schließen, dass Korrelationskoeffizienten nur dann berechnet werden können, wenn die beteiligten Variablen mindestens ordinalskaliert oder aber dichotom sind. Ausgeschlossen sind also nominalskalierte Variablen mit mehr als zwei Kategorien. Im Folgenden wollen wir einige Zusammenhänge zwischen intervallskalierten Variablen betrachten. Es sind dies Variablen, die bestimmte Angaben der Staaten der Erde beinhalten. Die Zusammenhänge sind jeweils in Form einer Punktwolke in einem Streudiagramm dargestellt. Im ersten Beispiel ist die mittlere Lebenserwartung der Frauen gegen die mittlere Lebenserwar-tung der Männer aufgetragen.

Jeder markierte Punkt entspricht einem Staat. Man sieht sehr deutlich einen strengen linearen Zusammenhang zwischen den beiden Variablen. Die Punkte schmiegen sich eng an eine imaginäre Gerade an, die von links unten nach rechts oben verläuft: Je größer die Lebenserwar-tung der Männer, desto größer die Lebenserwartung der Frauen. Die Strenge oder besser Stärke des Zusammenhangs kann durch eine Maßzahl beschrieben werden, die man, wie schon erwähnt, Korrelationskoeffizient nennt. Dieser wird mit dem Kleinbuchstaben r bezeichnet und ist stets in den Grenzen von -1 bis +1 gelegen: -1 ≤ r ≤ +1. Für die Stärke des Zusammenhangs ist der Betrag des Korrelationskoeffizienten maßgebend. Das Vorzeichen gibt an, ob der Zusammenhang gleichläufig (wie im betrachteten Beispiel) oder gegenläufig ist. Dabei ist die folgende Einstufung üblich:

Page 9: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 9

Korrelationskoeffizient Einstufung1

r ≤ 0,2 sehr geringe Korrelation

0,2 ≤ r ≤ 0,5 geringe Korrelation

0,5 ≤ r ≤ 0,7 mittlere Korrelation

0,7 ≤ r ≤ 0,9 hohe Korrelation

0,9 ≤ r ≤ 1 sehr hohe Korrelation Die Berechnung des Korrelationskoeffizienten nach der für intervallskalierte (und normal-verteilte) Variablen üblichen Korrelation nach Pearson ergibt den Wert r = 0,990, also einen Wert nahe beim Maximalwert 1 und damit einen sehr hohen Zusammenhang. Im zweiten Beispiel ist der Zusammenhang zwischen der mittleren Lebenserwartung der Männer und dem prozentualen Anteil der Bevölkerung dargestellt, der in Städten wohnt. Auch hier ist ein deutlicher gleichläufiger Zusammenhang zu erkennen, der aber nicht ganz so ausgeprägt ist wie im ersten Beispiel, was sich demzufolge auch im allerdings immer noch hohen Korrelations-koeffizienten (r = 0,750) niederschlägt.

In diesem Beispiel kann man zwischen einer abhängigen und einer unabhängigen Variablen unterscheiden, wobei man dann die abhängige Variable auf der y-Achse und die unabhängige auf der x-Achse aufträgt. Es dürfte klar sein, dass die Lebenserwartung als von der Urbanität abhängig betrachtet werden kann und nicht umgekehrt die Urbanität als von der Lebenserwartung abhängig. Für die Berechnung des Korrelationskoeffizienten spielt diese Einteilung nach abhängiger und unabhängiger Variable keine Rolle, wohl aber für die Regressionsrechnung. Mit Hilfe dieser kann die Gleichung der Regressionsgeraden ermittelt werden; dieses ist die zunächst noch imaginäre Gerade, um die sich die Punkte des Steudiagramms mehr oder weniger stark anschmiegen.

1 Anmerkung isa hager: Korrelationen über 0,5 sind in den Sozialwissenschaften kaum anzutreffen. Ausschlag-gebend ist auch die Stichprobengröße: Je kleiner die Stichprobe, desto höhere Korrelationen werden im Allgemeinen erreicht und umgekehrt: je größer die Stichprobe, desto niedrigere Korrelationskoeffizienten werden erreicht. Alternativ: r ≈ 0,1 = sehr schwache, r ≈ 0,2 = eher schwache, r ≈ 0,3 = mittlere und ab r ≈ 0,4 = starke Korrelation.

Page 10: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 10

Im dritten Beispiel wird der Bevölkerungszuwachs in Abhängigkeit von der Urbanität dargestellt. Hier muss man schon etwas genauer hinsehen, um einen schwachen gegenläufigen Trend zu erkennen; der Korrelationskoeffizient ist mit r = -0,371 gering und gegenläufig.

Im letzten Beispiel ist die tägliche Kalorienaufnahme in Abhängigkeit von der Einwohnerdichte aufgetragen. Hier ist offenbar keinerlei Zusammenhang gegeben, was auch durch den Korrela-tionskoeffizienten r = -0,003 dokumentiert wird:

Sie sollten nun in der Lage sein, Werte von Korrelationskoeffizienten richtig einzuordnen. Auch bei der Korrelationsrechnung stellt sich aber die Frage, ob die Werte der berechneten Korrela-tionskoeffizienten signifikant (genauer: signifikant verschieden von null) sind. Dies ist stets abhängig vom Betrag des Korrelationskoeffizienten und von der zugrunde liegenden Fallzahl. (Anmerkung isa hager: Bei großen Stichproben sind schon niedrige Korrelationen signifikant. Oder: Je kleiner die Stichprobe, desto höher muß der Korrelationskoeffizient sein, um signifikant zu sein – wegen größerer Zufallsschwannkungen.)

Page 11: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 11

Aus der Vorlesung: Pearson-Korrelation bei intervallskalierten Variablen:

Einkommen = abhängige Variable, Alter = unabhängige Variable

Untersucht wird der Einfluß des Alters auf das Einkommen.

∑∑

==

=

−−

−−=

n

ii

n

ii

n

iii

yyn

xxn

yyxxnr

1

2

1

2

1

)(1

)(1

))((1

:

Standard-

abweichung

von y Standard-

abweichung

von x

Die Kovarianz ist das Produkt der einzelnen Meßwertabstände beider Variablen zu den jeweiligen Mittelwerten.

Kovarianz

von xy

Page 12: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 12

Diese Formel bedeutet nichts anderes als die Kovarianz beider Variablen dividiert durch das Produkt der beiden Standardabweichungen der beiden Variablen, oder kurz:

,yx

xy

ss

sr =

Bei der Regressionanalyse wird eine Gerade durch den Punkteschwarm hindurch durchgelegt, welche die minimalsten Abstände zu den Punkten aufweist. Diese Gerade heißt Regressions-

gerade. Diese Gerade kann als Schätzfunktion gelten: Aufgrund des Alters wird das Einkommen geschätzt. Das geschätzte Einkommen kann nach folgender Formel berechnet werden:

ŷi = geschätztes Einkommen, b0 = erster Schätzwert auf der y-Achse, b1 = Steigung (in dem Fall in öS pro Lebensjahr), xi = das jeweilige Alter des/r Befragten;

Page 13: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 13

R2 =

Anteil der erklärten Varianz

an der Gesamtvarianz

Gesamtvarianz =

erklärte + nicht erklärte

Varianz

Die Residuen sind die Abstände der tatsächlichen Meßwerte zu den Schätzwerten auf der Regressionsgerade. (siehe Kreuztabelle: Residuen = Abweichung tatsächliche und erwartete/geschätzte Häufigkeiten) Die Residualvarianz ist die nicht erklärte Varianz: Jener Anteil der Streuung des Einkommens, der durch das Alter nicht erklärt werden kann.

Die erklärte Varianz ist jener Anteil an der Gesamtstreuung des Einkommens, welcher durch das Alter erklärt werden kann. Oder: Die Abstände zwischen den Schätzwerden und den Mittelwerten. = Was die Befragten aufgrund ihres Alters mehr (oder weniger) verdienen als der Durchschnitt.

Herr Dipl.Ing. Otto Maier

Herr Otto Maier ist 55

Jahre alt und verdient

43.000.- öS im Monat.

Durchschnittlich

verdienen die Befragten

26.000.- öS im Monat.

Laut Schätzung mithilfe

der Regressionsgeraden

müsste Herr O. Maier

aufgrund seines Alters

35.000.- öS verdienen,

also 9.000.- öS mehr als

der Durchschnitt.

Tatsächlich verdient er

aber 17.000.- öS mehr

als der Durchschnitt.

Page 14: Walter Krämer: Statistik verstehen – Eine Gebrauchs ... 7 Korrelation.pdf · Vorzeichen, entweder zweimal positiv oder zweimal negativ, und das Produkt, alias Fläche zwischen

VO 7 Statistik für Pflegewissenschaft (Hager) Korrelation 14

Gesamtvarianz = Σ (yi – y)2 Die gesamte Streuung der Einzelwerte des Einkommens (y) um den Mittelwert des Einkommens. (“Was Herr Otto Maier mehr (oder weniger) verdient als der Durchschnitt.”) 43.000.- öS (Einkommen von O.Maier) – 26.000.- öS (Durchschnitt) = +17.000.- öS

Erklärte Varianz = Σ (ŷi – y)2 Die Abstände von den Schätzwerten des Einkommens (= alle Werte, die auf der Regressions-gerade liegen) zum Mittelwert des Einkommens. (“Jener Betrag, den Herr Otto Maier aufgrund seines Alters mehr (oder weniger) verdienen müßte als der Durchschnitt.”) 35.000.- öS (geschätztes Einkommen von O.Maier) – 26.000.- öS (Durchschnitt) = +9.000.- öS Konkjunktiv, weil es kein realer Wert, sondern ein Schätzwert ist. Jener Anteil an der Streuung des Einkommens, den wir durch das Alter erklären können.

Resisualvarianz = Σ (yi – ŷi)

2 Die Abstände von den Einzelwerten des Einkommens zu den Schätzwerten (= alle Werte, die auf der Regressionsgerade liegen). (“Was O. Maier mehr (oder weniger) verdient als wir aufgrund seines Alters schätzen würden.”) 43.000.- öS (Eink. von O.Maier) – 35.000.- öS (geschätztes Eink. von O.Maier) = + 8.000.- öS. Der Herr Dipl.Ing. Otto Maier verdient also um 8.000.- öS mehr, als wir aufgrund seins Alters geschätzt haben. – warum bloß? Aus welchen Gründen auch immer: Geschlecht, Position, Branche, Arbeitszeit ...... Jener Anteil der Streuung des Einkommens, den wir durch das Alter NICHT erklären können.

R2 = Bestimmtheitsmaß (r2) Quadriert man den bivarianten Korrelationskoeffizienten, so erhält man das Bestimmtheitsmaß. Das Bestimmtheitsmaß ist der Anteil der erklärten Varianz an der Gesamtvarianz der

abhängigen Variable. (Der Wert geht von 0% bis 100%) Signifikanz einer Korrelation: Wie jedes Prüfmaß muß auch der Korrelationskoeffizient auf seine Signfikanz überprüft werden. Dabei ist die Fallzahl zu beachten. So sind bei einer zweiseitigen Fragestellung (ungerichtete Hypothese = man weiß nicht in welche Richtung der Zusammenhang geht) Korrelationskoeffizienten ab ...... (siehe Tabelle) auf 0,05-Niveau signifikant:

n r

5 0,754 10 0,576 25 0,40 50 0,273 100 0,195 500 0,0875 1000 0,0619 2000 0,0438

Weiterführende Literatur:

Hans Bennigshaus (2002): Deskriptive Statistik – Eine Einführung für Sozialwissenschaftler, Teubner Verlag Wiesbaden, S.177 ff

Daraus wird ersichtlich, dass mit steigender Stichprobengröße

breits immer kleinere Korrelationen signifikant sind. Die Signifikanz der Korrelation ist daher besonders bei kleinen Stichproben wichtig, bei größeren Stichproben sind auch schon unbedeutende Zusammenhänge signifikant.