1
Techniken zum Erreichenvon Konstanz
Literatur: L.B. Christensen, Experimental Methodology, Allyn and Bacon, 2001, Kap. 8, 9, 10
2
Wozu Konstanz?
• Um interne Gültigkeit zu erreichen, muss man Techniken benutzen, die den differenziellen Einfluss von Störvariablen ausschalten. Möglichkeiten dazu:– statistische Technik wie Varianzanalyse (nicht besprochen)
– Kontrolltechniken
– Versuchsaufbau
3
Wozu Konstanz?
Beispiel: Wir untersuchen den Einfluss von Nachhilfe (unabh. Variable) auf Noten (abh. Variable). Der Unterschied in Noten sollte also auf Nachhilfe zurückzuführen sein. Wenn aber die Schüler mit Nachhilfe intelligenter waren als die ohne Nachhilfe, dann könnte eine Verbesserung auf die höhere Intelligenz (Störvariable) zurückzuführen sein.
4
I. Kontrolltechniken
• Kontrolltechniken halten den Einfluss von Störvariablen konstant für den Variationsbereich der unabhängigen Variablen.
• Sie werden in Versuchsaufbauten eingesetzt (siehe diese)
5
Randomisierung
• Randomisierung ist die wichtigste und grundlegendste Technik, um zu vermeiden, dass Störvariablen (bekannte und unbekannte) das Ergebnis systematisch beeinflussen.1. Zufällige Selektion der Teilnehmer
2. Zufällige Zuweisung der Teilnehmer zu Versuchsbedingungen.
6
Randomisierung: Selektion
• Zunächst ist man bemüht, eine repräsentative Stichprobe einer Population als Teilnehmer zu bekommen.– Beispiele: weibliche Professoren, Schüler unter 12, Autofahrer/innen,
Informatikstudenten, Programmierer.
• Eine randomisierte, repräsentative Selektion ist meist sehr teuer; wenn sie nicht gelingt, dann ist das Ergebnis nicht generalisierbar. Für die Kontrolle von Störvariablen ist randomisierte Selektion nicht erforderlich.
• Die (mehr oder weniger) zufällig selektierten Teilnehmer werden dann echt zufällig auf Versuchsbedingungen verteilt.
7
Randomisierung: Zuweisung
• Zufällige Zuweisung der Teilnehmer an Versuchsbedingungen erzielt eine zufällige Verteilung aller Störgrößen, die zufällig auftreten. Daher sollte der Einfluss dieser Störvariablen (bekannt oder unbekannt) in allen Versuchsbedingungen etwa gleich sein.
• Randomisierung reicht nicht aus bei Subjekt- und Experimentator-Effekt. Diese sind nicht zufällig verteilt.
• Natürlich kann man auch eine ungleichmäßige Verteilung erhalten. Dies kann man bei bekannten Störvariablen überprüfen, z.B. bei Intelligenz durch IQ-Test oder Noten.
• Man soll auch bei kleinen Gruppen zufällig zuweisen, da damit die Wahrscheinlichkeit eines systematischen Einflusses der Störvariablen sinkt.
8
Angleichung (Matching)
• Wenn der zu beobachtende Effekt sehr klein ist, kann Randomisierung zu insensitiv sein. D.h. der Ausschlag der abhängigen Variablen ist so klein, dass er im Rauschen untergeht.
• Durch Angleichung der Teilnehmer in den Gruppen kann die Empfindlichkeit des Experiments erhöht werden.
• Angleichung ist aber kein Ersatz für Randomisierung, sondern ein Zusatz.
9
Angleichung: Störvariable konstant halten
• Wenn möglich kann man den Einfluss einer Störvariablen minimieren, in dem man sie festhält.– Wenn z.B. das Geschlecht der Teilnehmer eine Störvariable
sein könnte, könnte man nur männliche Teilnehmer aus der Stichprobe wählen und diese dann zufällig auf die Versuchsbedingungen verteilen.
• Nachteil 1: nicht generalisierbar auf Populationen, für die die Störvariable andere Werte annimmt.
• Nachteil 2: die Stichprobe kann zu klein werden.
10
Angleichung: Einschließung der Störvariable in den Versuchsaufbau.
• Die Störvariable wird dann zu einer weiteren unabhängigen Variablen.
– Beispiel: wir wollen bestimmte Lernstrategien untersuchen. Die Intelligenz ist aber ein Störfaktor. Also variieren wir nicht nur die Lernstrategie, sondern auch den IQ-Wert (ähnlich für Alter)
Stichprobemit IQ von 90-120
Stichprobemit IQ 90-99
Stichprobemit IQ 100-109
Stichprobemit IQ 110-120
Strat. A Strat. B
11
Angleichung durch Paarung
• Man formt Paare, die in den wesentlichen Störfaktoren ähnlich sind, z.B. im Alter, Geschlecht, IQ, etc.
• Die Paare werden dann zufällig auf die Gruppen verteilt.• (ähnlich wie vorige Methode, nur dass sich die Anzahl
der Gruppen nicht erhöht).• D.h. für jede Kombination von Störfaktoren gibt es einen
weiteren Teilnehmer mit der gleichen Kombination in der anderen Gruppe
• Nachteile: was sind die wesentlichen Variablen? Paarung bei vielen Variablen kann schwierig werden.
12
Angleichung der Häufigkeitsverteilung
• Gruppen werden so gewählt, dass sie ähnliche Verteilung der Störvariablen haben.
• Beispiel 1: wähle eine erste Gruppe. Bestimme IQ Mittelwert, Varianz, Verteilung der IQ-Werte. Selektiere daraufhin eine weitere Gruppe mit ähnlichen Werten.
• Beispiel 2: Stratifzierung: Bestimme die 20% der Teilnehmer mit der besten Vorbildung. Verteile diese auf die verschiedenen Gruppen. Wiederhole für eine oder zwei weitere Vorbildungsniveaus. (benutze z.B. die Dauer der praktischen Erfahrung in der Programmierung)
13
Subjekt-Effekt (1)
• Wir benötigen eine Konstanz dessen, wie Teilnehmer ihr Bedürfnis der positiven Selbstdarstellung meinen erfüllen zu können.
• Doppel-blinder Versuch mit Placebo:– erzeuge Variationen die allen Beteiligten unter allen
Umständen als gleich erscheinen.
– Subjekte erhalten entweder eine echte Behandlung oder eine Scheinbehandlung (Placebo). Alle Subjekte glauben, sie haben die gleiche Behandlung erfahren.
– Experimentator weiß nicht, welche Behandlung gewählt wurde, kann dies also nicht kommunizieren.
14
Subjekt-Effekt (2)
• Doppel-blinde Versuche sind oftmals nicht möglich, da nicht alle Versuchsbedingungen so gestaltet werden können, dass sie gleich erscheinen. Behelf:– Bewusste Irreführung: Den Teilnehmern wird eine plausibler
Zweck des Experiments angegeben, der aber unabhängig von der wirklich getesteten Hypothese ist. Damit haben alle den gleichen Anreiz, sich positiv darzustellen, der aber (hoffentlich) das Ergebnis nicht beeinflusst.
– Verborgenes Experiment: Teilnehmer wissen nicht, dass sie an einem Experiment teilnehmen, z.B. als Teil einer Klausur oder in dem man Leute auf der Straße in ein Gespräch verwickelt.
• Ethische Problem mit beiden.
15
Subjekt-Effekt (3)
• Wenn Subjekt-Effekte konstant gehalten wurden, muss man trotzdem wissen, welche Werte sie hatten. Das macht man mit einem Fragebogen am Ende des Experiments. Fragen:– Was war der Zweck des Experiments?
– Was wollte der Experimentator herausfinden?
– Welche Arten von Antworten haben Sie gegeben und warum?
– Wie haben andere auf das Experiment reagiert?
• Antworten auf diese Fragen helfen, die Annahmen der Teilnehmer zu bestimmen und ob dadurch Fehler im Experiment auftraten.
16
Experimentator-Effekt
• Messfehler: automatische Erfassung oder Erfassung durch einen Unbeteiligten oder durch mehrere Erfasser, die ihre Werte abstimmen müssen.
• Blinder Versuch: Experimentator kennt die Zuordnung der Teilnehmer zu den Gruppen nicht (Zuteilung automatisch oder durch einen Unbeteiligten).
• partiell blinder Versuch: Experimentator kennt die Zuordnung nicht bis zum letzt möglichen Moment. Z.B. könnte er die Anweisungen allen geben und dann als letztes die Zuteilung randomisiert durchführen.
17
Folge-Effekt
• Wenn Teilnehmer unter mehreren, aufeinanderfolgenden Versuchsbedingungen arbeiten, können Folge-Effekte auftreten.– Lernen (Methoden und Werkzeuge)– Vertrautheit mit der Versuchsanordnung, Umgebung– Übertragungseffekt von einer Bedingung auf die
nächste.
• Gegenmaßnahmen: Zunächst Ausbildung der Teilnehmer an Werkzeugen und Methoden, vertraute Umgebung benutzen.
18
Folge-Effekt: Gegenbalanzierung(1)
• Intra-Subjekt Gegenbalanzierung: bei zwei Versuchsbedingungen (A und B), gib jedem Teilnehmer beide Reihenfolgen: ABBA.– Beispiel: Coca Cola vs. Pepsi Cola Geschmackstest.
– Angenommen, bei jedem wiederholten Versuch steigt die Bewertung um einen konstanten Wert dann, ist die Summe der Bewertungen für A und B gleich. Damit ist der Folge-
Effekt neutralisiert.
A B B A
0 1 2 3
Bedingung
Bewertung Bewertung A: 3Bewertung B: 3
19
Folge-Effekt: Gegenbalanzierung (2)
• Wenn die Steigerung der Bewertung nicht linear ist (z.B. 0, 4, 6, 8), dann kann man den Ordnungseffekt damit kontrollieren, indem man die andere Hälfte der Teilnehme die Reihenfolge BAAB durchführen lässt.
A B B A
0 4 6 8
Bedingung
Bewertung
Bewertung A: 18Bewertung B: 18
B A A B
0 4 6 8
Gegen Effekte, die durch Übertragung entstehen (dadurch, dass man einen Test gemacht hat, verhält man sich beim nächsten anders, ist meist außer Training wenig zu machen)
20
Folge-Effekt: Gegenbalanzierung (3)
• Anstelle von Intra-Subjekt-Gegenbalanzierung kann man auch Gruppen gegenbalanzieren. D.h. eine Gruppe führt AB aus, die andere BA. Insbesondere für mehr als zwei Versuchbedingungen notwendig.– Angenommen, wir untersuchen den Effekt von
Entwurfsmustern. Eine Gruppe bekommt erst eine Aufgabe ohne Entwurfsmuster, dann eine mit (AB); die zweite Gruppe in umgekehrter Reihenfolge (BA). Allerdings braucht man hierzu jeweils andere Aufgaben. Man kann innerhalb einer Gruppe nicht die gleiche Aufgabe zweimal verwenden.
21
II Versuchsaufbau (Research Design)
• Der Versuchsaufbau beschreibt den Plan, wie man eine Forschungsfrage beantworten wird
• Wichtiger Aspekt ist Kontrolle über ungewollte Variablen, aber auch die Messungen und Aufteilung in Gruppen
• Der Aufbau bestimmt, ob sinnvolle und objektive Aussagen getroffen werden können.
22
Ungeeignete Aufbauten
• Einzelne Gruppe mit Vor- und Nachtest– Vortest --> Behandlung --> Nachtest– Beispiel: Behandlung ist eine spezielle Ausbildung,
Vor- und Nachtest sind standardisierte Tests.– Ergebnis: Leistungssteigerung
• Schwächen dieses Aufbaus ?
• Ausgleich der Schwächen ?
23
Nichtäquivalente Gruppen
• Zugehörigkeit zu einer Gruppe nicht zufällig festgelegt
• Unterschiede in unabhängigen Variablen die Folge
• Beispiel: Teilnehmer entscheiden selber in welche Gruppe sie gehen
25
Anforderungen an Versuchsaufbau
1. Der Aufbau muss erlauben, die Forschungsfrage zu beantworten. Einfach nur irgendwelche Daten zu sammeln ist selten zielführend.
2. Störvariablen müssen kontrolliert werden, um sicher zu sein, ob der beobachtete Effekt auf die unabhängige Variable zurückzuführen ist. Alternative Hypothesen können mit Kontrollmethoden (z.B. Randomisierung) oder einer Kontrollgruppe eliminiert werden.
26
Anforderungen an Versuchsaufbau
3. Ergebnis muss auf andere Individuen oder Gruppen als die Teilnehmer generalisierbar sein.
27
Mögliche Aufbauten• Versuchsgruppe erhält die unabhängige Variable
zu einem gewissen Maß. • Kontrollgruppe wird entweder einer
unabhängigen Variablen nicht ausgesetzt oder erhält einen standardisierten oder typischen Wert für diese Variable.
• Kontrollgruppe dient als Vergleichsbasis und als Kontrolle für rivalisierende Hypothesen. Sie muss dazu alle Störvariablen möglichst genauso wie die Versuchsgruppe erhalten haben.
28
Geeignete Versuchaufbauten
Inter-Subjekt-Experiment mit Nachtest
StichprobevonTeilnehmern
zufällig verteilt auf
Versuchsgruppe
Kontrollgruppe
Behandlung
X
Messung
Y
Y
Vergleich
Beispiel: Käufer akzeptieren einen höheren Preis, wenn sie vorher einemKauf zugestimmt haben. Untersucht mit einem Experiment, das um Teilnahme an einem Experiment bittet. Versuchsgruppe wird vorher nicht gesagt, dass das Experiment schon um 7:00 morgens stattfindet, Kontrollgruppe schon. Von der Versuchsgruppe erscheinen mehr, weil sie vorher Teilnahme schon zugesagt hatten.
29
Eigenschaften
• Mit genügend vielen Teilnehmern erzeugt die Randomisierung gleichwertige Gruppen
• Nachteile:– möglicherweise nicht empfindlich genug– möglicherweise keine Gleichwertigkeit der
Gruppen erreicht– Ausgleich: Angleichung der Gruppen. Allerdings
braucht man hierzu mehr Teilnehmer.
30
Angeglichenes Inter-Subjekt-Experiment mit Nachtest
Vergleich
StichprobevonTeilnehmern
Paarezufällig verteilt auf
Versuchsgruppe
Kontrollgruppe
Behandlung
X
Messung
Y
Y
Jeder Teilnehmerwird mit einemanderen gepaart
31
Einfaches randomisertes Experiment
(Inter-Subjekt, Nachtest)
Für mehr als zwei unterschiedliche Werte oder Niveaus derunabhängigen Variable. (R bedeutet zufällige Zuweisung.) Z.B. die verschiedenen Arten, eine Inspektion durchzuführen.
Versuchsgruppe 1
Kontrollgruppe
Versuchsgruppe 3
Versuchsgruppe 2
Behandlung Messung
X1
X2
X3
Y
Y
Y
Y
VergleichR
32
Faktorielles Experiment
Zwei oder mehr Vairablen werden gleichzeitig untersucht, um ihre unabhängigen Auswirkungen und ihre Interaktionen zu bestimmen.
Angenommen, Variable A hat drei Werte A1, A2, A3; Variable B habe zwei Werte (B1, B2); sechs Gruppen erforderlich.
Haupteffekt BA1 B1 A2 B1 A3 B1
A1 B2 A2 B2 A3 B2
A1 A2 A3
B1
B2
Mittel B1
Mittel B2
Mittel A1 Mittel A2 Mittel A3Haupteffekt A
33
Interaktionen beim faktoriellen Entwurf
A1 A2 A3
B1B2
A1 A2 A3
B2
B1
A1 A2 A3
B2
B1
A1 A2 A3
B2
B1
a) nur Haupteffekt A b) nur Haupteffekt B
c) nur Interaktion (Spaltensummen gleich und Zeilensummen gleich)
d) Haupteffekt A und B,keine Interaktion (Parallelen)
34
Interaktionen (2)
A1 A2 A3
B2
B1
A1 A2 A3
B2
B1
A1 A2 A3
B2
B1
Wenn Haupteffekt oder Interaktion allein signifikant sind, werden diese interpretiert. Wenn gemischt, dann hauptsächlich die Interaktion interpretieren.
e) Haupteffekt A und Interaktion (Zeilensummen gleich)
f) Haupteffekt B und Interaktion (Spaltensummen gleich)
g) Haupteffekt A und B und Interaktion
35
Intra-Subjekt-Experiment mit Nachtest
• Alle Teilnehmer nehmen an allen Behandlungen teil.
P1, P2, P3, P4, ...., Pn
Behandlung Messung
X1
X2
X3
Y
Y
Y
VergleichP1, P2, P3, P4, ...., Pn
P1, P2, P3, P4, ...., Pn
36
Intra-Subjekt-Experiment (2)
Vorteile– perfekte Angleichung: jeder Teilnehmer ist seine
eigene Kontrolle; daher hohe Empfindlichkeit.– Variablen wie Alter, Geschlecht, Erfahrung bleiben
konstant für das gesamte Experiment.– weniger Teilnehmer erforderlich als beim Inter-
Subjekt-Experiment.
37
Intra-Subjekt-Experiment (3)
Nachteile– Folge-Effekte:
• lineare Folgeeffekte durch Gegenbalanzierung ausgleichen
• nicht-lineare Folgeeffekte durch Gegenbalanzierung nicht ausgleichbar
– Einfluss von Reifung und Historie nicht feststellbar.
39
Experiment mit Vor- und Nachtest
• Kontrolliert Historie und Reifung, da alle Teilnehmer normalerweise Historie und Reifung gleich unterliegen.
Versuchsgruppe
Kontrollgruppe
Behandlung
X
Nachtest
Vor-Y - NachY
Y
Vortest
R
Y
Y
Unterschied
Vor-Y - NachY
Y
Vergleich
40
Quasi-Experiment
Von einem Quasi-Experiment spricht man, wenn nicht alle Forderungen an einen experimentellen Versuchsaufbau erfüllt werden können, z.B. Randomisierung – dies ist oft bei Experimenten außerhalb des Labors
der Fall– Hier muss man darauf achten, dass die
Gefährdungen der Gültigkeit durch andere Maßnahmen gering gehalten werden.
41
Quasi-Experiment
• Wichtige Gefährdungen der Gültigkeit:– Selektion– Historie (auch lokale Historie, d.h., die nur auf eine
Gruppe wirkt)– Reifung
• Ein Aufbau wie beim Experiment mit Vor- und Nachtest, aber ohne zufällige Zuweisung erlaubt es, Selektion und Historie wenigstens zu beobachten.
42
Quasi-Experiment mit Vor-und Nachtest
• Wenn die Kontrollgruppe im Vor- und Nachtest gleich bleibt, dann können Änderungen in der Versuchsgruppe auf einen Selektionseffekt oder lokale Historie zurückzuführen sein.
• Wenn Kontroll- und Versuchsgruppe unterschiedlich starke Änderungen vom Vortest zum Nachtest aufweisen, kann es sich um ein Selektionseffekt (unterschiedliche Reifung) oder lokale Historie handeln, die dem wahren Effekt überlagert ist (Unter- oder Überschätzung).
43
Quasi-Experiment mit Vor-und Nachtest (2)
• Nur wenn es eine Überkreuzung gibt, kann man einigermaßen sicher sein, dass es sich nicht um einen Selektionseffekt handelt. Bei einer Überkreuzung hat die schwächere Versuchsgruppe im Vortest schlechtere, im Nachtest bessere Ergebnisse als die Kontrollgruppe.
Vortest Nachtest
Kontrollgr.
Versuchsgruppe
44
Wichtige Begriffe
• Versuchsaufbau• nichtäquivalente Gruppen mit Nachtest• Einzelne Gruppe mit Vor- und Nachtest• Inter-Subjekt-Experiment mit Nachtest• Angeglichenes Inter-Subjekt-Experiment• Einfaches randomisertes Experiment• Faktorielles Experiment, Haupteffekt, Interaktionseffekt, Zelle• Intra-Subjekt-Experiment mit Nachtest• Experiment mit Vor- und Nachtest• Quasi-Experiment