27.05.2009. 1 methodenlehre ll – Grenzen des Signifikanztests. • Möglichkeiten
und Grenzen des Signifikanztests. Thomas Schäfer | SS 2009. 1 methodenlehre
...
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
• Möglichkeiten und Grenzen des Signifikanztests
Thomas Schäfer | SS 2009
1
methodenlehre ll – Grenzen des Signifikanztests
Grenzen des Signifikanztests Sie haben zur Untersuchung Ihrer Fragestellung eine Experimental‐ und eine Kontrollgruppe mit jeweils 20 Teilnehmern verglichen Zur statistischen Auswertung Teilnehmern verglichen. Zur statistischen Auswertung benutzen sie einen t‐Test für unabhängige Mittelwertsunterschiede und finden: t(18) = 2,7, p = .01 (gerundet). Bitte überlegen Sie, welche der folgenden Aussagen richtig und welche falsch sind.
Thomas Schäfer | SS 2009
2
1
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Grenzen des Signifikanztests a) Sie haben bewiesen, dass die Nullhypothese (kein Unterschied zwischen den Populationsmitteln) nicht stimmt g b)) Sie haben die Wahrscheinlichkeit dafür gefunden, dass die Nullhypothese wahr ist. c) Sie haben bewiesen, dass Ihre Alternativhypothese (es gibt einen Unterschied zwischen den Populationsmitteln) stimmt. d) Sie können die Wahrscheinlichkeit dafür ableiten, dass die Alternativhypothese richtig ist. e) Sie kennen die Wahrscheinlichkeit dafür, dass Sie eine falsche Entscheidung treffen, wenn Sie sich entscheiden, die Nullhypothese zu verwerfen Nullhypothese zu verwerfen. f) Sie haben einen reliablen experimentellen Befund in dem Sinne, dass Sie, wenn das Experiment sehr oft repliziert würde, in ungefähr 99% der Fälle ein signifikantes Resultat erhalten würden.
3
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Die Rolle der Statistik im Forschungsprozess Wundern, Raten, Fragen
Theorie Forschungshypothese Operationalisierung Durchführung der Studie und Messung Daten Auswertung Interpretation Implikation für die Theorie
Deskriptive Statistik Stichprobendaten darstellen und beschreiben durch: • Kennwerte • Grafiken und Tabellen Explorative Statistik Muster in Daten erkennen und beschreiben Inferenzstatistik Stichprobendaten auf die Population verallgemeinern
Beantworten der Fragen
Thomas Schäfer | SS 2009
4
2
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Die Rolle der Statistik im Forschungsprozess •
Was sagen die Daten zu meiner Theorie / Fragestellung?
•
Wie überzeuge ich die Fachkollegen von meiner Interpretation?
Ein überzeugendes Argument sollte die MAGIC-Kriterien erfüllen (nach R. P. Abelson,1995: „Statistics as principled argument“) • Magnitude (Größe von Effekten)
Æ Effektgrößen
• Articulation (Detailgenauigkeit)
Æ z.B. Kontrastanalysen
• Generality (Breite der Schlussfolgerungen)
Æ z.B. Metaanalysen
• Interestingness (Potential für Meinungsänderung) Æ inhaltliche Wichtigkeit • Credibility (Methodik, theoretische Kohärenz)
Æ Sauberkeit der Durchführung 5
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Die Rolle der Statistik im Forschungsprozess wird durch Standardisierung anhand der Streuungen zur Effektgröße
drei mögliche inferenzstatistische Aussagen: Verteilung möglicher Verteilung möglicher Effekte in der Population
1.
Schätzung des Standardfehlers des Effektes anhand dessen Stichprobenverteilung
2.
Angabe eines Konfidenzintervalls für den Effekt anhand dessen Stichprobenverteilung
3.
Berechnung der Prüfgröße t und Prüfen auf Signifikanz mit Hilfe der t‐Verteilung (p < α?)
Effekt
sA
sB
zwei unabhängige Stichproben: Ngesamt wird aufgeteilt in nA und nB
Thomas Schäfer | SS 2009
se Verteilung möglicher Effekte in der Population
Verteilung der Prüfgröße t, falls die H0 zutrifft
α
p
6
3
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Hauptaussage einer Studie: der Effekt 5
4
4
3 2 1 0
Rating für Klassiik
5
4
Rating für Klassiik
Rating für Klassik
A B C 5
3 2 1 0
Männer
Frauen
3 2 1 0
Männer
Frauen
Männer
Frauen
Geschlecht
Geschlecht
Geschlecht
Balkendiagramme mit SD
Balkendiagramme mit se
Fehlerplots
Die Effekte werden durch Standardisierung anhand der Streuungen zur Effektgröße
7
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Rückblick: wie entstehen Stichprobenverteilungen? Häufigkeitsverteilungen 35
Stichprobenverteilung
Studie 1
25
35
20
15
10
5
0
R o1 2 3 4 5 ck R ap K la s s ik M u s ik s til Rating für Klassik 35
Anzahl Person nen
30
Studie 2
Anzahl Stichproben
Anzahl Persone en
30
30
25
20
15
10
5
25
0 20
Rock Rap Klassik 1 2 3 4 5 Musikstil Rating für Klassik
15
10
5
0
R o1 2 3 4 5 ck R ap K la s s ik M u s ik s til Rating für Klassik
usw. Thomas Schäfer | SS 2009
8
4
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Inferenzstatistische Aussagen I: Der Standardfehler Stichprobenverteilung
Anzahl Stichproben
35
30
25
20
15
s0,6e
10
5
0
Rock Rap Klassik 1,8 2,4 3 3,6 4,2 Musikstil Rating für Klassik
9
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Inferenzstatistische Aussagen II: Konfidenzintervalle z.B. für einen empirischen Mittelwertsunterschied von 10 Punkten in einem Test 90%‐Konfidenzintervall
‐10 0 10 20 30 empirischer Wert
Æ der Wert 0 wird nicht überdeckt
Thomas Schäfer | SS 2009
95%‐Konfidenzintervall
‐10 0 10 20 30 empirischer Wert
Æ der Wert 0 wird überdeckt
10
5
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Inferenzstatistische Aussagen III: Signifikanztests „Früher” Fisher (1935)
„Später” Fisher (1956)
Neyman und Pearson
Das Signifikanz‐ niveau muss vor der Durchführung des Tests bestimmt werden (im Sinne einer Konvention, z. .B. α = 5%). Das Signifikanz Das Signifikanz‐ niveau ist also eine Eigenschaft des Tests.
Das exakte Signifikanz‐ niveau muss nach Durchführung des Tests berechnet werden (p‐Wert). Nun ist das Signifikanz‐ niveau eine Eigenschaft der Daten Eine der Daten. Eine (willkürlich festgelegte) Konvention ist nicht mehr notwendig.
α und β müssen vor der Durchführung des Tests festgelegt werden. α und β sind die relativen Häufigkeiten eines Fehlers der ersten oder zweiten Art und deshalb Eigenschaften des Tests Für das Festlegen des Tests. Für das Festlegen von α und β ist keine Konvention nötig, sondern eine Kosten‐Nutzen Überlegung zu den möglichen Fehlern. 11
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Der Signifikanztest nach Fisher
H0 0 Erwartungswert ist immer 0, das ist der wahrscheinlichste Wert ahrscheinlichste Wert
Wert x, den man noch mit einer bestimmten Wahrscheinlichkeit p Wahrscheinlichkeit p ziehen kann
H0
Irrtumswahrscheinlichkeit Alpha (= Signifikanzniveau) liegt bei 5% das Alpha liegt bei 5%, das Alpha‐ Niveau schneidet daher 5% der Fläche der Verteilung ab
0 empirischer Wert mit p = 6% empirischer Wert mit p = 3% ist nicht signifikant ist signifikant Thomas Schäfer | SS 2009
12
6
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Der Signifikanztest nach Neyman & Pearson 1. Formuliere eine Nullhypothese und konstruiere die entsprechende Stichprobenverteilung. 2. Formuliere Formuliere eine Alternativhypothese und konstruiere die eine Alternativhypothese und konstruiere die entsprechende Stichprobenverteilung. 3. Wäge die Wichtigkeit von α und β ab. 4. Prüfe, ob der p‐Wert, die Wahrscheinlichkeit des Stichprobenergebnisses unter der Annahme, dass die Nullhypothese zutrifft, größer oder kleiner als α ist. 5. Wenn der p‐Wert nicht größer als α ist, dann ist das Ergebnis des Tests signifikant ansonsten ist es nicht signifikant Tests signifikant, ansonsten ist es nicht signifikant. 6. Wenn das Ergebnis signifikant ist, verhalte Dich so, wie wenn die Alternativhypothese wahr wäre, wenn es nicht signifikant ist, so, wie wenn die Nullhypothese zuträfe.
13
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Der Signifikanztest nach Neyman & Pearson Effekt
H0
H1 Effekt
0 Beta‐Fehler Alpha‐Fehler
H0
H1 0 Beta‐Fehler Alpha‐Fehler Alpha‐Niveau = 5%
Thomas Schäfer | SS 2009
14
7
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Der Signifikanztest nach Neyman & Pearson
Thomas Schäfer | SS 2009
15
methodenlehre ll – Grenzen des Signifikanztests
Welche Faktoren beeinflussen das Ergebnis eines Signifikanztests? • Effekt in der Population ff p Æ je größer, desto eher signifikant • Abwägung von α und β α: je größer, desto eher signifikant β: je kleiner, desto eher signifikant (α und β sind komplementär) • Stichprobengröße Æ je größer, desto eher signifikant
Thomas Schäfer | SS 2009
16
8
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Welche Faktoren beeinflussen das Ergebnis eines Signifikanztests? größere Stichproben
größerer Populationseffekt
Effekt
H0
H1 0 Beta‐Fehler Alpha‐Fehler Alpha‐Niveau = 5% 17
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Effekt in der Population Ergebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 10 (Binomialtest). Eingetragen sind α‐ und β‐Fehler und das Kriterium (der d β F hl d d K it i (d senkrechte Strich). Bei einer Trefferrate von 7 aus 10 ergibt sich ein p = 17,2%. Das Testergebnis ist nicht signifikant, da p > α. Stichprobenverteilungen für H0 = 50%, H1 = 90% und n = 10 (Binomialtest). Bei einem α von 5,5% (Summe der hellen schraffierten Balken) beträgt β 6,9% (Summe der dunklen schraffierten Balken) und die Power (1‐β) 93,1%. 18 Thomas Schäfer | SS 2009
18
9
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Abwägung von α und β Stichprobenverteilungen für H0 = 30%, H1 = 40% und n = 20 (Binomialtest). und n 20 (Binomialtest) Bei einem α von 39,1% (Summe der hellen schraffierten Balken) beträgt β 24,9% (Summe der dunklen schraffierten Balken) und die Power (1‐ β) 75,1%. Bei einem empirischen Ergebnis von 40% resultiert ein p‐Wert von 22,7%. Das Ergebnis ist signifikant, da p ≤ α.
19
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Stichprobengröße Ergebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 10 (Binomialtest). Bei α = 5,5% und einem Ergebnis von 70% (7 aus 10) ergibt sich ein p = 17,2%. Das Testergebnis ist nicht signifikant, da p > α. Ergebnis eines Signifikanztests mit H0 = 50%, H1 = 80% und n = 40 (Binomialtest). Bei α = 4% und einem Ergebnis von 70% (28 von 40) resultiert p = 0,8%. Der Test ist signifikant, da p ≤ α.
20 Thomas Schäfer | SS 2009
20
10
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Wozu braucht man die Alternativhypothese? • Konkretisierung der Forschungsfrage ‐ wie groß muss der Effekt mindestens sein, damit er inhaltlich interessant ist? interessant ist? ‐ welchen Populationseffekt legen die Ergebnisse aus vorhergehenden Studien nahe? • Vor dem Test ‐ ist Power zu groß oder zu gering? ‐ wie groß sollte die Stichprobe sein? • Nach Nach dem Test: Interpretation des Ergebnisses dem Test: Interpretation des Ergebnisses ‐ was war die Wahrscheinlichkeit, den angenommenen Effekt zu entdecken? (besonders wichtig, wenn Nullhypothese mit Forschungshypothese korrespondiert!) 21
Thomas Schäfer | SS 2009
methodenlehre ll – Grenzen des Signifikanztests
Einseitiges vs. zweiseitiges Testen einseitiger Test mit Alpha = 5% zweiseitiger Test mit Alpha = 5%
H0
H0 5%
0
2,5%
2,5% 0
Æ nur relevant bei Fragestellungen, die in beide Richtungen gehen können (z.B. Mittelwertsunterschiede) Æ nicht bei Häufigkeiten, Varianzen u.ä. Thomas Schäfer | SS 2009
22
11
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Beliebte Missinterpretationen von p‐Werten •
sind Indikatoren für die Größe eines Effekts.
•
erlauben eine Abschätzung der Wahrscheinlichkeit, dass die Nullhypothese/Alternativhypothese zutrifft. llh h / l h h ff
•
sind „Irrtumswahrscheinlichkeiten“, das heißt, wenn man sich auf Grund des p‐Werts dafür entscheidet, die Nullhypothese zu verwerfen, kennt man die Wahrscheinlichkeit, dass man dabei einen Fehler macht.
•
erlauben eine Abschätzung der Wahrscheinlichkeit, dass ein Ergebnis replizierbar ist.
•
erlauben es, zu entscheiden, ob ein Ergebnis zufällig zustande kam.
Thomas Schäfer | SS 2009
23
methodenlehre ll – Grenzen des Signifikanztests
Beliebte Missinterpretationen von p‐Werten Warum ist p kein Indikator für Effektgröße? Æ p‐Werte verändern sich bei konstantem Effekt (z. B. r, d) wenn die Stichprobengröße sich ändert Stichprobengröße sich ändert Warum kann man mit p die Wahrscheinlichkeit der Hypothese nicht abschätzen? Æ p(Ergebnis|H0), nicht p(H0|Ergebnis) oder p(H1|Ergebnis) Æ keine Aussagen über die Wahrscheinlichkeit von Hypothesen möglich! Warum ist p i nicht die Irrtumswahrscheinlichkeit? i h di h h i li hk i ? Æ Irrtumswahrscheinlichkeit wird vor dem Test festgelegt (α) Æ p wird hingegen erst nach dem Test berechnet; er ist ein „Produkt“ der Daten, α ist eine Eigenschaft des Tests Thomas Schäfer | SS 2009
24
12
27.05.2009
methodenlehre ll – Grenzen des Signifikanztests
Beliebte Missinterpretationen von p‐Werten Warum ist p kein Indikator für Replizierbarkeit ? Æ Replizierbarkeit hängt von Teststärke (Power) ab, und die wiederum von n, der Effektgröße und α (nicht von p) Warum ist p nur bedingt ein Indikator für die Zufälligkeit des Ergebnisses ? Zufällig: es ist kein Populationseffekt vorhanden, aber durch Zufallseinflüsse beim Ziehen der Stichprobe erhält man den in dieser Stichprobe gefundenen Effekt Nicht mehr zufällig: ein Ergebnis, das unter der Gültigkeit der Nullhypothese unwahrscheinlicher ist als das durch α festgelegte Kriterium, also p