Grenzen des Signifikanztests - TU Chemnitz

211 downloads 39 Views 527KB Size Report
27.05.2009. 1 methodenlehre ll – Grenzen des Signifikanztests. • Möglichkeiten und Grenzen des Signifikanztests. Thomas Schäfer | SS 2009. 1 methodenlehre  ...
27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

• Möglichkeiten und Grenzen  des Signifikanztests

Thomas Schäfer | SS 2009

1

methodenlehre ll – Grenzen des Signifikanztests

Grenzen des Signifikanztests Sie haben zur Untersuchung Ihrer Fragestellung eine  Experimental‐ und eine Kontrollgruppe mit jeweils 20  Teilnehmern verglichen Zur statistischen Auswertung Teilnehmern verglichen. Zur statistischen Auswertung  benutzen sie einen t‐Test für unabhängige  Mittelwertsunterschiede und finden: t(18) = 2,7, p = .01  (gerundet).  Bitte überlegen Sie, welche der folgenden  Aussagen richtig und welche falsch sind. 

Thomas Schäfer | SS 2009

2

1

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Grenzen des Signifikanztests a) Sie haben bewiesen, dass die Nullhypothese (kein Unterschied  zwischen den Populationsmitteln) nicht stimmt g b)) Sie haben die Wahrscheinlichkeit dafür gefunden, dass die  Nullhypothese wahr ist. c) Sie haben bewiesen, dass Ihre Alternativhypothese (es gibt einen  Unterschied zwischen den Populationsmitteln) stimmt. d) Sie können die Wahrscheinlichkeit dafür ableiten, dass die  Alternativhypothese richtig ist. e) Sie kennen die Wahrscheinlichkeit dafür, dass Sie eine falsche  Entscheidung treffen, wenn Sie sich entscheiden, die  Nullhypothese zu verwerfen Nullhypothese zu verwerfen. f) Sie haben einen reliablen experimentellen Befund in dem Sinne,  dass Sie, wenn das Experiment sehr oft repliziert würde, in  ungefähr 99% der Fälle ein signifikantes Resultat erhalten würden.

3

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Die Rolle der Statistik im Forschungsprozess Wundern, Raten, Fragen

Theorie Forschungshypothese Operationalisierung Durchführung der Studie und Messung Daten Auswertung Interpretation Implikation für die Theorie

Deskriptive Statistik Stichprobendaten darstellen und beschreiben durch: • Kennwerte • Grafiken und Tabellen Explorative Statistik Muster in Daten erkennen  und beschreiben Inferenzstatistik Stichprobendaten auf die Population verallgemeinern

Beantworten der Fragen

Thomas Schäfer | SS 2009

4

2

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Die Rolle der Statistik im Forschungsprozess •

Was sagen die Daten zu meiner Theorie / Fragestellung?



Wie überzeuge ich die Fachkollegen von meiner Interpretation?

Ein überzeugendes Argument sollte die MAGIC-Kriterien erfüllen (nach R. P. Abelson,1995: „Statistics as principled argument“) • Magnitude (Größe von Effekten)

Æ Effektgrößen

• Articulation (Detailgenauigkeit)

Æ z.B. Kontrastanalysen

• Generality (Breite der Schlussfolgerungen)

Æ z.B. Metaanalysen

• Interestingness (Potential für Meinungsänderung) Æ inhaltliche Wichtigkeit • Credibility (Methodik, theoretische Kohärenz)

Æ Sauberkeit der Durchführung 5

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Die Rolle der Statistik im Forschungsprozess wird durch Standardisierung  anhand der Streuungen zur  Effektgröße

drei mögliche inferenzstatistische Aussagen: Verteilung möglicher Verteilung möglicher  Effekte in der Population

1.

Schätzung des Standardfehlers des Effektes anhand dessen  Stichprobenverteilung

2.

Angabe eines Konfidenzintervalls für den Effekt anhand dessen  Stichprobenverteilung

3.

Berechnung der Prüfgröße t und  Prüfen auf Signifikanz mit Hilfe  der t‐Verteilung (p < α?)

Effekt

sA

sB

zwei unabhängige Stichproben:  Ngesamt wird aufgeteilt in nA und nB

Thomas Schäfer | SS 2009

se Verteilung möglicher  Effekte in der Population

Verteilung der Prüfgröße   t, falls die H0 zutrifft

α

p

6

3

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Hauptaussage einer Studie: der Effekt 5

4

4

3 2 1 0

Rating für Klassiik

5

4

Rating für Klassiik

Rating für Klassik

A                                                       B                                                       C 5

3 2 1 0

Männer

Frauen

3 2 1 0

Männer

Frauen

Männer

Frauen

Geschlecht

Geschlecht

Geschlecht

Balkendiagramme mit SD

Balkendiagramme mit se

Fehlerplots

Die Effekte werden durch Standardisierung anhand der  Streuungen zur Effektgröße

7

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Rückblick: wie entstehen Stichprobenverteilungen? Häufigkeitsverteilungen 35

Stichprobenverteilung

Studie 1

25

35

20

15

10

5

0

R o1        2         3         4        5 ck R ap K la s s ik M u s ik s til Rating für Klassik 35

Anzahl Person nen

30

Studie 2

Anzahl Stichproben

Anzahl Persone en

30

30

25

20

15

10

5

25

0 20

Rock Rap Klassik 1          2           3           4          5 Musikstil Rating für Klassik

15

10

5

0

R o1        2         3         4        5 ck R ap K la s s ik M u s ik s til Rating für Klassik

usw. Thomas Schäfer | SS 2009

8

4

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Inferenzstatistische Aussagen I: Der Standardfehler Stichprobenverteilung

Anzahl Stichproben

35

30

25

20

15

s0,6e

10

5

0

Rock Rap Klassik 1,8      2,4       3      3,6     4,2 Musikstil Rating für Klassik

9

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Inferenzstatistische Aussagen II: Konfidenzintervalle z.B. für einen empirischen Mittelwertsunterschied von 10 Punkten in einem Test 90%‐Konfidenzintervall

‐10                    0                   10                 20                  30 empirischer Wert

Æ der Wert 0 wird nicht überdeckt

Thomas Schäfer | SS 2009

95%‐Konfidenzintervall

‐10                    0                   10                 20                  30 empirischer Wert

Æ der Wert 0 wird überdeckt

10

5

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Inferenzstatistische Aussagen III: Signifikanztests „Früher” Fisher (1935)

„Später” Fisher (1956)

Neyman und Pearson

Das Signifikanz‐ niveau muss vor der Durchführung  des Tests bestimmt  werden (im Sinne  einer Konvention,  z. .B. α = 5%). Das Signifikanz Das Signifikanz‐ niveau ist also eine  Eigenschaft des  Tests.

Das exakte Signifikanz‐ niveau muss nach Durchführung des Tests  berechnet werden (p‐Wert). Nun ist das Signifikanz‐ niveau eine Eigenschaft  der Daten Eine der Daten. Eine  (willkürlich festgelegte)  Konvention ist nicht  mehr notwendig.

α und β müssen vor der  Durchführung des Tests  festgelegt werden. α und β sind die relativen  Häufigkeiten eines Fehlers  der ersten oder zweiten Art  und deshalb Eigenschaften  des Tests Für das Festlegen des Tests. Für das Festlegen  von α und β ist keine  Konvention nötig, sondern  eine Kosten‐Nutzen  Überlegung zu den  möglichen Fehlern. 11

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Der Signifikanztest nach Fisher

H0 0 Erwartungswert ist immer  0, das ist der  wahrscheinlichste Wert ahrscheinlichste Wert

Wert x, den man noch mit  einer bestimmten  Wahrscheinlichkeit p Wahrscheinlichkeit p ziehen kann

H0

Irrtumswahrscheinlichkeit  Alpha (= Signifikanzniveau)  liegt bei 5% das Alpha liegt bei 5%, das Alpha‐ Niveau schneidet daher 5%  der Fläche der Verteilung ab

0 empirischer Wert mit p = 6%  empirischer Wert mit p = 3%  ist nicht signifikant ist signifikant Thomas Schäfer | SS 2009

12

6

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Der Signifikanztest nach Neyman & Pearson 1. Formuliere eine Nullhypothese und konstruiere die entsprechende  Stichprobenverteilung. 2. Formuliere Formuliere eine Alternativhypothese und konstruiere die  eine Alternativhypothese und konstruiere die entsprechende Stichprobenverteilung. 3. Wäge die Wichtigkeit von α und β ab. 4. Prüfe, ob der p‐Wert, die Wahrscheinlichkeit des  Stichprobenergebnisses unter der Annahme, dass die  Nullhypothese zutrifft, größer oder kleiner als α ist. 5. Wenn der p‐Wert nicht größer als α ist, dann ist das Ergebnis des  Tests signifikant ansonsten ist es nicht signifikant Tests signifikant, ansonsten ist es nicht signifikant. 6. Wenn das Ergebnis signifikant ist, verhalte Dich so, wie wenn die  Alternativhypothese wahr wäre, wenn es nicht signifikant ist, so,  wie wenn die Nullhypothese zuträfe.

13

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Der Signifikanztest nach Neyman & Pearson Effekt

H0

H1 Effekt

0 Beta‐Fehler                                    Alpha‐Fehler

H0

H1 0 Beta‐Fehler                                    Alpha‐Fehler Alpha‐Niveau = 5%

Thomas Schäfer | SS 2009

14

7

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Der Signifikanztest nach Neyman & Pearson

Thomas Schäfer | SS 2009

15

methodenlehre ll – Grenzen des Signifikanztests

Welche Faktoren beeinflussen das Ergebnis eines  Signifikanztests? • Effekt in der Population ff p Æ je größer, desto eher signifikant • Abwägung von α und β α: je größer, desto eher signifikant β: je kleiner, desto eher signifikant (α und β sind komplementär) • Stichprobengröße Æ je größer, desto eher signifikant

Thomas Schäfer | SS 2009

16

8

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Welche Faktoren beeinflussen das Ergebnis eines  Signifikanztests? größere Stichproben

größerer  Populationseffekt

Effekt

H0

H1 0 Beta‐Fehler                                    Alpha‐Fehler Alpha‐Niveau = 5% 17

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Effekt in der Population Ergebnis eines Signifikanztests mit  H0 = 50%, H1 = 80% und n = 10  (Binomialtest). Eingetragen sind α‐ und β‐Fehler und das Kriterium (der  d β F hl d d K it i (d senkrechte Strich). Bei einer  Trefferrate von 7 aus 10 ergibt sich  ein p = 17,2%. Das Testergebnis ist  nicht signifikant, da p > α. Stichprobenverteilungen für H0 =  50%, H1 = 90% und n = 10  (Binomialtest). Bei einem α von  5,5% (Summe der hellen  schraffierten Balken) beträgt β 6,9%  (Summe der dunklen schraffierten  Balken) und die Power (1‐β) 93,1%. 18 Thomas Schäfer | SS 2009

18

9

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Abwägung von  α und β Stichprobenverteilungen  für H0 = 30%, H1 = 40% und n = 20 (Binomialtest).  und n  20 (Binomialtest) Bei einem α von 39,1%  (Summe der hellen  schraffierten Balken)  beträgt β 24,9% (Summe  der dunklen schraffierten  Balken) und die Power (1‐ β) 75,1%. Bei einem  empirischen Ergebnis von  40% resultiert ein p‐Wert  von 22,7%. Das Ergebnis  ist signifikant, da p ≤ α.

19

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Stichprobengröße Ergebnis eines Signifikanztests mit  H0 = 50%, H1 = 80% und n = 10  (Binomialtest). Bei α = 5,5% und  einem Ergebnis von 70% (7 aus 10)  ergibt sich ein p = 17,2%. Das  Testergebnis ist nicht signifikant, da  p > α. Ergebnis eines Signifikanztests mit  H0 = 50%, H1 = 80% und n = 40 (Binomialtest). Bei α = 4%  und  einem Ergebnis von 70% (28 von  40) resultiert p = 0,8%. Der Test ist  signifikant, da p ≤ α.

20 Thomas Schäfer | SS 2009

20

10

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Wozu braucht man die Alternativhypothese? • Konkretisierung der Forschungsfrage ‐ wie groß muss der Effekt mindestens sein, damit er inhaltlich  interessant ist? interessant ist? ‐ welchen Populationseffekt legen die Ergebnisse aus  vorhergehenden Studien nahe? • Vor dem Test  ‐ ist Power zu groß oder zu gering? ‐ wie groß sollte die Stichprobe sein? • Nach Nach dem Test: Interpretation des Ergebnisses dem Test: Interpretation des Ergebnisses ‐ was war die Wahrscheinlichkeit, den angenommenen Effekt  zu entdecken?  (besonders wichtig, wenn Nullhypothese mit  Forschungshypothese korrespondiert!) 21

Thomas Schäfer | SS 2009

methodenlehre ll – Grenzen des Signifikanztests

Einseitiges vs. zweiseitiges Testen einseitiger Test mit Alpha = 5%                                           zweiseitiger Test mit Alpha = 5%

H0

H0 5%

0

2,5%

2,5% 0

Æ nur relevant bei Fragestellungen, die in beide Richtungen gehen  können (z.B. Mittelwertsunterschiede) Æ nicht bei Häufigkeiten, Varianzen u.ä. Thomas Schäfer | SS 2009

22

11

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Beliebte Missinterpretationen von p‐Werten •

sind Indikatoren für die Größe eines Effekts.



erlauben eine Abschätzung der Wahrscheinlichkeit, dass die  Nullhypothese/Alternativhypothese zutrifft. llh h / l h h ff



sind „Irrtumswahrscheinlichkeiten“, das heißt, wenn man sich  auf Grund des p‐Werts dafür entscheidet, die Nullhypothese  zu verwerfen, kennt man die Wahrscheinlichkeit, dass man  dabei einen Fehler macht. 



erlauben eine Abschätzung der Wahrscheinlichkeit, dass ein  Ergebnis replizierbar ist.



erlauben es, zu entscheiden, ob ein Ergebnis zufällig  zustande kam.

Thomas Schäfer | SS 2009

23

methodenlehre ll – Grenzen des Signifikanztests

Beliebte Missinterpretationen von p‐Werten Warum ist p kein Indikator für Effektgröße? Æ p‐Werte verändern sich bei konstantem Effekt (z. B. r, d) wenn die  Stichprobengröße sich ändert Stichprobengröße sich ändert Warum kann man mit  p die Wahrscheinlichkeit der Hypothese nicht  abschätzen?  Æ p(Ergebnis|H0), nicht p(H0|Ergebnis) oder p(H1|Ergebnis) Æ keine Aussagen über die Wahrscheinlichkeit von Hypothesen  möglich! Warum ist p i nicht die Irrtumswahrscheinlichkeit? i h di h h i li hk i ? Æ Irrtumswahrscheinlichkeit wird vor dem Test festgelegt (α) Æ p wird hingegen erst nach dem Test berechnet; er ist ein „Produkt“  der Daten, α ist eine Eigenschaft des Tests Thomas Schäfer | SS 2009

24

12

27.05.2009

methodenlehre ll – Grenzen des Signifikanztests

Beliebte Missinterpretationen von p‐Werten Warum ist p kein Indikator für Replizierbarkeit ? Æ Replizierbarkeit hängt von Teststärke (Power) ab, und die wiederum  von n, der Effektgröße und α (nicht von p) Warum ist p nur bedingt ein Indikator für die Zufälligkeit des  Ergebnisses ? Zufällig:  es ist kein Populationseffekt vorhanden, aber durch  Zufallseinflüsse beim Ziehen der Stichprobe erhält man den in  dieser Stichprobe gefundenen Effekt  Nicht mehr zufällig: ein Ergebnis, das unter der Gültigkeit der  Nullhypothese unwahrscheinlicher ist als das durch α festgelegte  Kriterium, also p