Statistik mit R & RStudio
34 Chi-Quadrat Anpassungstest mit R
Chi-Quadrat Anpassungstest
Mit dem Chi-Quadrat-Test Anpassungstest können Sie prüfen, ob ein signifikanter Unterschied zwischen den beobachteten Häufigkeiten und den erwarteten Häufigkeiten einer oder mehrerer kategorischer Variablen besteht.
In R kann der Chi-Quadrat-Test mit der Funktion chisq.test() durchgeführt werden. Die Funktion nimmt eine Häufigkeitstabelle als Eingabe, d. h. eine Tabelle, die die Häufigkeiten der verschiedenen Kategorien von zwei oder mehr Variablen zeigt. Die Funktion berechnet die Chi-Quadrat-Teststatistik, den p-Wert und die Freiheitsgrade.
Beispiel 1
An einer Umfrage haben 60 Personen, 45 Männer und 15 Frauen teilgenommen. Die Frage ist, ob diese Verteilung signfikant von der Gleichverteilung abweicht. Mit anderen Worten kann es sich um eine Zufallsstichprobe einer gleichverteilten Grundgesamtheit (Geschlecht 50/50) handeln? Dies ist immer dann eine relevante Frage, wenn Sie zum Beispiel herausfinden wollen, ob eine vorliegende Stichprobe hinsichtlich eines bestimmten Merkmals repräsentativ sein kann (also der Population entspricht).
chisq.test(c(45,15))
##
## Chi-squared test for given probabilities
##
## data: c(45, 15)
## X-squared = 15, df = 1, p-value = 0.0001075
Der Test wird auf dem 5 %-Niveau signifikant. Es ist also sehr unwahrscheinlich, dass diese Stichprobe eine Zufallsstrichprobe aus einer gleichverteilten Grundgesamtheit (Geschlecht 50/50) ist. Wir können daher die H0 verwerfen. Die Hypothesen beim Chi-Quadrat Anpassungstest lauten:
H0: Die Verteilung der Stichprobe entspricht der Verteilung der Population (hier 50/50).
H1: Die Verteilung der Stichprobe entspricht nicht der Verteilung der Population (hier 50/50).
Mit anderen Worten: Diese Stichprobe ist wohl nicht repräsentativ für eine Population mit einer 50/50 Geschlechtsverteilung.
Wie wäre es, wenn wir 35 Männer und 25 Frauen in der Stichprobe haben?
chisq.test(c(35,25))
##
## Chi-squared test for given probabilities
##
## data: c(35, 25)
## X-squared = 1.6667, df = 1, p-value = 0.1967
In diesem Fall wird der Test nicht signifikant. Wir können die H0 nicht verwerfen. Diese Stichprobe kann also zufällig aus einer gleichverteilten Population entnommen worden sein.
Beispiel 2 mit Datensatz
Wie sieht es aus, wenn die Daten schon als Variablen vorliegen? Wir wollen ein Beispiel aus unserem WPStudis Datensatz berechnen: Entspricht die Geschlechtsverteilung in unserer Stichprobe der Population (Verteilung 50/50). Hierzu gehen wir wie folgt vor: Zunächst legen wir die Tabelle an und speichern diese unter einer neuen Variablen:
geschlecht <-table(WPStudis$F3_Geschlecht)
Schauen wir uns die Verteilung mal an und berechnen die relativen Häufigkeiten
prop.table(geschlecht)
##
## Maennlich Weiblich
## 0.172043 0.827957
Nun führen wir den Test durch
chisq.test(geschlecht)
##
## Chi-squared test for given probabilities
##
## data: geschlecht
## X-squared = 40.011, df = 1, p-value = 0.0000000002526
Der Test wird auf dem 5 %-Niveau signifikant. Es ist also sehr unwahrscheinlich, dass diese Stichprobe eine Zufallsstrichprobe aus einer gleichverteilten Grundgesamtheit (Geschlecht 50/50) ist.
Was wäre, wenn wir von einer 20/80 Verteilung in der Population ausgegangen wären? Hierzu können wir mit dem Argument p eine beliebige Verteilung in der Population vorgeben. Die Reihenfolge der Wahrscheinlichkeiten hängt dabei von der Kodierung der Variablen ab (hier 0=Männer, 1=Frauen).
chisq.test(geschlecht, p=c(.2,.8))
##
## Chi-squared test for given probabilities
##
## data: geschlecht
## X-squared = 0.4543, df = 1, p-value = 0.5003
In diesem Fall wird der Test nicht signifikant. Wenn wir also wissen, dass in der Population nur 20 % Brillenträger sind, könnte unsere Stichprobe durchaus eine Zufallsstichprobe dieser Population sein.
In diesem Video zeige ich, wie das in R funktioniert:
Übung
Führen Sie den Chi-Quadrat Anpassungstest für den Partnerschaftsstatus (F19 Partnerschaft) durch. Gehen Sie davon aus, dass in der Gruppe der Studierenden bundesweit 40% in einer festen Beziehung leben. Weichen die WP-Studierenden signifikant von der Bevölkerung ab?
Die Lösung zu dieser Übungsaufgabe gibt es im neuen Buch Statistik mit R & RStudio.