Statistik mit R & RStudio

37 Einfaktorielle ANOVA nach Kruskal-Wallis mit R (H-Test)

Einfaktorielle ANOVA nach Kruskal-Wallis (H-Test)

Der Kruskal-Wallis-Test, auch bekannt als “einseitige ANOVA nach Rängen”, ist ein nichtparametrischer statistischer Test, mit dem festgestellt werden kann, ob ein signifikanter Unterschied in den mittleren Rängen von zwei oder mehr unabhängigen Stichproben besteht. Der Kruskal-Wallis (H-Test) ist die nichtparametrische Alternative zur einfaktoriellen ANOVA. Beim Kruskal-Wallis (H-Test) kann die UV mehr als 2 Stufen haben und die AV ordinal skaliert sein.

In R kann der Kruskal-Wallis-Test mit der Funktion kruskal.test() durchgeführt werden.

Beispiel

Nehmen wir an, ein Autohaus möchte testen, wie zufrieden Kunden mit dem Kundendienst sind. Auf der Skala sehr zufrieden (1) > eher zufrieden (2) > eher unzufrieden (3) > sehr unzufrieden(4) und wir testen 3 Gruppen mit je 10 Kunden (Kunden mit normalem Kundendienst (1 Tag), Kunden mit 4h Express Service, Kunden mit 2h Express Service.

Frage: Gibt es Unterschiede in der Zufriedenheit mit dem Kundendienst zwischen den 3 Gruppen?

Importieren der Daten

Autohaus<-read.csv2(file="Autohaus.csv")

Schauen wir uns das zunächst wieder deskriptiv an.

tapply(Autohaus$Zufriedenheit,Autohaus$Gruppe, summary)
## $Gruppe_2h
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0     1.0     1.0     1.4     2.0     2.0 
## 
## $Gruppe_4h
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    2.00    2.00    2.10    2.75    3.00 
## 
## $Gruppe_K
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0     2.0     2.0     2.4     3.0     4.0

Deskriptiv sehen wir, dass sich vor allem die erste Gruppe von den beiden anderen Gruppen unterscheidet. Doch ob der Unterschied auch signifikant ist, zeigt uns nur der Test.

Test durchführen

Nun machen wir den Test. Die Notation entspricht der ANOVA (AV~UV).

kruskal.test(Zufriedenheit_Autohaus~Gruppe, data=Autohaus)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  Zufriedenheit_Autohaus by Gruppe
## Kruskal-Wallis chi-squared = 6.6189, df = 2, p-value =
## 0.03654

Interpretation

Wir erhalten als Ergebnis einen Chi-Quadrat Wert von 6,6 bei 2 Freiheitsgraden. Dies entspricht einem p-Wert von 0,037. Der Test wird also auf dem 5 %-Signifikanzniveau signifikant und wir können die H0 verwerfen.

Die H0 ist: Es gibt keinen Unterschied zwischen den Gruppen
Die H1 ist: Es gibt einen Unterschied zwischen den Gruppen

Wir wissen nun also, dass sich mindestens zwei Gruppen signifikant unterscheiden. Jedoch wissen wir nicht, welche Gruppen sich signifikant unterscheiden. Daher benötigen wir im nächsten Schritt sogenannte Post-Hoc-Verfahren, analog zur ANOVA.

Post-Hoc

Es gibt mehrere Post-hoc-Tests, die nach dem Kruskal-Wallis-Test verwendet werden können, wie der Conover-Iman-Test, der Dunn-Test und der Nemenyi-Test.
Die Post-hoc-Tests kommen über verschiedene Pakete, wie zum Beispiel agricolae, das die nützliche Funktion kruskal bietet. Diese kombiniert einen Kruskal-Wallis-Test mit Post-hoc-Verfahren. Die Notation entspricht dem Test, jedoch sollten Sie zusätzlich console = TRUE eingeben, um das Ergebnis direkt angezeigt zu bekommen.

library(agricolae)
kruskal(Autohaus$Zufriedenheit_Autohaus, Autohaus$Gruppe, console = TRUE)   
## 
## Study: Autohaus$Zufriedenheit_Autohaus ~ Autohaus$Gruppe
## Kruskal-Wallis test's
## Ties or no Ties
## 
## Critical Value: 6.61891
## Degrees of freedom: 2
## Pvalue Chisq  : 0.03653608 
## 
## Autohaus$Gruppe,  means of the ranks
## 
##           Autohaus.Zufriedenheit_Autohaus  r
## Gruppe_2h                            10.1 10
## Gruppe_4h                            17.4 10
## Gruppe_K                             19.0 10
## 
## Post Hoc Analysis
## 
## t-Student: 2.051831
## Alpha    : 0.05
## Minimum Significant Difference: 6.890087 
## 
## Treatments with the same letter are not significantly different.
## 
##           Autohaus$Zufriedenheit_Autohaus groups
## Gruppe_K                             19.0      a
## Gruppe_4h                            17.4      a
## Gruppe_2h                            10.1      b

Bei gleichen Buchstaben unterscheiden sich die Gruppen nicht. Der reguläre Kundendienst und der 4h Express Kundendienst unterscheidet sich also nicht signifikant. Jedoch unterscheidet sich der 2h Express Service signifikant sowohl vom 4h Express Service als auch vom regulären Kundendienst. Das Autohaus sollte also auf den 2h Kundendienst setzen.

In diesem Video zeige ich, wie das in R funktioniert:

Übung

Nutzen Sie wieder den “Prestige” Datensatz aus dem Paket “car” und untersuchen Sie – nichtparametrisch – ob es einen Unterschied zwischen dem Frauenanteil (Variable “women”) der drei Berufsgruppen (Variable “type”) gibt. Welche Gruppen unterscheiden sich signifikant?

library(car)

Die Lösung zu dieser Übungsaufgabe gibt es im neuen Buch Statistik mit R & RStudio.

Lizenz

Statistik Grundlagen Copyright © Patrick Planing. Alle Rechte vorbehalten.