{"id":1735,"date":"2023-04-12T13:52:32","date_gmt":"2023-04-12T11:52:32","guid":{"rendered":"http:\/\/statistikgrundlagen.de\/ebook\/?post_type=chapter&#038;p=1735"},"modified":"2023-04-12T20:57:17","modified_gmt":"2023-04-12T18:57:17","slug":"deskriptive-statistik-mit-r","status":"publish","type":"chapter","link":"https:\/\/statistikgrundlagen.de\/ebook\/chapter\/deskriptive-statistik-mit-r\/","title":{"rendered":"Deskriptive Statistik mit R"},"content":{"raw":"<h1>Deskriptive Statistik<\/h1>\r\n<div id=\"einf\u00fchrung\" class=\"section level2 hasAnchor\">\r\n<h1>Einf\u00fchrung<\/h1>\r\nIn diesem Teil des Skripts wollen wir einfache deskriptive Analysen mit R durchf\u00fchren, also Kennwerte berechnen, die uns ein besseres Verst\u00e4ndnis der Daten erm\u00f6glichen. Wir nutzen dazu die Ergebnisse einer Erstsemesterbefragung. Diese finden Sie im Downloadbereich im Datensatz <em>WPStudis.RData<\/em>.\r\n\r\nLaden Sie den Datensatz <em>WPStudis.RData<\/em>.\r\n<div id=\"cb51\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb51-1\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.Rdata\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\nZun\u00e4chst nutzen wir die <em>names<\/em> Funktion, um uns die Variablennamen im Datensatz anzeigen zu lassen:\r\n<div id=\"cb52\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb52-1\"><span class=\"fu\">names<\/span>(WPStudis)<\/span>\r\n<span id=\"cb52-2\"><span class=\"do\">##  [1] \"F1_Nummer\"                         <\/span><\/span>\r\n<span id=\"cb52-3\"><span class=\"do\">##  [2] \"F2_Alter\"                          <\/span><\/span>\r\n<span id=\"cb52-4\"><span class=\"do\">##  [3] \"F3_Geschlecht\"                     <\/span><\/span>\r\n<span id=\"cb52-5\"><span class=\"do\">##  [4] \"F4_Koerpergroesse\"                 <\/span><\/span>\r\n<span id=\"cb52-6\"><span class=\"do\">##  [5] \"F5_Schuhgroesse\"                   <\/span><\/span>\r\n<span id=\"cb52-7\"><span class=\"do\">##  [6] \"F6_Sternzeichen\"                   <\/span><\/span>\r\n<span id=\"cb52-8\"><span class=\"do\">##  [7] \"F7_Brille\"                         <\/span><\/span>\r\n<span id=\"cb52-9\"><span class=\"do\">##  [8] \"F13_WhatsApp\"                      <\/span><\/span>\r\n<span id=\"cb52-10\"><span class=\"do\">##  [9] \"F17_Freunde_Facebook\"              <\/span><\/span>\r\n<span id=\"cb52-11\"><span class=\"do\">## [10] \"F19_Partnerschaft\"                 <\/span><\/span>\r\n<span id=\"cb52-12\"><span class=\"do\">## [11] \"F20_Einkommen_Glueck\"              <\/span><\/span>\r\n<span id=\"cb52-13\"><span class=\"do\">## [12] \"F21_01_Zufriedenheit_Leben\"        <\/span><\/span>\r\n<span id=\"cb52-14\"><span class=\"do\">## [13] \"F21_02_Zufriedenheit_Studium\"      <\/span><\/span>\r\n<span id=\"cb52-15\"><span class=\"do\">## [14] \"F21_03_Zufriedenheit_Partnerschaft\"<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"ma\u00dfe-der-zentralen-tendenz\" class=\"section level2 hasAnchor\">\r\n<h1>Ma\u00dfe der zentralen Tendenz<\/h1>\r\n<strong>Mittelwert<\/strong>\r\n\r\nDas arithmetische Mittel, auch als \u201cDurchschnitt\u201d oder einfach \u201cMittelwert\u201d bezeichnet, ist ein Ma\u00df f\u00fcr die zentrale Tendenz, das durch Summierung einer Reihe von Zahlen und anschlie\u00dfende Division durch die Gesamtzahl der Werte in der Reihe berechnet wird. In R k\u00f6nnen Sie das arithmetische Mittel mit der Funktion mean() berechnen. Wenn Sie zum Beispiel eine Variable x haben, k\u00f6nnen Sie den Mittelwert berechnen, indem Sie mean(x) eingeben.\r\n<div id=\"cb53\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb53-1\"><span class=\"fu\">mean<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb53-2\"><span class=\"do\">## [1] 169.9462<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<strong>Median<\/strong>\r\n\r\nDer Median ist ein weiteres Ma\u00df f\u00fcr die zentrale Tendenz. Dies ist der mittlere Wert eines Datensatzes, wenn dieser nach Werten aufsteigend geordnet ist. In R k\u00f6nnen Sie den Median mit der Funktion median() berechnen. Wenn Sie zum Beispiel eine Variable x haben, k\u00f6nnen Sie den Median berechnen, indem Sie median(x) eingeben.\r\n<div id=\"cb54\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb54-1\"><span class=\"fu\">median<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb54-2\"><span class=\"do\">## [1] 169<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<strong>Modus<\/strong>\r\n\r\nDer Modus ist ein Ma\u00df f\u00fcr die zentrale Tendenz, das den\/die am h\u00e4ufigsten auftretenden Wert(e) in einem Datensatz darstellt. Mit anderen Worten, ist der Modus der Wert, der in einem Datensatz am h\u00e4ufigsten vorkommt. Der Vorteil des Modus ist, dass dieser auch f\u00fcr nominale Variablen, wie zum Beispiel \u201cSternzeichen\u201d in unserem Datensatz, nutzbar ist.\r\n\r\nDie Berechnung des Modus geht in R mit einem kleinen Trick. Wir nutzen dazu die <em>table<\/em> Funktion, die uns die H\u00e4ufigkeit der einzelnen Werte ausgibt (Mehr zur <em>table<\/em> Funktion gibt es im n\u00e4chsten Kapitel). Dann lassen wir R den gr\u00f6\u00dften Wert ausgeben, dazu nutzen wir die <em>which.max<\/em> Funktion.\r\n<div id=\"cb55\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb55-1\"><span class=\"fu\">which.max<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen)) <\/span>\r\n<span id=\"cb55-2\"><span class=\"do\">## Zwilling <\/span><\/span>\r\n<span id=\"cb55-3\"><span class=\"do\">##       12<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"streuungsma\u00dfe\" class=\"section level2 hasAnchor\">\r\n<h1>Streuungsma\u00dfe<\/h1>\r\n<strong>Spannweite<\/strong>\r\n\r\nDie Spannweite, auch Bereich genannt, ist ein Ma\u00df f\u00fcr die Streuung eines Datensatzes. Diese wird als Differenz zwischen dem maximalen und dem minimalen Wert in einem Datensatz berechnet. Um den Bereich in R zu ermitteln, k\u00f6nnen Sie die integrierte Funktion range() verwenden. Wenn Sie zum Beispiel eine Variable mit dem Namen x haben, k\u00f6nnen Sie den Bereich durch den Aufruf von range(x) ermitteln. Diese Funktion gibt einen Output mit zwei Elementen zur\u00fcck: den Mindest- und den H\u00f6chstwert der Variable.\r\n<div id=\"cb56\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb56-1\"><span class=\"fu\">range<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb56-2\"><span class=\"do\">## [1] 155 187<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<strong>Standardabweichung<\/strong>\r\n\r\nIn der Statistik ist die Standardabweichung ein Ma\u00df f\u00fcr die Streuung eines Datensatzes, definiert als die Quadratwurzel aus seiner Varianz. Die Standardabweichung ist eine M\u00f6glichkeit, den Grad der Variation oder Streuung einer Variablen zu beschreiben (oft auch als die durchschnittliche Streuung bezeichnet). In R kann die Standardabweichung mit der Funktion sd() berechnet werden.\r\n\r\nWenn Sie beispielsweise eine Variable namens x haben, k\u00f6nnen Sie die Standardabweichung durch den Aufruf von sd(x) ermitteln. Dies gibt eine einzelne Zahl zur\u00fcck, die die Standardabweichung des Datensatzes darstellt.\r\n<div id=\"cb57\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb57-1\"><span class=\"fu\">sd<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb57-2\"><span class=\"do\">## [1] 7.756296<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<strong>Varianz<\/strong>\r\n\r\nIn der Statistik ist die Varianz ein Ma\u00df f\u00fcr die Streuung eines Datensatzes, definiert als der Durchschnitt der quadrierten Abweichungen der Datenpunkte vom Mittelwert. Sie ist eine M\u00f6glichkeit, den Umfang der Variation oder Streuung eines Satzes von Datenwerten zu quantifizieren. In R kann die Varianz mit der Funktion var() berechnet werden.\r\n\r\nWenn Sie beispielsweise eine Variable namens x haben, k\u00f6nnen Sie die Varianz durch den Aufruf von var(x) ermitteln. Dies gibt eine einzelne Zahl zur\u00fcck, die die Varianz des Datensatzes darstellt.\r\n<div id=\"cb58\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb58-1\"><span class=\"fu\">var<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb58-2\"><span class=\"do\">## [1] 60.16012<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<strong>Quantile<\/strong>\r\n\r\nQuantile sind Werte, die einen Datensatz in gleiche Teile unterteilen. Sie werden verwendet, um die Verteilung eines Datensatzes zusammenzufassen, indem eine Reihe von Grenzwerten festgelegt wird, die die Daten in gleich gro\u00dfe Gruppen unterteilen.\r\n\r\nIn R k\u00f6nnen Quantile mit der Funktion quantile() berechnet werden. Im Standard gibt die Funktion Quartile aus (Der Datensatz wird in vier Teile geteilt). Das Ergebnis zeigt das 25 %, 50 % und 75 % Quantil.\r\n<div id=\"cb59\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb59-1\"><span class=\"fu\">quantile<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb59-2\"><span class=\"do\">##   0%  25%  50%  75% 100% <\/span><\/span>\r\n<span id=\"cb59-3\"><span class=\"do\">##  155  164  169  175  187<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"zusammenfassung-von-kennwerten\" class=\"section level2 hasAnchor\">\r\n<h1>Zusammenfassung von Kennwerten<\/h1>\r\nIn R ist die Funktion summary() eine Funktion, die je nach Art der Variable eine Zusammenfassung verschiedener Kennwerte erstellt.\r\n\r\nBei Anwendung auf einen numerischen Vektor gibt die Funktion summary() die folgenden Statistiken zur\u00fcck:\r\n<ul>\r\n \t<li>Minimum<\/li>\r\n \t<li>\r\n<ol style=\"list-style-type: decimal;\">\r\n \t<li>Quantil<\/li>\r\n<\/ol>\r\n<\/li>\r\n \t<li>Median (Entspricht 2. Quantil)<\/li>\r\n \t<li>Mittelwert<\/li>\r\n \t<li>\r\n<ol style=\"list-style-type: decimal;\" start=\"3\">\r\n \t<li>Quantil<\/li>\r\n<\/ol>\r\n<\/li>\r\n \t<li>Maximum<\/li>\r\n \t<li>Standardabweichung<\/li>\r\n<\/ul>\r\nWenn Sie z. B. einen Datensatz namens data haben, k\u00f6nnen Sie die Zusammenfassung des Datensatzes durch den Aufruf von summary(data) erstellen.\r\n<div id=\"cb60\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb60-1\"><span class=\"fu\">summary<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb60-2\"><span class=\"do\">##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. <\/span><\/span>\r\n<span id=\"cb60-3\"><span class=\"do\">##   155.0   164.0   169.0   169.9   175.0   187.0<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nWenn Sie das gleiche f\u00fcr die Variable \u201cSternzeichen\u201d (eine Faktor-Variable) versuchen, dann erhalten Sie eine H\u00e4ufigkeitstabelle.\r\n<div id=\"cb61\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb61-1\"><span class=\"fu\">summary<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen)<\/span>\r\n<span id=\"cb61-2\"><span class=\"do\">##     Fische   Jungfrau      Krebs      Loewe   Schuetze   Skorpion <\/span><\/span>\r\n<span id=\"cb61-3\"><span class=\"do\">##          8         10          5          8          5          8 <\/span><\/span>\r\n<span id=\"cb61-4\"><span class=\"do\">##  Steinbock      Stier      Waage Wassermann     Widder   Zwilling <\/span><\/span>\r\n<span id=\"cb61-5\"><span class=\"do\">##          1          9         10          8         10         11<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nEine Alternative f\u00fcr die <em>summary()<\/em> Funktion ist die <em>describe()<\/em> Funktion aus dem Paket <em>psych<\/em>. Dies ist eine n\u00fctzliche Funktion, um einen schnellen \u00dcberblick \u00fcber eine Vielzahl von Kennwerten zu bekommen. Denken Sie daran, dass wenn Sie die Funktion describe() verwenden m\u00f6chten, m\u00fcssen Sie das Paket <em>psych<\/em> laden, indem Sie library(psych) ausf\u00fchren, und dann k\u00f6nnen Sie es wie describe(data) verwenden.\r\n<div id=\"cb62\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb62-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb62-2\"><span class=\"fu\">describe<\/span>(WPStudis)<\/span>\r\n<span id=\"cb62-3\"><span class=\"do\">##                                    vars  n    mean      sd median<\/span><\/span>\r\n<span id=\"cb62-4\"><span class=\"do\">## F1_Nummer                             1 93   47.70   27.36     48<\/span><\/span>\r\n<span id=\"cb62-5\"><span class=\"do\">## F2_Alter                              2 92   21.67    4.28     20<\/span><\/span>\r\n<span id=\"cb62-6\"><span class=\"do\">## F3_Geschlecht*                        3 93    1.83    0.38      2<\/span><\/span>\r\n<span id=\"cb62-7\"><span class=\"do\">## F4_Koerpergroesse                     4 93  169.95    7.76    169<\/span><\/span>\r\n<span id=\"cb62-8\"><span class=\"do\">## F5_Schuhgroesse                       5 93   39.53    2.90     39<\/span><\/span>\r\n<span id=\"cb62-9\"><span class=\"do\">## F6_Sternzeichen*                      6 93    6.87    3.72      8<\/span><\/span>\r\n<span id=\"cb62-10\"><span class=\"do\">## F7_Brille*                            7 92    1.42    0.50      1<\/span><\/span>\r\n<span id=\"cb62-11\"><span class=\"do\">## F13_WhatsApp                          8 90  526.22 1176.28    250<\/span><\/span>\r\n<span id=\"cb62-12\"><span class=\"do\">## F17_Freunde_Facebook                  9 83  327.64  173.12    300<\/span><\/span>\r\n<span id=\"cb62-13\"><span class=\"do\">## F19_Partnerschaft*                   10 91    1.57    0.50      2<\/span><\/span>\r\n<span id=\"cb62-14\"><span class=\"do\">## F20_Einkommen_Glueck                 11 76 1978.29 1031.45   2000<\/span><\/span>\r\n<span id=\"cb62-15\"><span class=\"do\">## F21_01_Zufriedenheit_Leben           12 90    3.92    0.77      4<\/span><\/span>\r\n<span id=\"cb62-16\"><span class=\"do\">## F21_02_Zufriedenheit_Studium         13 89    3.74    0.79      4<\/span><\/span>\r\n<span id=\"cb62-17\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft   14 90    3.80    0.97      4<\/span><\/span>\r\n<span id=\"cb62-18\"><span class=\"do\">##                                    trimmed     mad min  max range<\/span><\/span>\r\n<span id=\"cb62-19\"><span class=\"do\">## F1_Nummer                            47.75   35.58   1   94    93<\/span><\/span>\r\n<span id=\"cb62-20\"><span class=\"do\">## F2_Alter                             20.93    1.48  17   45    28<\/span><\/span>\r\n<span id=\"cb62-21\"><span class=\"do\">## F3_Geschlecht*                        1.91    0.00   1    2     1<\/span><\/span>\r\n<span id=\"cb62-22\"><span class=\"do\">## F4_Koerpergroesse                   169.55    8.90 155  187    32<\/span><\/span>\r\n<span id=\"cb62-23\"><span class=\"do\">## F5_Schuhgroesse                      39.12    2.97  36   50    14<\/span><\/span>\r\n<span id=\"cb62-24\"><span class=\"do\">## F6_Sternzeichen*                      6.95    4.45   1   12    11<\/span><\/span>\r\n<span id=\"cb62-25\"><span class=\"do\">## F7_Brille*                            1.41    0.00   1    2     1<\/span><\/span>\r\n<span id=\"cb62-26\"><span class=\"do\">## F13_WhatsApp                        326.89  222.39  20 9999  9979<\/span><\/span>\r\n<span id=\"cb62-27\"><span class=\"do\">## F17_Freunde_Facebook                315.03  148.26   0  900   900<\/span><\/span>\r\n<span id=\"cb62-28\"><span class=\"do\">## F19_Partnerschaft*                    1.59    0.00   1    2     1<\/span><\/span>\r\n<span id=\"cb62-29\"><span class=\"do\">## F20_Einkommen_Glueck               1966.94 1260.21 200 5000  4800<\/span><\/span>\r\n<span id=\"cb62-30\"><span class=\"do\">## F21_01_Zufriedenheit_Leben            3.99    0.00   1    5     4<\/span><\/span>\r\n<span id=\"cb62-31\"><span class=\"do\">## F21_02_Zufriedenheit_Studium          3.74    1.48   1    5     4<\/span><\/span>\r\n<span id=\"cb62-32\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft    3.88    1.48   1    5     4<\/span><\/span>\r\n<span id=\"cb62-33\"><span class=\"do\">##                                     skew kurtosis     se<\/span><\/span>\r\n<span id=\"cb62-34\"><span class=\"do\">## F1_Nummer                          -0.02    -1.24   2.84<\/span><\/span>\r\n<span id=\"cb62-35\"><span class=\"do\">## F2_Alter                            2.41     8.30   0.45<\/span><\/span>\r\n<span id=\"cb62-36\"><span class=\"do\">## F3_Geschlecht*                     -1.71     0.93   0.04<\/span><\/span>\r\n<span id=\"cb62-37\"><span class=\"do\">## F4_Koerpergroesse                   0.39    -0.65   0.80<\/span><\/span>\r\n<span id=\"cb62-38\"><span class=\"do\">## F5_Schuhgroesse                     1.29     1.42   0.30<\/span><\/span>\r\n<span id=\"cb62-39\"><span class=\"do\">## F6_Sternzeichen*                   -0.16    -1.41   0.39<\/span><\/span>\r\n<span id=\"cb62-40\"><span class=\"do\">## F7_Brille*                          0.30    -1.93   0.05<\/span><\/span>\r\n<span id=\"cb62-41\"><span class=\"do\">## F13_WhatsApp                        6.43    46.11 123.99<\/span><\/span>\r\n<span id=\"cb62-42\"><span class=\"do\">## F17_Freunde_Facebook                0.73     0.60  19.00<\/span><\/span>\r\n<span id=\"cb62-43\"><span class=\"do\">## F19_Partnerschaft*                 -0.28    -1.94   0.05<\/span><\/span>\r\n<span id=\"cb62-44\"><span class=\"do\">## F20_Einkommen_Glueck                0.35     0.22 118.32<\/span><\/span>\r\n<span id=\"cb62-45\"><span class=\"do\">## F21_01_Zufriedenheit_Leben         -1.34     3.46   0.08<\/span><\/span>\r\n<span id=\"cb62-46\"><span class=\"do\">## F21_02_Zufriedenheit_Studium       -0.34     0.42   0.08<\/span><\/span>\r\n<span id=\"cb62-47\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft -0.39    -0.56   0.10<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/zg6qSwA3RBQ\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-3\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\n<ul>\r\n \t<li>Lassen Sie sich die Variablenzusammenfassung f\u00fcr das Alter mit der Index-Notation ausgeben<\/li>\r\n \t<li>Was ist die g\u00f6\u00dfte Schuhgr\u00f6\u00dfe in WPStudis Datensatz?<\/li>\r\n<\/ul>\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n\r\n<\/div>\r\n<div id=\"deskriptiver-vergleich-von-kennwerten\" class=\"section level2 hasAnchor\">\r\n<h1>Deskriptiver Vergleich von Kennwerten<\/h1>\r\nDie Funktion tapply() in R wird verwendet, um eine Funktion auf Teilmengen einer Variable anzuwenden, die durch einen Faktor definiert sind. Beispielsweise wollen Sie die durchschnittliche K\u00f6rpergr\u00f6\u00dfe (Variable) nur f\u00fcr Frauen oder M\u00e4nner (Faktor) berechnen. Die Funktion ben\u00f6tigt drei Argumente: die Variable, auf die die Funktion angewendet werden soll, den\/die Faktor(en), die die Teilmengen definieren, und die anzuwendende Funktion (z. B. den Mittelwert).\r\n\r\nWenn Sie zum Beispiel einen numerischen Vektor namens Daten und einen Faktorvektor namens Gruppe haben, k\u00f6nnen Sie tapply(Daten, Gruppe, Mittelwert) verwenden, um den Mittelwert der Daten f\u00fcr jede Ebene der Gruppe zu berechnen.\r\n\r\nDie Ausgabe ist eine Liste, die die Ergebnisse f\u00fcr jede Stufe des Faktors enth\u00e4lt. Die Namen der Listenelemente entsprechen den Stufen des Faktors.\r\n\r\nUm nun zum Beispiel die durchschnittliche Koerpergroesse von M\u00e4nnern und Frauen zu ermitteln, sieht das wie folgt aus.\r\n<div id=\"cb63\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb63-1\"><span class=\"fu\">tapply<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, mean)<\/span>\r\n<span id=\"cb63-2\"><span class=\"do\">## Maennlich  Weiblich <\/span><\/span>\r\n<span id=\"cb63-3\"><span class=\"do\">##  181.0625  167.6364<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDies k\u00f6nnen wir auch auf die Funktion \u201csummary\u201d anwenden.\r\n<div id=\"cb64\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb64-1\"><span class=\"fu\">tapply<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, summary)<\/span>\r\n<span id=\"cb64-2\"><span class=\"do\">## $Maennlich<\/span><\/span>\r\n<span id=\"cb64-3\"><span class=\"do\">##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. <\/span><\/span>\r\n<span id=\"cb64-4\"><span class=\"do\">##   170.0   179.5   182.5   181.1   183.5   187.0 <\/span><\/span>\r\n<span id=\"cb64-5\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb64-6\"><span class=\"do\">## $Weiblich<\/span><\/span>\r\n<span id=\"cb64-7\"><span class=\"do\">##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. <\/span><\/span>\r\n<span id=\"cb64-8\"><span class=\"do\">##   155.0   163.0   168.0   167.6   171.0   186.0<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nNoch ausf\u00fchrlicher geht es mit der <em>describeBy<\/em> Funktion aus dem <em>Psych<\/em> Paket. F\u00fcr jede Stufe der Faktorvariable berechnet sie den Mittelwert, die Standardabweichung, den Median, das Minimum, das Maximum und mehrere andere deskriptive Statistiken f\u00fcr den Datensatz.\r\n\r\nWenn Sie beispielsweise einen Datensatz mit dem Namen data haben, der eine Variable mit dem Namen value und eine Faktorvariable mit dem Namen group enth\u00e4lt, k\u00f6nnen Sie describeBy(data<span class=\"math inline\">\\(value, data\\)<\/span>group) verwenden, um die deskriptiven Statistiken f\u00fcr die Variable value f\u00fcr jede Ebene der Faktorvariable group zu erhalten.\r\n\r\nHier das gleiche Beispiel mit der <em>describeBy<\/em> Funktion aus dem <em>Psych<\/em> Paket.\r\n<div id=\"cb65\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb65-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb65-2\"><span class=\"fu\">describeBy<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">mat=<\/span><span class=\"cn\">TRUE<\/span>)<\/span>\r\n<span id=\"cb65-3\"><span class=\"do\">##     item    group1 vars  n     mean       sd median  trimmed    mad<\/span><\/span>\r\n<span id=\"cb65-4\"><span class=\"do\">## X11    1 Maennlich    1 16 181.0625 4.711245  182.5 181.4286 3.7065<\/span><\/span>\r\n<span id=\"cb65-5\"><span class=\"do\">## X12    2  Weiblich    1 77 167.6364 6.084729  168.0 167.4286 5.9304<\/span><\/span>\r\n<span id=\"cb65-6\"><span class=\"do\">##     min max range       skew   kurtosis        se<\/span><\/span>\r\n<span id=\"cb65-7\"><span class=\"do\">## X11 170 187    17 -0.8400052 -0.1343342 1.1778114<\/span><\/span>\r\n<span id=\"cb65-8\"><span class=\"do\">## X12 155 186    31  0.3363957 -0.1289078 0.6934192<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/0lrQ6BNA_Ls\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-4\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nNutzen Sie den <em>WPStudis<\/em>Datensatz und berechnen Sie:\r\n- Median und Standardabweichung der Schuhgr\u00f6sse der Studierenden\r\n- Vergleichen Sie den Mittwelwert der Schuhgr\u00f6sse von m\u00e4nnlichen und weiblichen Studierenden\r\n- Legen Sie im <em>WPStudis<\/em> Datensatz eine neue Variable an, die die K\u00f6rpergr\u00f6\u00dfe in Metern angibt\r\n\r\n<\/div>\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz1.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n<div id=\"h\u00e4ufigkeitstabellen\" class=\"section level2 hasAnchor\">\r\n<h1>H\u00e4ufigkeitstabellen<\/h1>\r\n<strong>Absolute H\u00e4ufigkeiten<\/strong>\r\n\r\nDie Funktion table() in R wird verwendet, um eine H\u00e4ufigkeitstabelle der Stufen einer kategorialen Variable oder eines Faktors zu erstellen. Sie z\u00e4hlt die Anzahl jeder Stufe der Variablen und gibt eine Tabelle zur\u00fcck, die die H\u00e4ufigkeit jeder Stufe anzeigt.\r\n\r\nWenn Sie zum Beispiel eine kategoriale Variable namens group haben, k\u00f6nnen Sie table(group) verwenden, um eine H\u00e4ufigkeitstabelle zu erstellen, die die Anzahl der Vorkommen jeder Stufe anzeigt. Die Ausgabe ist eine Tabelle, die die Anzahl der Beobachtungen f\u00fcr jede Stufe der Variablen anzeigt.\r\n\r\nHier am Beispiel der Variable Sternzeichen aus dem WPStudis Datensatz.\r\n<div id=\"cb66\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb66-1\"><span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen)<\/span>\r\n<span id=\"cb66-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb66-3\"><span class=\"do\">##     Fische   Jungfrau      Krebs      Loewe   Schuetze   Skorpion <\/span><\/span>\r\n<span id=\"cb66-4\"><span class=\"do\">##          8         10          5          8          5          8 <\/span><\/span>\r\n<span id=\"cb66-5\"><span class=\"do\">##  Steinbock      Stier      Waage Wassermann     Widder   Zwilling <\/span><\/span>\r\n<span id=\"cb66-6\"><span class=\"do\">##          1          9         10          8         10         11<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<strong>Relative H\u00e4ufigkeiten<\/strong>\r\n\r\nDie Funktion <em>prop.table()<\/em> in R wird verwendet, um eine mit der Funktion table() erstellte H\u00e4ufigkeitstabelle in eine Tabelle mit relativen H\u00e4ufigkeiten umzuwandeln. Die Funktion muss immer auf ein <em>table()<\/em> Objekt angewendet werden.\r\n\r\nWenn Sie beispielsweise eine kategoriale Variable namens Gruppe mit drei Stufen (A, B und C) haben, k\u00f6nnen Sie mit table(group) eine H\u00e4ufigkeitstabelle erstellen, die die Anzahl der Vorkommen jeder Stufe anzeigt, und dann prop.table(table(group)) verwenden, um diese H\u00e4ufigkeitstabelle in eine Tabelle mit relativen H\u00e4ufigkeiten umzuwandeln. Die Ausgabe ist dann eine Tabelle, die den relativen Anteil der Beobachtungen f\u00fcr jede Stufe der Variablen anzeigt.\r\n<div id=\"cb67\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb67-1\"><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen))<\/span>\r\n<span id=\"cb67-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb67-3\"><span class=\"do\">##     Fische   Jungfrau      Krebs      Loewe   Schuetze   Skorpion <\/span><\/span>\r\n<span id=\"cb67-4\"><span class=\"do\">## 0.08602151 0.10752688 0.05376344 0.08602151 0.05376344 0.08602151 <\/span><\/span>\r\n<span id=\"cb67-5\"><span class=\"do\">##  Steinbock      Stier      Waage Wassermann     Widder   Zwilling <\/span><\/span>\r\n<span id=\"cb67-6\"><span class=\"do\">## 0.01075269 0.09677419 0.10752688 0.08602151 0.10752688 0.11827957<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nWenn Sie die Ausgabe als Prozentwerte wollen, dann k\u00f6nnen Sie diese einfach mit 100 multiplizieren lassen. Falls Sie die vielen Nachkommastellen st\u00f6ren, dann k\u00f6nnen Sie diese mit dem Befehl <em>round()<\/em> noch runden lassen. Die Funktion round() in R wird verwendet, um einen numerischen Wert oder einen Vektor von numerischen Werten auf eine bestimmte Anzahl von Dezimalstellen zu runden. Sie braucht zwei Argumente: die zu rundende Zahl oder den Zahlenvektor und die Anzahl der Dezimalstellen, auf die gerundet werden soll.\r\n\r\nWenn Sie beispielsweise eine Zahl namens x haben, die gleich 3,14159 ist, k\u00f6nnen Sie round(x, 2) verwenden, um sie auf 2 Dezimalstellen zu runden, was 3,14 ergibt.\r\n\r\nHier nun alles zusammen angewendet auf unser Beispiel, ergibt die prozentualen H\u00e4ufigkeiten je Sternzeichen mit je zwei Nachkommastellen.\r\n<div id=\"cb68\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb68-1\"><span class=\"fu\">round<\/span>(<span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen)),<span class=\"dv\">2<\/span>)<\/span>\r\n<span id=\"cb68-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb68-3\"><span class=\"do\">##     Fische   Jungfrau      Krebs      Loewe   Schuetze   Skorpion <\/span><\/span>\r\n<span id=\"cb68-4\"><span class=\"do\">##       8.60      10.75       5.38       8.60       5.38       8.60 <\/span><\/span>\r\n<span id=\"cb68-5\"><span class=\"do\">##  Steinbock      Stier      Waage Wassermann     Widder   Zwilling <\/span><\/span>\r\n<span id=\"cb68-6\"><span class=\"do\">##       1.08       9.68      10.75       8.60      10.75      11.83<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/vPqULHie_FY\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"kreuztabellen\" class=\"section level2 hasAnchor\">\r\n<h1>Kreuztabellen<\/h1>\r\nIn R k\u00f6nnen Sie mit der Funktion table() eine Kreuztabelle erstellen, die auch als Kontingenztabelle bezeichnet wird. Eine Kontingenztabelle wird verwendet, um die Beziehung zwischen zwei oder mehr kategorialen Variablen zusammenzufassen, wobei die H\u00e4ufigkeit jeder Kombination von Stufen angezeigt wird.\r\n\r\nWenn Sie zum Beispiel zwei kategoriale Variablen mit den Namen group1 und group2 haben, k\u00f6nnen Sie eine Kreuztabelle erstellen, indem Sie table(group1, group2) aufrufen. Die Ausgabe ist eine Matrix, die die H\u00e4ufigkeit der einzelnen Kombinationen der Stufen von Gruppe1 und Gruppe2 anzeigt.\r\n\r\nHier ein Beispiel aus dem WPStudis Datensatz:\r\n<div id=\"cb69\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb69-1\"><span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span>\r\n<span id=\"cb69-2\"><span class=\"do\">##       <\/span><\/span>\r\n<span id=\"cb69-3\"><span class=\"do\">##        Maennlich Weiblich<\/span><\/span>\r\n<span id=\"cb69-4\"><span class=\"do\">##   Nein        14       39<\/span><\/span>\r\n<span id=\"cb69-5\"><span class=\"do\">##   JA           2       37<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nNun wollen wir wieder die relativen Prozente berechnen und nutzen dazu wieder die <em>prop.table<\/em> Funktion. Bei einer Kontingenztabelle gibt es nun aber drei M\u00f6glichkeiten relative H\u00e4ufigkeiten zu berechnen.\r\n\r\nVariante 1: Alle Werte als Bezugsgr\u00f6\u00dfe\r\n<div id=\"cb70\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb70-1\"><span class=\"fu\">round<\/span>(<span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)))<\/span>\r\n<span id=\"cb70-2\"><span class=\"do\">##       <\/span><\/span>\r\n<span id=\"cb70-3\"><span class=\"do\">##        Maennlich Weiblich<\/span><\/span>\r\n<span id=\"cb70-4\"><span class=\"do\">##   Nein        15       42<\/span><\/span>\r\n<span id=\"cb70-5\"><span class=\"do\">##   JA           2       40<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDies gibt uns die Prozentwerte der jeweiligen 4 Gruppen (bezogen auf alle Studierenden). Zum Beispiel wissen wir nun, dass 15 % der Studierenden m\u00e4nnlich sind und keine Brille tragen.\r\n\r\nMit der Erweiterung <em>,1<\/em> beziehungsweise <em>,2<\/em> k\u00f6nnen nun die relativen Zeilenprozente bzw. Spaltenprozente berechnet werden.\r\n\r\nVariante 2: Zeilensummen als Bezugsgr\u00f6\u00dfe\r\n<div id=\"cb71\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb71-1\"><span class=\"fu\">round<\/span>(<span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">1<\/span>))<\/span>\r\n<span id=\"cb71-2\"><span class=\"do\">##       <\/span><\/span>\r\n<span id=\"cb71-3\"><span class=\"do\">##        Maennlich Weiblich<\/span><\/span>\r\n<span id=\"cb71-4\"><span class=\"do\">##   Nein        26       74<\/span><\/span>\r\n<span id=\"cb71-5\"><span class=\"do\">##   JA           5       95<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nHier wird pro Zeile gerechnet, d.\u00a0h. jede Zeile ergibt 100 %. Wir k\u00f6nnen nun also zum Beispiel sagen, dass von allen Brillentr\u00e4gern (Zeile \u201cJA\u201d) nur rund 5 % m\u00e4nnlich sind.\r\n\r\nVariante 3: Spaltensummen als Bezugsgr\u00f6\u00dfe\r\n<div id=\"cb72\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb72-1\"><span class=\"fu\">round<\/span>(<span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">2<\/span>))<\/span>\r\n<span id=\"cb72-2\"><span class=\"do\">##       <\/span><\/span>\r\n<span id=\"cb72-3\"><span class=\"do\">##        Maennlich Weiblich<\/span><\/span>\r\n<span id=\"cb72-4\"><span class=\"do\">##   Nein        88       51<\/span><\/span>\r\n<span id=\"cb72-5\"><span class=\"do\">##   JA          12       49<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDies sagt uns nun, dass von den m\u00e4nnlichen Studierenden nur 12 % eine Brille tragen.\r\n\r\nWelche der drei Varianten die richtige ist, l\u00e4sst sich dabei nicht pauschal sagen und h\u00e4ngt von der Fragestellung ab.\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/LhklhmQb2Ys\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"korrelation\" class=\"section level2 hasAnchor\">\r\n<h1>Korrelation<\/h1>\r\nGrunds\u00e4tzlich gibt es in R mehrere M\u00f6glichkeiten (wie immer) Korrelationen zu berechnen. Die <em>cor()<\/em> sowie <em>cor.test()<\/em> Funktionen sind ein Grundbestandteil von R. Weitere Korrelationsfunktionen sind in vielen Packages enthalten, z. B. <em>rcorr()<\/em> im Hmisc package.\r\n\r\n<strong>Pearson Korrelation<\/strong>\r\n\r\nDie Funktion <em>cor()<\/em> in R wird zur Berechnung des Korrelationskoeffizienten zwischen zwei oder mehreren numerischen Variablen verwendet. Die Korrelation misst die St\u00e4rke und Richtung der linearen Beziehung zwischen zwei Variablen.\r\n\r\nWenn Sie zum Beispiel zwei numerische Vektoren mit den Namen x und y haben, k\u00f6nnen Sie cor(x, y) verwenden, um den Pearson-Korrelationskoeffizienten zwischen den beiden Variablen zu berechnen. Die Ausgabe ist eine einzelne Zahl zwischen -1 und 1, wobei -1 f\u00fcr eine perfekte negative Korrelation, 0 f\u00fcr keine Korrelation und 1 f\u00fcr eine perfekte positive Korrelation steht.\r\n\r\nSie k\u00f6nnen cor() auch auf einen ganzen Datensatz anwenden, in diesem Fall wird die Korrelationsmatrix f\u00fcr alle Variablenpaare berechnet.\r\n<div id=\"cb73\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb73-1\"><span class=\"fu\">cor<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse, <span class=\"at\">method=<\/span><span class=\"st\">\"pearson\"<\/span>)<\/span>\r\n<span id=\"cb73-2\"><span class=\"do\">## [1] 0.7253853<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<strong>Rangkorrelation<\/strong>\r\n\r\nSind die Variablen nicht metrisch skaliert, sondern ordinal (z. B. Rangfolgen), sollten Sie eine Rangkorrelation, wie Kendall\u2019s Tau oder Spearmans Rho verwenden.\r\n\r\nIn R k\u00f6nnen Sie den Korrelationskoeffizienten Kendall\u2019s tau mit der Funktion cor() und dem Argument method = \u201ckendall\u201d berechnen. Wenn Sie beispielsweise zwei numerische Vektoren mit den Namen x und y haben, k\u00f6nnen Sie cor(x, y, method = \u201ckendall\u201d) verwenden, um den Korrelationskoeffizienten Kendall\u2019s tau zwischen den beiden Variablen zu berechnen. Auch hier ist die Ausgabe eine einzelne Zahl zwischen -1 und 1, wobei -1 f\u00fcr eine perfekte negative Korrelation, 0 f\u00fcr keine Korrelation und 1 f\u00fcr eine perfekte positive Korrelation steht.\r\n\r\nZur weiteren Interpretaion des Korrelationskoeffizienten sind die Konventionen von Cohen hilfreich. Nach Cohen sollten die folgenden Konventionen zur Interpretation der Gr\u00f6\u00dfe des Korrelationskoeffizienten verwendet werden:\r\n\r\nr = 0,1: eine geringe Korrelation\r\nr = 0,3: eine m\u00e4\u00dfige Korrelation\r\nr = 0,5: eine gro\u00dfe Korrelation\r\n\r\nEs ist wichtig zu bedenken, dass diese Konventionen auf Cohens subjektiver Interpretation dessen beruhen, was eine kleine, mittlere oder gro\u00dfe Korrelation ausmacht. Diese Konventionen sind nicht allgemein anerkannt, und die tats\u00e4chliche Gr\u00f6\u00dfe des Korrelationskoeffizienten h\u00e4ngt von dem jeweiligen Kontext und der Art der Daten ab.\r\n\r\nIm folgenden Beispiel berechnen wir die Korrelation der Variablen \u201cZufriedenheit mit dem Studium\u201d und \u201cZufriedenheit mit dem Leben\u201d. Beides sind Ergebnisse eines Fragebogen-Items, das eine 5-stufige Likert-Skala nutzt von 1 = sehr unzufrieden bis 5 = sehr zufrieden. \u00dcblicherweise werden solche Skalen als metrisch angenommen und eine Pearson Korrelation gerechnet. Man k\u00f6nnte hier jedoch durchaus auch argumentieren, dass tendenziell eher eine ordinale Skalierung vorliegt und daher rechnen wir nun eine Rangkorrelation.\r\n\r\nWichtiger Hinweis:\r\n\r\nWir m\u00fcssen R sagen, was mit den fehlenden Werten passieren soll. Das Argument use=\u201ccomplete.obs\u201d sorgt daf\u00fcr, dass nur Datens\u00e4tze, die \u201ccomplete\u201d also ohne fehlende Werte sind, verwendet werden. Auch f\u00fcr die Nutzung von Kendall\u2019s Tau m\u00fcssen beide Variablen als numeric formatiert sein (auch wenn ordinale Variablen h\u00e4ufig als Faktoren formatiert sind).\r\n<div id=\"cb74\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb74-1\"><span class=\"fu\">cor<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_02_Zufriedenheit_Studium ,WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben,<span class=\"at\">use=<\/span><span class=\"st\">\"complete.obs\"<\/span>,  <span class=\"at\">method=<\/span><span class=\"st\">\"kendall\"<\/span>)<\/span>\r\n<span id=\"cb74-2\"><span class=\"do\">## [1] 0.3073518<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n**Signifikanztest f\u00fcr Korrelationskoeffizienten*\r\n\r\nIm Folgenden wollen wir feststellen, ob die Korrelation zwischen zwei Variablen statistisch signifikant ist. Dies ist immer dann von Bedeutung, wenn wir die Korrelation nur auf Basis einer Stichprobe berechnet haben und nun R\u00fcckschl\u00fcsse auf eine gr\u00f6\u00dfere Population ziehen wollen.\r\n\r\nIn R wird die Funktion <em>cor.test()<\/em> verwendet, um einen Korrelationstest durchzuf\u00fchren. Dabei handelt es sich um einen statistischen Test, mit dem festgestellt werden kann, ob eine signifikante Korrelation zwischen zwei Variablen besteht. Die Funktion cor.test() ben\u00f6tigt zwei Argumente: die beiden zu testenden Variablen, die zu verwendende Korrelationsmethode (Pearson, Kendall oder Spearman).\r\n\r\nHier angewendet auf unser Beispiel.\r\n<div id=\"cb75\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb75-1\"><span class=\"fu\">cor.test<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_02_Zufriedenheit_Studium ,WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben, <span class=\"at\">method =<\/span><span class=\"st\">\"kendall\"<\/span>)<\/span>\r\n<span id=\"cb75-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb75-3\"><span class=\"do\">##  Kendall's rank correlation tau<\/span><\/span>\r\n<span id=\"cb75-4\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb75-5\"><span class=\"do\">## data:  WPStudis$F21_02_Zufriedenheit_Studium and WPStudis$F21_01_Zufriedenheit_Leben<\/span><\/span>\r\n<span id=\"cb75-6\"><span class=\"do\">## z = 3.2087, p-value = 0.001333<\/span><\/span>\r\n<span id=\"cb75-7\"><span class=\"do\">## alternative hypothesis: true tau is not equal to 0<\/span><\/span>\r\n<span id=\"cb75-8\"><span class=\"do\">## sample estimates:<\/span><\/span>\r\n<span id=\"cb75-9\"><span class=\"do\">##       tau <\/span><\/span>\r\n<span id=\"cb75-10\"><span class=\"do\">## 0.3073518<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDie Funktion gibt, neben anderen Informationen, die Teststatistik, den p-Wert und den Stichprobenumfang aus. Am einfachsten ist die Intepretation des p-Wertes. Dieser gibt die Wahrscheinlichkeit an, eine solche Korrelation (von 0.3) in der Stichprobe zu finden unter der Annahme, dass es in Wirklichkeit (also in der Population) gar keine Korrelation zwischen den Variablen gibt. Diese ist hier sehr gering (kleiner als 0,01 oder 1 %), daher k\u00f6nnen wir die These (die sog. Nullhypothese) verwerfen und sagen, dass wir uns sehr sicher sind, dass es eine Korrelation in der Population gibt.\r\n\r\nWissenschaftlich ausgedr\u00fcckt w\u00fcrden wir sagen, dass eine positive mittlere Korrelation von .3 vorliegt, die auf dem 1 %-Niveau signifikant ist.\r\n\r\nSie erm\u00f6glicht es Ihnen zu testen, ob der Korrelationskoeffizient von Null verschieden ist, was darauf hinweisen w\u00fcrde, dass eine Beziehung zwischen den beiden Variablen besteht. Au\u00dferdem k\u00f6nnen Sie damit verschiedene Korrelationskoeffizienten vergleichen, was beim Testen mehrerer Variablen oder beim Vergleich der Korrelation zwischen verschiedenen Datengruppen n\u00fctzlich sein kann.\r\n\r\nEs ist wichtig zu beachten, dass die Funktion cor.test() davon ausgeht, dass die Variablen normalverteilt sind. Wenn die Variablen nicht normalverteilt sind, sollten Sie nichtparametrische Korrelationstests, wie den Korrelationskoeffizienten nach Kendall oder Spearman, verwenden.\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/zGRmSrRoCLc\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-5\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nNutzen Sie den Datensatz <em>WPStudis<\/em>:\r\n<ul>\r\n \t<li>Gibt es einen Zusammenhang zwischen Anzahl gesendeter WhatsApp und der Anzahl der Facebook Freunde?<\/li>\r\n \t<li>Gibt es einen Zusammenhang zwischen dem Alter und dem ben\u00f6tigten Einkommen zum Gl\u00fccklichsein (F20)?<\/li>\r\n<\/ul>\r\n\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz2.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n&nbsp;\r\n\r\n<\/div>","rendered":"<h1>Deskriptive Statistik<\/h1>\n<div id=\"einf\u00fchrung\" class=\"section level2 hasAnchor\">\n<h1>Einf\u00fchrung<\/h1>\n<p>In diesem Teil des Skripts wollen wir einfache deskriptive Analysen mit R durchf\u00fchren, also Kennwerte berechnen, die uns ein besseres Verst\u00e4ndnis der Daten erm\u00f6glichen. Wir nutzen dazu die Ergebnisse einer Erstsemesterbefragung. Diese finden Sie im Downloadbereich im Datensatz <em>WPStudis.RData<\/em>.<\/p>\n<p>Laden Sie den Datensatz <em>WPStudis.RData<\/em>.<\/p>\n<div id=\"cb51\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb51-1\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.Rdata\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p>Zun\u00e4chst nutzen wir die <em>names<\/em> Funktion, um uns die Variablennamen im Datensatz anzeigen zu lassen:<\/p>\n<div id=\"cb52\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb52-1\"><span class=\"fu\">names<\/span>(WPStudis)<\/span>\r\n<span id=\"cb52-2\"><span class=\"do\">##  [1] \"F1_Nummer\"                         <\/span><\/span>\r\n<span id=\"cb52-3\"><span class=\"do\">##  [2] \"F2_Alter\"                          <\/span><\/span>\r\n<span id=\"cb52-4\"><span class=\"do\">##  [3] \"F3_Geschlecht\"                     <\/span><\/span>\r\n<span id=\"cb52-5\"><span class=\"do\">##  [4] \"F4_Koerpergroesse\"                 <\/span><\/span>\r\n<span id=\"cb52-6\"><span class=\"do\">##  [5] \"F5_Schuhgroesse\"                   <\/span><\/span>\r\n<span id=\"cb52-7\"><span class=\"do\">##  [6] \"F6_Sternzeichen\"                   <\/span><\/span>\r\n<span id=\"cb52-8\"><span class=\"do\">##  [7] \"F7_Brille\"                         <\/span><\/span>\r\n<span id=\"cb52-9\"><span class=\"do\">##  [8] \"F13_WhatsApp\"                      <\/span><\/span>\r\n<span id=\"cb52-10\"><span class=\"do\">##  [9] \"F17_Freunde_Facebook\"              <\/span><\/span>\r\n<span id=\"cb52-11\"><span class=\"do\">## [10] \"F19_Partnerschaft\"                 <\/span><\/span>\r\n<span id=\"cb52-12\"><span class=\"do\">## [11] \"F20_Einkommen_Glueck\"              <\/span><\/span>\r\n<span id=\"cb52-13\"><span class=\"do\">## [12] \"F21_01_Zufriedenheit_Leben\"        <\/span><\/span>\r\n<span id=\"cb52-14\"><span class=\"do\">## [13] \"F21_02_Zufriedenheit_Studium\"      <\/span><\/span>\r\n<span id=\"cb52-15\"><span class=\"do\">## [14] \"F21_03_Zufriedenheit_Partnerschaft\"<\/span><\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"ma\u00dfe-der-zentralen-tendenz\" class=\"section level2 hasAnchor\">\n<h1>Ma\u00dfe der zentralen Tendenz<\/h1>\n<p><strong>Mittelwert<\/strong><\/p>\n<p>Das arithmetische Mittel, auch als \u201cDurchschnitt\u201d oder einfach \u201cMittelwert\u201d bezeichnet, ist ein Ma\u00df f\u00fcr die zentrale Tendenz, das durch Summierung einer Reihe von Zahlen und anschlie\u00dfende Division durch die Gesamtzahl der Werte in der Reihe berechnet wird. In R k\u00f6nnen Sie das arithmetische Mittel mit der Funktion mean() berechnen. Wenn Sie zum Beispiel eine Variable x haben, k\u00f6nnen Sie den Mittelwert berechnen, indem Sie mean(x) eingeben.<\/p>\n<div id=\"cb53\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb53-1\"><span class=\"fu\">mean<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb53-2\"><span class=\"do\">## [1] 169.9462<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><strong>Median<\/strong><\/p>\n<p>Der Median ist ein weiteres Ma\u00df f\u00fcr die zentrale Tendenz. Dies ist der mittlere Wert eines Datensatzes, wenn dieser nach Werten aufsteigend geordnet ist. In R k\u00f6nnen Sie den Median mit der Funktion median() berechnen. Wenn Sie zum Beispiel eine Variable x haben, k\u00f6nnen Sie den Median berechnen, indem Sie median(x) eingeben.<\/p>\n<div id=\"cb54\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb54-1\"><span class=\"fu\">median<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb54-2\"><span class=\"do\">## [1] 169<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><strong>Modus<\/strong><\/p>\n<p>Der Modus ist ein Ma\u00df f\u00fcr die zentrale Tendenz, das den\/die am h\u00e4ufigsten auftretenden Wert(e) in einem Datensatz darstellt. Mit anderen Worten, ist der Modus der Wert, der in einem Datensatz am h\u00e4ufigsten vorkommt. Der Vorteil des Modus ist, dass dieser auch f\u00fcr nominale Variablen, wie zum Beispiel \u201cSternzeichen\u201d in unserem Datensatz, nutzbar ist.<\/p>\n<p>Die Berechnung des Modus geht in R mit einem kleinen Trick. Wir nutzen dazu die <em>table<\/em> Funktion, die uns die H\u00e4ufigkeit der einzelnen Werte ausgibt (Mehr zur <em>table<\/em> Funktion gibt es im n\u00e4chsten Kapitel). Dann lassen wir R den gr\u00f6\u00dften Wert ausgeben, dazu nutzen wir die <em>which.max<\/em> Funktion.<\/p>\n<div id=\"cb55\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb55-1\"><span class=\"fu\">which.max<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen)) <\/span>\r\n<span id=\"cb55-2\"><span class=\"do\">## Zwilling <\/span><\/span>\r\n<span id=\"cb55-3\"><span class=\"do\">##       12<\/span><\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"streuungsma\u00dfe\" class=\"section level2 hasAnchor\">\n<h1>Streuungsma\u00dfe<\/h1>\n<p><strong>Spannweite<\/strong><\/p>\n<p>Die Spannweite, auch Bereich genannt, ist ein Ma\u00df f\u00fcr die Streuung eines Datensatzes. Diese wird als Differenz zwischen dem maximalen und dem minimalen Wert in einem Datensatz berechnet. Um den Bereich in R zu ermitteln, k\u00f6nnen Sie die integrierte Funktion range() verwenden. Wenn Sie zum Beispiel eine Variable mit dem Namen x haben, k\u00f6nnen Sie den Bereich durch den Aufruf von range(x) ermitteln. Diese Funktion gibt einen Output mit zwei Elementen zur\u00fcck: den Mindest- und den H\u00f6chstwert der Variable.<\/p>\n<div id=\"cb56\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb56-1\"><span class=\"fu\">range<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb56-2\"><span class=\"do\">## [1] 155 187<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><strong>Standardabweichung<\/strong><\/p>\n<p>In der Statistik ist die Standardabweichung ein Ma\u00df f\u00fcr die Streuung eines Datensatzes, definiert als die Quadratwurzel aus seiner Varianz. Die Standardabweichung ist eine M\u00f6glichkeit, den Grad der Variation oder Streuung einer Variablen zu beschreiben (oft auch als die durchschnittliche Streuung bezeichnet). In R kann die Standardabweichung mit der Funktion sd() berechnet werden.<\/p>\n<p>Wenn Sie beispielsweise eine Variable namens x haben, k\u00f6nnen Sie die Standardabweichung durch den Aufruf von sd(x) ermitteln. Dies gibt eine einzelne Zahl zur\u00fcck, die die Standardabweichung des Datensatzes darstellt.<\/p>\n<div id=\"cb57\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb57-1\"><span class=\"fu\">sd<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb57-2\"><span class=\"do\">## [1] 7.756296<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><strong>Varianz<\/strong><\/p>\n<p>In der Statistik ist die Varianz ein Ma\u00df f\u00fcr die Streuung eines Datensatzes, definiert als der Durchschnitt der quadrierten Abweichungen der Datenpunkte vom Mittelwert. Sie ist eine M\u00f6glichkeit, den Umfang der Variation oder Streuung eines Satzes von Datenwerten zu quantifizieren. In R kann die Varianz mit der Funktion var() berechnet werden.<\/p>\n<p>Wenn Sie beispielsweise eine Variable namens x haben, k\u00f6nnen Sie die Varianz durch den Aufruf von var(x) ermitteln. Dies gibt eine einzelne Zahl zur\u00fcck, die die Varianz des Datensatzes darstellt.<\/p>\n<div id=\"cb58\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb58-1\"><span class=\"fu\">var<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb58-2\"><span class=\"do\">## [1] 60.16012<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><strong>Quantile<\/strong><\/p>\n<p>Quantile sind Werte, die einen Datensatz in gleiche Teile unterteilen. Sie werden verwendet, um die Verteilung eines Datensatzes zusammenzufassen, indem eine Reihe von Grenzwerten festgelegt wird, die die Daten in gleich gro\u00dfe Gruppen unterteilen.<\/p>\n<p>In R k\u00f6nnen Quantile mit der Funktion quantile() berechnet werden. Im Standard gibt die Funktion Quartile aus (Der Datensatz wird in vier Teile geteilt). Das Ergebnis zeigt das 25 %, 50 % und 75 % Quantil.<\/p>\n<div id=\"cb59\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb59-1\"><span class=\"fu\">quantile<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb59-2\"><span class=\"do\">##   0%  25%  50%  75% 100% <\/span><\/span>\r\n<span id=\"cb59-3\"><span class=\"do\">##  155  164  169  175  187<\/span><\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"zusammenfassung-von-kennwerten\" class=\"section level2 hasAnchor\">\n<h1>Zusammenfassung von Kennwerten<\/h1>\n<p>In R ist die Funktion summary() eine Funktion, die je nach Art der Variable eine Zusammenfassung verschiedener Kennwerte erstellt.<\/p>\n<p>Bei Anwendung auf einen numerischen Vektor gibt die Funktion summary() die folgenden Statistiken zur\u00fcck:<\/p>\n<ul>\n<li>Minimum<\/li>\n<li>\n<ol style=\"list-style-type: decimal;\">\n<li>Quantil<\/li>\n<\/ol>\n<\/li>\n<li>Median (Entspricht 2. Quantil)<\/li>\n<li>Mittelwert<\/li>\n<li>\n<ol style=\"list-style-type: decimal;\" start=\"3\">\n<li>Quantil<\/li>\n<\/ol>\n<\/li>\n<li>Maximum<\/li>\n<li>Standardabweichung<\/li>\n<\/ul>\n<p>Wenn Sie z. B. einen Datensatz namens data haben, k\u00f6nnen Sie die Zusammenfassung des Datensatzes durch den Aufruf von summary(data) erstellen.<\/p>\n<div id=\"cb60\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb60-1\"><span class=\"fu\">summary<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span>\r\n<span id=\"cb60-2\"><span class=\"do\">##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. <\/span><\/span>\r\n<span id=\"cb60-3\"><span class=\"do\">##   155.0   164.0   169.0   169.9   175.0   187.0<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Wenn Sie das gleiche f\u00fcr die Variable \u201cSternzeichen\u201d (eine Faktor-Variable) versuchen, dann erhalten Sie eine H\u00e4ufigkeitstabelle.<\/p>\n<div id=\"cb61\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb61-1\"><span class=\"fu\">summary<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen)<\/span>\r\n<span id=\"cb61-2\"><span class=\"do\">##     Fische   Jungfrau      Krebs      Loewe   Schuetze   Skorpion <\/span><\/span>\r\n<span id=\"cb61-3\"><span class=\"do\">##          8         10          5          8          5          8 <\/span><\/span>\r\n<span id=\"cb61-4\"><span class=\"do\">##  Steinbock      Stier      Waage Wassermann     Widder   Zwilling <\/span><\/span>\r\n<span id=\"cb61-5\"><span class=\"do\">##          1          9         10          8         10         11<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Eine Alternative f\u00fcr die <em>summary()<\/em> Funktion ist die <em>describe()<\/em> Funktion aus dem Paket <em>psych<\/em>. Dies ist eine n\u00fctzliche Funktion, um einen schnellen \u00dcberblick \u00fcber eine Vielzahl von Kennwerten zu bekommen. Denken Sie daran, dass wenn Sie die Funktion describe() verwenden m\u00f6chten, m\u00fcssen Sie das Paket <em>psych<\/em> laden, indem Sie library(psych) ausf\u00fchren, und dann k\u00f6nnen Sie es wie describe(data) verwenden.<\/p>\n<div id=\"cb62\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb62-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb62-2\"><span class=\"fu\">describe<\/span>(WPStudis)<\/span>\r\n<span id=\"cb62-3\"><span class=\"do\">##                                    vars  n    mean      sd median<\/span><\/span>\r\n<span id=\"cb62-4\"><span class=\"do\">## F1_Nummer                             1 93   47.70   27.36     48<\/span><\/span>\r\n<span id=\"cb62-5\"><span class=\"do\">## F2_Alter                              2 92   21.67    4.28     20<\/span><\/span>\r\n<span id=\"cb62-6\"><span class=\"do\">## F3_Geschlecht*                        3 93    1.83    0.38      2<\/span><\/span>\r\n<span id=\"cb62-7\"><span class=\"do\">## F4_Koerpergroesse                     4 93  169.95    7.76    169<\/span><\/span>\r\n<span id=\"cb62-8\"><span class=\"do\">## F5_Schuhgroesse                       5 93   39.53    2.90     39<\/span><\/span>\r\n<span id=\"cb62-9\"><span class=\"do\">## F6_Sternzeichen*                      6 93    6.87    3.72      8<\/span><\/span>\r\n<span id=\"cb62-10\"><span class=\"do\">## F7_Brille*                            7 92    1.42    0.50      1<\/span><\/span>\r\n<span id=\"cb62-11\"><span class=\"do\">## F13_WhatsApp                          8 90  526.22 1176.28    250<\/span><\/span>\r\n<span id=\"cb62-12\"><span class=\"do\">## F17_Freunde_Facebook                  9 83  327.64  173.12    300<\/span><\/span>\r\n<span id=\"cb62-13\"><span class=\"do\">## F19_Partnerschaft*                   10 91    1.57    0.50      2<\/span><\/span>\r\n<span id=\"cb62-14\"><span class=\"do\">## F20_Einkommen_Glueck                 11 76 1978.29 1031.45   2000<\/span><\/span>\r\n<span id=\"cb62-15\"><span class=\"do\">## F21_01_Zufriedenheit_Leben           12 90    3.92    0.77      4<\/span><\/span>\r\n<span id=\"cb62-16\"><span class=\"do\">## F21_02_Zufriedenheit_Studium         13 89    3.74    0.79      4<\/span><\/span>\r\n<span id=\"cb62-17\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft   14 90    3.80    0.97      4<\/span><\/span>\r\n<span id=\"cb62-18\"><span class=\"do\">##                                    trimmed     mad min  max range<\/span><\/span>\r\n<span id=\"cb62-19\"><span class=\"do\">## F1_Nummer                            47.75   35.58   1   94    93<\/span><\/span>\r\n<span id=\"cb62-20\"><span class=\"do\">## F2_Alter                             20.93    1.48  17   45    28<\/span><\/span>\r\n<span id=\"cb62-21\"><span class=\"do\">## F3_Geschlecht*                        1.91    0.00   1    2     1<\/span><\/span>\r\n<span id=\"cb62-22\"><span class=\"do\">## F4_Koerpergroesse                   169.55    8.90 155  187    32<\/span><\/span>\r\n<span id=\"cb62-23\"><span class=\"do\">## F5_Schuhgroesse                      39.12    2.97  36   50    14<\/span><\/span>\r\n<span id=\"cb62-24\"><span class=\"do\">## F6_Sternzeichen*                      6.95    4.45   1   12    11<\/span><\/span>\r\n<span id=\"cb62-25\"><span class=\"do\">## F7_Brille*                            1.41    0.00   1    2     1<\/span><\/span>\r\n<span id=\"cb62-26\"><span class=\"do\">## F13_WhatsApp                        326.89  222.39  20 9999  9979<\/span><\/span>\r\n<span id=\"cb62-27\"><span class=\"do\">## F17_Freunde_Facebook                315.03  148.26   0  900   900<\/span><\/span>\r\n<span id=\"cb62-28\"><span class=\"do\">## F19_Partnerschaft*                    1.59    0.00   1    2     1<\/span><\/span>\r\n<span id=\"cb62-29\"><span class=\"do\">## F20_Einkommen_Glueck               1966.94 1260.21 200 5000  4800<\/span><\/span>\r\n<span id=\"cb62-30\"><span class=\"do\">## F21_01_Zufriedenheit_Leben            3.99    0.00   1    5     4<\/span><\/span>\r\n<span id=\"cb62-31\"><span class=\"do\">## F21_02_Zufriedenheit_Studium          3.74    1.48   1    5     4<\/span><\/span>\r\n<span id=\"cb62-32\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft    3.88    1.48   1    5     4<\/span><\/span>\r\n<span id=\"cb62-33\"><span class=\"do\">##                                     skew kurtosis     se<\/span><\/span>\r\n<span id=\"cb62-34\"><span class=\"do\">## F1_Nummer                          -0.02    -1.24   2.84<\/span><\/span>\r\n<span id=\"cb62-35\"><span class=\"do\">## F2_Alter                            2.41     8.30   0.45<\/span><\/span>\r\n<span id=\"cb62-36\"><span class=\"do\">## F3_Geschlecht*                     -1.71     0.93   0.04<\/span><\/span>\r\n<span id=\"cb62-37\"><span class=\"do\">## F4_Koerpergroesse                   0.39    -0.65   0.80<\/span><\/span>\r\n<span id=\"cb62-38\"><span class=\"do\">## F5_Schuhgroesse                     1.29     1.42   0.30<\/span><\/span>\r\n<span id=\"cb62-39\"><span class=\"do\">## F6_Sternzeichen*                   -0.16    -1.41   0.39<\/span><\/span>\r\n<span id=\"cb62-40\"><span class=\"do\">## F7_Brille*                          0.30    -1.93   0.05<\/span><\/span>\r\n<span id=\"cb62-41\"><span class=\"do\">## F13_WhatsApp                        6.43    46.11 123.99<\/span><\/span>\r\n<span id=\"cb62-42\"><span class=\"do\">## F17_Freunde_Facebook                0.73     0.60  19.00<\/span><\/span>\r\n<span id=\"cb62-43\"><span class=\"do\">## F19_Partnerschaft*                 -0.28    -1.94   0.05<\/span><\/span>\r\n<span id=\"cb62-44\"><span class=\"do\">## F20_Einkommen_Glueck                0.35     0.22 118.32<\/span><\/span>\r\n<span id=\"cb62-45\"><span class=\"do\">## F21_01_Zufriedenheit_Leben         -1.34     3.46   0.08<\/span><\/span>\r\n<span id=\"cb62-46\"><span class=\"do\">## F21_02_Zufriedenheit_Studium       -0.34     0.42   0.08<\/span><\/span>\r\n<span id=\"cb62-47\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft -0.39    -0.56   0.10<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/zg6qSwA3RBQ\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-3\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<ul>\n<li>Lassen Sie sich die Variablenzusammenfassung f\u00fcr das Alter mit der Index-Notation ausgeben<\/li>\n<li>Was ist die g\u00f6\u00dfte Schuhgr\u00f6\u00dfe in WPStudis Datensatz?<\/li>\n<\/ul>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" srcset=\"https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png 900w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-300x192.png 300w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-768x492.png 768w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-65x42.png 65w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-225x144.png 225w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-350x224.png 350w\" sizes=\"(max-width: 900px) 100vw, 900px\" \/><\/a><\/p>\n<\/div>\n<div id=\"deskriptiver-vergleich-von-kennwerten\" class=\"section level2 hasAnchor\">\n<h1>Deskriptiver Vergleich von Kennwerten<\/h1>\n<p>Die Funktion tapply() in R wird verwendet, um eine Funktion auf Teilmengen einer Variable anzuwenden, die durch einen Faktor definiert sind. Beispielsweise wollen Sie die durchschnittliche K\u00f6rpergr\u00f6\u00dfe (Variable) nur f\u00fcr Frauen oder M\u00e4nner (Faktor) berechnen. Die Funktion ben\u00f6tigt drei Argumente: die Variable, auf die die Funktion angewendet werden soll, den\/die Faktor(en), die die Teilmengen definieren, und die anzuwendende Funktion (z. B. den Mittelwert).<\/p>\n<p>Wenn Sie zum Beispiel einen numerischen Vektor namens Daten und einen Faktorvektor namens Gruppe haben, k\u00f6nnen Sie tapply(Daten, Gruppe, Mittelwert) verwenden, um den Mittelwert der Daten f\u00fcr jede Ebene der Gruppe zu berechnen.<\/p>\n<p>Die Ausgabe ist eine Liste, die die Ergebnisse f\u00fcr jede Stufe des Faktors enth\u00e4lt. Die Namen der Listenelemente entsprechen den Stufen des Faktors.<\/p>\n<p>Um nun zum Beispiel die durchschnittliche Koerpergroesse von M\u00e4nnern und Frauen zu ermitteln, sieht das wie folgt aus.<\/p>\n<div id=\"cb63\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb63-1\"><span class=\"fu\">tapply<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, mean)<\/span>\r\n<span id=\"cb63-2\"><span class=\"do\">## Maennlich  Weiblich <\/span><\/span>\r\n<span id=\"cb63-3\"><span class=\"do\">##  181.0625  167.6364<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Dies k\u00f6nnen wir auch auf die Funktion \u201csummary\u201d anwenden.<\/p>\n<div id=\"cb64\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb64-1\"><span class=\"fu\">tapply<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, summary)<\/span>\r\n<span id=\"cb64-2\"><span class=\"do\">## $Maennlich<\/span><\/span>\r\n<span id=\"cb64-3\"><span class=\"do\">##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. <\/span><\/span>\r\n<span id=\"cb64-4\"><span class=\"do\">##   170.0   179.5   182.5   181.1   183.5   187.0 <\/span><\/span>\r\n<span id=\"cb64-5\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb64-6\"><span class=\"do\">## $Weiblich<\/span><\/span>\r\n<span id=\"cb64-7\"><span class=\"do\">##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. <\/span><\/span>\r\n<span id=\"cb64-8\"><span class=\"do\">##   155.0   163.0   168.0   167.6   171.0   186.0<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Noch ausf\u00fchrlicher geht es mit der <em>describeBy<\/em> Funktion aus dem <em>Psych<\/em> Paket. F\u00fcr jede Stufe der Faktorvariable berechnet sie den Mittelwert, die Standardabweichung, den Median, das Minimum, das Maximum und mehrere andere deskriptive Statistiken f\u00fcr den Datensatz.<\/p>\n<p>Wenn Sie beispielsweise einen Datensatz mit dem Namen data haben, der eine Variable mit dem Namen value und eine Faktorvariable mit dem Namen group enth\u00e4lt, k\u00f6nnen Sie describeBy(data<span class=\"math inline\">\\(value, data\\)<\/span>group) verwenden, um die deskriptiven Statistiken f\u00fcr die Variable value f\u00fcr jede Ebene der Faktorvariable group zu erhalten.<\/p>\n<p>Hier das gleiche Beispiel mit der <em>describeBy<\/em> Funktion aus dem <em>Psych<\/em> Paket.<\/p>\n<div id=\"cb65\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb65-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb65-2\"><span class=\"fu\">describeBy<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">mat=<\/span><span class=\"cn\">TRUE<\/span>)<\/span>\r\n<span id=\"cb65-3\"><span class=\"do\">##     item    group1 vars  n     mean       sd median  trimmed    mad<\/span><\/span>\r\n<span id=\"cb65-4\"><span class=\"do\">## X11    1 Maennlich    1 16 181.0625 4.711245  182.5 181.4286 3.7065<\/span><\/span>\r\n<span id=\"cb65-5\"><span class=\"do\">## X12    2  Weiblich    1 77 167.6364 6.084729  168.0 167.4286 5.9304<\/span><\/span>\r\n<span id=\"cb65-6\"><span class=\"do\">##     min max range       skew   kurtosis        se<\/span><\/span>\r\n<span id=\"cb65-7\"><span class=\"do\">## X11 170 187    17 -0.8400052 -0.1343342 1.1778114<\/span><\/span>\r\n<span id=\"cb65-8\"><span class=\"do\">## X12 155 186    31  0.3363957 -0.1289078 0.6934192<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/0lrQ6BNA_Ls\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-4\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Nutzen Sie den <em>WPStudis<\/em>Datensatz und berechnen Sie:<br \/>\n&#8211; Median und Standardabweichung der Schuhgr\u00f6sse der Studierenden<br \/>\n&#8211; Vergleichen Sie den Mittwelwert der Schuhgr\u00f6sse von m\u00e4nnlichen und weiblichen Studierenden<br \/>\n&#8211; Legen Sie im <em>WPStudis<\/em> Datensatz eine neue Variable an, die die K\u00f6rpergr\u00f6\u00dfe in Metern angibt<\/p>\n<\/div>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz1.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a><\/p>\n<div id=\"h\u00e4ufigkeitstabellen\" class=\"section level2 hasAnchor\">\n<h1>H\u00e4ufigkeitstabellen<\/h1>\n<p><strong>Absolute H\u00e4ufigkeiten<\/strong><\/p>\n<p>Die Funktion table() in R wird verwendet, um eine H\u00e4ufigkeitstabelle der Stufen einer kategorialen Variable oder eines Faktors zu erstellen. Sie z\u00e4hlt die Anzahl jeder Stufe der Variablen und gibt eine Tabelle zur\u00fcck, die die H\u00e4ufigkeit jeder Stufe anzeigt.<\/p>\n<p>Wenn Sie zum Beispiel eine kategoriale Variable namens group haben, k\u00f6nnen Sie table(group) verwenden, um eine H\u00e4ufigkeitstabelle zu erstellen, die die Anzahl der Vorkommen jeder Stufe anzeigt. Die Ausgabe ist eine Tabelle, die die Anzahl der Beobachtungen f\u00fcr jede Stufe der Variablen anzeigt.<\/p>\n<p>Hier am Beispiel der Variable Sternzeichen aus dem WPStudis Datensatz.<\/p>\n<div id=\"cb66\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb66-1\"><span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen)<\/span>\r\n<span id=\"cb66-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb66-3\"><span class=\"do\">##     Fische   Jungfrau      Krebs      Loewe   Schuetze   Skorpion <\/span><\/span>\r\n<span id=\"cb66-4\"><span class=\"do\">##          8         10          5          8          5          8 <\/span><\/span>\r\n<span id=\"cb66-5\"><span class=\"do\">##  Steinbock      Stier      Waage Wassermann     Widder   Zwilling <\/span><\/span>\r\n<span id=\"cb66-6\"><span class=\"do\">##          1          9         10          8         10         11<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><strong>Relative H\u00e4ufigkeiten<\/strong><\/p>\n<p>Die Funktion <em>prop.table()<\/em> in R wird verwendet, um eine mit der Funktion table() erstellte H\u00e4ufigkeitstabelle in eine Tabelle mit relativen H\u00e4ufigkeiten umzuwandeln. Die Funktion muss immer auf ein <em>table()<\/em> Objekt angewendet werden.<\/p>\n<p>Wenn Sie beispielsweise eine kategoriale Variable namens Gruppe mit drei Stufen (A, B und C) haben, k\u00f6nnen Sie mit table(group) eine H\u00e4ufigkeitstabelle erstellen, die die Anzahl der Vorkommen jeder Stufe anzeigt, und dann prop.table(table(group)) verwenden, um diese H\u00e4ufigkeitstabelle in eine Tabelle mit relativen H\u00e4ufigkeiten umzuwandeln. Die Ausgabe ist dann eine Tabelle, die den relativen Anteil der Beobachtungen f\u00fcr jede Stufe der Variablen anzeigt.<\/p>\n<div id=\"cb67\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb67-1\"><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen))<\/span>\r\n<span id=\"cb67-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb67-3\"><span class=\"do\">##     Fische   Jungfrau      Krebs      Loewe   Schuetze   Skorpion <\/span><\/span>\r\n<span id=\"cb67-4\"><span class=\"do\">## 0.08602151 0.10752688 0.05376344 0.08602151 0.05376344 0.08602151 <\/span><\/span>\r\n<span id=\"cb67-5\"><span class=\"do\">##  Steinbock      Stier      Waage Wassermann     Widder   Zwilling <\/span><\/span>\r\n<span id=\"cb67-6\"><span class=\"do\">## 0.01075269 0.09677419 0.10752688 0.08602151 0.10752688 0.11827957<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Wenn Sie die Ausgabe als Prozentwerte wollen, dann k\u00f6nnen Sie diese einfach mit 100 multiplizieren lassen. Falls Sie die vielen Nachkommastellen st\u00f6ren, dann k\u00f6nnen Sie diese mit dem Befehl <em>round()<\/em> noch runden lassen. Die Funktion round() in R wird verwendet, um einen numerischen Wert oder einen Vektor von numerischen Werten auf eine bestimmte Anzahl von Dezimalstellen zu runden. Sie braucht zwei Argumente: die zu rundende Zahl oder den Zahlenvektor und die Anzahl der Dezimalstellen, auf die gerundet werden soll.<\/p>\n<p>Wenn Sie beispielsweise eine Zahl namens x haben, die gleich 3,14159 ist, k\u00f6nnen Sie round(x, 2) verwenden, um sie auf 2 Dezimalstellen zu runden, was 3,14 ergibt.<\/p>\n<p>Hier nun alles zusammen angewendet auf unser Beispiel, ergibt die prozentualen H\u00e4ufigkeiten je Sternzeichen mit je zwei Nachkommastellen.<\/p>\n<div id=\"cb68\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb68-1\"><span class=\"fu\">round<\/span>(<span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F6_Sternzeichen)),<span class=\"dv\">2<\/span>)<\/span>\r\n<span id=\"cb68-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb68-3\"><span class=\"do\">##     Fische   Jungfrau      Krebs      Loewe   Schuetze   Skorpion <\/span><\/span>\r\n<span id=\"cb68-4\"><span class=\"do\">##       8.60      10.75       5.38       8.60       5.38       8.60 <\/span><\/span>\r\n<span id=\"cb68-5\"><span class=\"do\">##  Steinbock      Stier      Waage Wassermann     Widder   Zwilling <\/span><\/span>\r\n<span id=\"cb68-6\"><span class=\"do\">##       1.08       9.68      10.75       8.60      10.75      11.83<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/vPqULHie_FY\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"kreuztabellen\" class=\"section level2 hasAnchor\">\n<h1>Kreuztabellen<\/h1>\n<p>In R k\u00f6nnen Sie mit der Funktion table() eine Kreuztabelle erstellen, die auch als Kontingenztabelle bezeichnet wird. Eine Kontingenztabelle wird verwendet, um die Beziehung zwischen zwei oder mehr kategorialen Variablen zusammenzufassen, wobei die H\u00e4ufigkeit jeder Kombination von Stufen angezeigt wird.<\/p>\n<p>Wenn Sie zum Beispiel zwei kategoriale Variablen mit den Namen group1 und group2 haben, k\u00f6nnen Sie eine Kreuztabelle erstellen, indem Sie table(group1, group2) aufrufen. Die Ausgabe ist eine Matrix, die die H\u00e4ufigkeit der einzelnen Kombinationen der Stufen von Gruppe1 und Gruppe2 anzeigt.<\/p>\n<p>Hier ein Beispiel aus dem WPStudis Datensatz:<\/p>\n<div id=\"cb69\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb69-1\"><span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span>\r\n<span id=\"cb69-2\"><span class=\"do\">##       <\/span><\/span>\r\n<span id=\"cb69-3\"><span class=\"do\">##        Maennlich Weiblich<\/span><\/span>\r\n<span id=\"cb69-4\"><span class=\"do\">##   Nein        14       39<\/span><\/span>\r\n<span id=\"cb69-5\"><span class=\"do\">##   JA           2       37<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Nun wollen wir wieder die relativen Prozente berechnen und nutzen dazu wieder die <em>prop.table<\/em> Funktion. Bei einer Kontingenztabelle gibt es nun aber drei M\u00f6glichkeiten relative H\u00e4ufigkeiten zu berechnen.<\/p>\n<p>Variante 1: Alle Werte als Bezugsgr\u00f6\u00dfe<\/p>\n<div id=\"cb70\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb70-1\"><span class=\"fu\">round<\/span>(<span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)))<\/span>\r\n<span id=\"cb70-2\"><span class=\"do\">##       <\/span><\/span>\r\n<span id=\"cb70-3\"><span class=\"do\">##        Maennlich Weiblich<\/span><\/span>\r\n<span id=\"cb70-4\"><span class=\"do\">##   Nein        15       42<\/span><\/span>\r\n<span id=\"cb70-5\"><span class=\"do\">##   JA           2       40<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Dies gibt uns die Prozentwerte der jeweiligen 4 Gruppen (bezogen auf alle Studierenden). Zum Beispiel wissen wir nun, dass 15 % der Studierenden m\u00e4nnlich sind und keine Brille tragen.<\/p>\n<p>Mit der Erweiterung <em>,1<\/em> beziehungsweise <em>,2<\/em> k\u00f6nnen nun die relativen Zeilenprozente bzw. Spaltenprozente berechnet werden.<\/p>\n<p>Variante 2: Zeilensummen als Bezugsgr\u00f6\u00dfe<\/p>\n<div id=\"cb71\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb71-1\"><span class=\"fu\">round<\/span>(<span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">1<\/span>))<\/span>\r\n<span id=\"cb71-2\"><span class=\"do\">##       <\/span><\/span>\r\n<span id=\"cb71-3\"><span class=\"do\">##        Maennlich Weiblich<\/span><\/span>\r\n<span id=\"cb71-4\"><span class=\"do\">##   Nein        26       74<\/span><\/span>\r\n<span id=\"cb71-5\"><span class=\"do\">##   JA           5       95<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Hier wird pro Zeile gerechnet, d.\u00a0h. jede Zeile ergibt 100 %. Wir k\u00f6nnen nun also zum Beispiel sagen, dass von allen Brillentr\u00e4gern (Zeile \u201cJA\u201d) nur rund 5 % m\u00e4nnlich sind.<\/p>\n<p>Variante 3: Spaltensummen als Bezugsgr\u00f6\u00dfe<\/p>\n<div id=\"cb72\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb72-1\"><span class=\"fu\">round<\/span>(<span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">2<\/span>))<\/span>\r\n<span id=\"cb72-2\"><span class=\"do\">##       <\/span><\/span>\r\n<span id=\"cb72-3\"><span class=\"do\">##        Maennlich Weiblich<\/span><\/span>\r\n<span id=\"cb72-4\"><span class=\"do\">##   Nein        88       51<\/span><\/span>\r\n<span id=\"cb72-5\"><span class=\"do\">##   JA          12       49<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Dies sagt uns nun, dass von den m\u00e4nnlichen Studierenden nur 12 % eine Brille tragen.<\/p>\n<p>Welche der drei Varianten die richtige ist, l\u00e4sst sich dabei nicht pauschal sagen und h\u00e4ngt von der Fragestellung ab.<\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/LhklhmQb2Ys\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"korrelation\" class=\"section level2 hasAnchor\">\n<h1>Korrelation<\/h1>\n<p>Grunds\u00e4tzlich gibt es in R mehrere M\u00f6glichkeiten (wie immer) Korrelationen zu berechnen. Die <em>cor()<\/em> sowie <em>cor.test()<\/em> Funktionen sind ein Grundbestandteil von R. Weitere Korrelationsfunktionen sind in vielen Packages enthalten, z. B. <em>rcorr()<\/em> im Hmisc package.<\/p>\n<p><strong>Pearson Korrelation<\/strong><\/p>\n<p>Die Funktion <em>cor()<\/em> in R wird zur Berechnung des Korrelationskoeffizienten zwischen zwei oder mehreren numerischen Variablen verwendet. Die Korrelation misst die St\u00e4rke und Richtung der linearen Beziehung zwischen zwei Variablen.<\/p>\n<p>Wenn Sie zum Beispiel zwei numerische Vektoren mit den Namen x und y haben, k\u00f6nnen Sie cor(x, y) verwenden, um den Pearson-Korrelationskoeffizienten zwischen den beiden Variablen zu berechnen. Die Ausgabe ist eine einzelne Zahl zwischen -1 und 1, wobei -1 f\u00fcr eine perfekte negative Korrelation, 0 f\u00fcr keine Korrelation und 1 f\u00fcr eine perfekte positive Korrelation steht.<\/p>\n<p>Sie k\u00f6nnen cor() auch auf einen ganzen Datensatz anwenden, in diesem Fall wird die Korrelationsmatrix f\u00fcr alle Variablenpaare berechnet.<\/p>\n<div id=\"cb73\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb73-1\"><span class=\"fu\">cor<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse, <span class=\"at\">method=<\/span><span class=\"st\">\"pearson\"<\/span>)<\/span>\r\n<span id=\"cb73-2\"><span class=\"do\">## [1] 0.7253853<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><strong>Rangkorrelation<\/strong><\/p>\n<p>Sind die Variablen nicht metrisch skaliert, sondern ordinal (z. B. Rangfolgen), sollten Sie eine Rangkorrelation, wie Kendall\u2019s Tau oder Spearmans Rho verwenden.<\/p>\n<p>In R k\u00f6nnen Sie den Korrelationskoeffizienten Kendall\u2019s tau mit der Funktion cor() und dem Argument method = \u201ckendall\u201d berechnen. Wenn Sie beispielsweise zwei numerische Vektoren mit den Namen x und y haben, k\u00f6nnen Sie cor(x, y, method = \u201ckendall\u201d) verwenden, um den Korrelationskoeffizienten Kendall\u2019s tau zwischen den beiden Variablen zu berechnen. Auch hier ist die Ausgabe eine einzelne Zahl zwischen -1 und 1, wobei -1 f\u00fcr eine perfekte negative Korrelation, 0 f\u00fcr keine Korrelation und 1 f\u00fcr eine perfekte positive Korrelation steht.<\/p>\n<p>Zur weiteren Interpretaion des Korrelationskoeffizienten sind die Konventionen von Cohen hilfreich. Nach Cohen sollten die folgenden Konventionen zur Interpretation der Gr\u00f6\u00dfe des Korrelationskoeffizienten verwendet werden:<\/p>\n<p>r = 0,1: eine geringe Korrelation<br \/>\nr = 0,3: eine m\u00e4\u00dfige Korrelation<br \/>\nr = 0,5: eine gro\u00dfe Korrelation<\/p>\n<p>Es ist wichtig zu bedenken, dass diese Konventionen auf Cohens subjektiver Interpretation dessen beruhen, was eine kleine, mittlere oder gro\u00dfe Korrelation ausmacht. Diese Konventionen sind nicht allgemein anerkannt, und die tats\u00e4chliche Gr\u00f6\u00dfe des Korrelationskoeffizienten h\u00e4ngt von dem jeweiligen Kontext und der Art der Daten ab.<\/p>\n<p>Im folgenden Beispiel berechnen wir die Korrelation der Variablen \u201cZufriedenheit mit dem Studium\u201d und \u201cZufriedenheit mit dem Leben\u201d. Beides sind Ergebnisse eines Fragebogen-Items, das eine 5-stufige Likert-Skala nutzt von 1 = sehr unzufrieden bis 5 = sehr zufrieden. \u00dcblicherweise werden solche Skalen als metrisch angenommen und eine Pearson Korrelation gerechnet. Man k\u00f6nnte hier jedoch durchaus auch argumentieren, dass tendenziell eher eine ordinale Skalierung vorliegt und daher rechnen wir nun eine Rangkorrelation.<\/p>\n<p>Wichtiger Hinweis:<\/p>\n<p>Wir m\u00fcssen R sagen, was mit den fehlenden Werten passieren soll. Das Argument use=\u201ccomplete.obs\u201d sorgt daf\u00fcr, dass nur Datens\u00e4tze, die \u201ccomplete\u201d also ohne fehlende Werte sind, verwendet werden. Auch f\u00fcr die Nutzung von Kendall\u2019s Tau m\u00fcssen beide Variablen als numeric formatiert sein (auch wenn ordinale Variablen h\u00e4ufig als Faktoren formatiert sind).<\/p>\n<div id=\"cb74\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb74-1\"><span class=\"fu\">cor<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_02_Zufriedenheit_Studium ,WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben,<span class=\"at\">use=<\/span><span class=\"st\">\"complete.obs\"<\/span>,  <span class=\"at\">method=<\/span><span class=\"st\">\"kendall\"<\/span>)<\/span>\r\n<span id=\"cb74-2\"><span class=\"do\">## [1] 0.3073518<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>**Signifikanztest f\u00fcr Korrelationskoeffizienten*<\/p>\n<p>Im Folgenden wollen wir feststellen, ob die Korrelation zwischen zwei Variablen statistisch signifikant ist. Dies ist immer dann von Bedeutung, wenn wir die Korrelation nur auf Basis einer Stichprobe berechnet haben und nun R\u00fcckschl\u00fcsse auf eine gr\u00f6\u00dfere Population ziehen wollen.<\/p>\n<p>In R wird die Funktion <em>cor.test()<\/em> verwendet, um einen Korrelationstest durchzuf\u00fchren. Dabei handelt es sich um einen statistischen Test, mit dem festgestellt werden kann, ob eine signifikante Korrelation zwischen zwei Variablen besteht. Die Funktion cor.test() ben\u00f6tigt zwei Argumente: die beiden zu testenden Variablen, die zu verwendende Korrelationsmethode (Pearson, Kendall oder Spearman).<\/p>\n<p>Hier angewendet auf unser Beispiel.<\/p>\n<div id=\"cb75\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb75-1\"><span class=\"fu\">cor.test<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_02_Zufriedenheit_Studium ,WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben, <span class=\"at\">method =<\/span><span class=\"st\">\"kendall\"<\/span>)<\/span>\r\n<span id=\"cb75-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb75-3\"><span class=\"do\">##  Kendall's rank correlation tau<\/span><\/span>\r\n<span id=\"cb75-4\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb75-5\"><span class=\"do\">## data:  WPStudis$F21_02_Zufriedenheit_Studium and WPStudis$F21_01_Zufriedenheit_Leben<\/span><\/span>\r\n<span id=\"cb75-6\"><span class=\"do\">## z = 3.2087, p-value = 0.001333<\/span><\/span>\r\n<span id=\"cb75-7\"><span class=\"do\">## alternative hypothesis: true tau is not equal to 0<\/span><\/span>\r\n<span id=\"cb75-8\"><span class=\"do\">## sample estimates:<\/span><\/span>\r\n<span id=\"cb75-9\"><span class=\"do\">##       tau <\/span><\/span>\r\n<span id=\"cb75-10\"><span class=\"do\">## 0.3073518<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Die Funktion gibt, neben anderen Informationen, die Teststatistik, den p-Wert und den Stichprobenumfang aus. Am einfachsten ist die Intepretation des p-Wertes. Dieser gibt die Wahrscheinlichkeit an, eine solche Korrelation (von 0.3) in der Stichprobe zu finden unter der Annahme, dass es in Wirklichkeit (also in der Population) gar keine Korrelation zwischen den Variablen gibt. Diese ist hier sehr gering (kleiner als 0,01 oder 1 %), daher k\u00f6nnen wir die These (die sog. Nullhypothese) verwerfen und sagen, dass wir uns sehr sicher sind, dass es eine Korrelation in der Population gibt.<\/p>\n<p>Wissenschaftlich ausgedr\u00fcckt w\u00fcrden wir sagen, dass eine positive mittlere Korrelation von .3 vorliegt, die auf dem 1 %-Niveau signifikant ist.<\/p>\n<p>Sie erm\u00f6glicht es Ihnen zu testen, ob der Korrelationskoeffizient von Null verschieden ist, was darauf hinweisen w\u00fcrde, dass eine Beziehung zwischen den beiden Variablen besteht. Au\u00dferdem k\u00f6nnen Sie damit verschiedene Korrelationskoeffizienten vergleichen, was beim Testen mehrerer Variablen oder beim Vergleich der Korrelation zwischen verschiedenen Datengruppen n\u00fctzlich sein kann.<\/p>\n<p>Es ist wichtig zu beachten, dass die Funktion cor.test() davon ausgeht, dass die Variablen normalverteilt sind. Wenn die Variablen nicht normalverteilt sind, sollten Sie nichtparametrische Korrelationstests, wie den Korrelationskoeffizienten nach Kendall oder Spearman, verwenden.<\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/zGRmSrRoCLc\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-5\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Nutzen Sie den Datensatz <em>WPStudis<\/em>:<\/p>\n<ul>\n<li>Gibt es einen Zusammenhang zwischen Anzahl gesendeter WhatsApp und der Anzahl der Facebook Freunde?<\/li>\n<li>Gibt es einen Zusammenhang zwischen dem Alter und dem ben\u00f6tigten Einkommen zum Gl\u00fccklichsein (F20)?<\/li>\n<\/ul>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz2.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a><br \/>\n&nbsp;<\/p>\n<\/div>\n","protected":false},"author":1,"menu_order":2,"template":"","meta":{"pb_show_title":"on","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":1725,"_links":{"self":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1735"}],"collection":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":6,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1735\/revisions"}],"predecessor-version":[{"id":1824,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1735\/revisions\/1824"}],"part":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/parts\/1725"}],"metadata":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1735\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/media?parent=1735"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapter-type?post=1735"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/contributor?post=1735"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/license?post=1735"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}