{"id":1742,"date":"2023-04-12T14:07:39","date_gmt":"2023-04-12T12:07:39","guid":{"rendered":"http:\/\/statistikgrundlagen.de\/ebook\/?post_type=chapter&#038;p=1742"},"modified":"2025-11-07T10:50:13","modified_gmt":"2025-11-07T09:50:13","slug":"grafiken-mit-r","status":"publish","type":"chapter","link":"https:\/\/statistikgrundlagen.de\/ebook\/chapter\/grafiken-mit-r\/","title":{"rendered":"Grafiken mit R"},"content":{"raw":"<h1>Grafiken mit der plot() Funktion<\/h1>\r\n<div id=\"vorbereitung\" class=\"section level2 hasAnchor\">\r\n<h1>Vorbereitung<\/h1>\r\nDatensatz \u2018WPStudis.RData\u2019 \u00f6ffnen (Sie muessen ggf. noch Ihren Pfad aendern bzw. den Workspace neu definieren):\r\n<div id=\"cb76\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb76-1\"><\/span>\r\n<span id=\"cb76-2\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.Rdata\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"die-plot-funktion\" class=\"section level2 hasAnchor\">\r\n<h1>Die plot() Funktion<\/h1>\r\nDie Funktion <em>plot()<\/em> kann verwendet werden, um je nach Dateneingabe eine breite Palette von Diagrammen zu erstellen. Die folgende Tabelle gibt eine kleine \u00dcbersicht:\r\n<table>\r\n<thead>\r\n<tr class=\"header\">\r\n<th>Datenformat<\/th>\r\n<th>Grafik<\/th>\r\n<\/tr>\r\n<\/thead>\r\n<tbody>\r\n<tr class=\"odd\">\r\n<td>plot(vektor)<\/td>\r\n<td>Index-Diagramm<\/td>\r\n<\/tr>\r\n<tr class=\"even\">\r\n<td>plot(faktor)<\/td>\r\n<td>S\u00e4ulendiagramm<\/td>\r\n<\/tr>\r\n<tr class=\"odd\">\r\n<td>plot(vektor, vektor)<\/td>\r\n<td>Streudiagramm<\/td>\r\n<\/tr>\r\n<tr class=\"even\">\r\n<td>plot(faktor, vektor)<\/td>\r\n<td>Boxplots<\/td>\r\n<\/tr>\r\n<tr class=\"odd\">\r\n<td>plot(faktor, faktor)<\/td>\r\n<td>Mosaik-Diagramm<\/td>\r\n<\/tr>\r\n<tr class=\"even\">\r\n<td>plot(dataframe)<\/td>\r\n<td>Streu-Matrix<\/td>\r\n<\/tr>\r\n<\/tbody>\r\n<\/table>\r\nWenden wir die <em>plot()<\/em> Funktion zun\u00e4chst auf einen Faktor an, dann erhalten wir ein S\u00e4ulendiagramm.\r\n<div id=\"cb77\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb77-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-90-1.png\" width=\"672\" \/>\r\n\r\nDie y-Achse k\u00f6nnte einen Tick h\u00f6her sein. Dies l\u00e4sst sich recht einfach mit dem <em>ylim<\/em> Argument \u00e4ndern. Hier m\u00fcssen zwei Werte mit der <em>c()<\/em> Funktion verbunden werden: Der Anfang und das Ende der y-Achse. Hier wollen wir eine Achse, die bei 0 anf\u00e4ngt und bis 100 geht.\r\n<div id=\"cb78\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb78-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">100<\/span>))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-91-1.png\" width=\"672\" \/>\r\n\r\nMit dem Argument <em>col<\/em> l\u00e4sst sich die Farbe der S\u00e4ulen beispielsweise auf rot (\u201cred\u201d) \u00e4ndern.\r\n<div id=\"cb79\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb79-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">100<\/span>), <span class=\"at\">col=<\/span><span class=\"st\">\"red\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-92-1.png\" width=\"672\" \/>\r\n\r\nEs gibt auch andere Farben. Eine \u00dcbersicht \u00fcber die in R mit Namen verf\u00fcgbaren Farben erh\u00e4lt man mit dem Befehl <em>colors()<\/em>. Dar\u00fcber hinaus gibt es jede m\u00f6gliche RGB Farbe. Der Befehl hierf\u00fcr ist <em>col=<\/em> gefolgt von einem Hashtag und dem 6-stelligen RGB Code der Farbe, also zum Beispiel <em>col=\u201c#009999\u201d<\/em>.\r\n<div id=\"cb80\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb80-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">120<\/span>), <span class=\"at\">col=<\/span><span class=\"st\">\"#009999\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-93-1.png\" width=\"672\" \/>\r\n\r\nWenn wir numerische Daten haben, dann gibt der Befehl ein Streudiagramm aus. Dies ist eine wenig sinnvolle Darstellungsform, wenn die Reihenfolge der Daten keine Rolle spielt (wie in unserem Datensatz). Die x-Achse entspricht dabei der Zeilennummer im Datensatz.\r\n<div id=\"cb81\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb81-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-94-1.png\" width=\"672\" \/>\r\n\r\nBei zwei numerischen Variablen (Vektoren) macht eine solche Darstellung schon mehr Sinn. Bei zwei Variablen zeigt ein Streudiagramm den Zusammenhang der beiden Variablen in \u00fcbersichtlicher Form. Hierf\u00fcr benutzen wir die Tilde \u201c~\u201d. Es gilt y-Achse ~ x-Achse.\r\n<div id=\"cb82\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb82-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-95-1.png\" width=\"672\" \/>\r\n\r\nFalls eine Variable numerisch ist und die zweite Variable ein Faktor, bekommen wir mit demselben Befehl einen Boxplot. Hierzu nutzen wir nun die Variable Geschlecht, die als Faktor formatiert ist.\r\n<div id=\"cb83\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb83-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-96-1.png\" width=\"672\" \/>\r\n\r\nFalls beide Variablen Faktoren sind, bekommen wir mit demselben Befehl ein Mosaik-Diagramm. Dies entspricht einem gestapelten Balkendiagramm, wobei die Breite der Balken (x-Ausdehnung) dem jeweiligen relativen Anteil der Variable entspricht.\r\n<div id=\"cb84\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb84-1\">WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben<span class=\"ot\">&lt;-<\/span><span class=\"fu\">as.factor<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben)<\/span>\r\n<span id=\"cb84-2\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben <span class=\"sc\">~<\/span> WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-97-1.png\" width=\"672\" \/>\r\n<h1><strong>Weitere M\u00f6glichkeiten der Grafikgestaltung<\/strong><\/h1>\r\nEs gibt noch eine gro\u00dfe Anzahl weiterer Argumente f\u00fcr die plot() Funktion, wie zum Beispiel:\r\n\r\n-main: der Haupttitel des Diagramms.\r\n-xlab: die Beschriftung f\u00fcr die x-Achse.\r\n-ylab: die Beschriftung f\u00fcr die y-Achse.\r\n\r\nWeitere Funktionen k\u00f6nnen Sie mit<em>?plot()<\/em> herausfinden.\r\n\r\nHier nochmal die gleiche Grafik, jedoch angereichert um die Beschriftungen der Achsen. <em>xlab<\/em> und <em>ylab<\/em> bezeichnen jeweils die Achsen-Beschriftungen (Label). <em>main<\/em> gibt den Diagramm-Titel an.\r\n<div id=\"cb85\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb85-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben <span class=\"sc\">~<\/span> WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht,<\/span>\r\n<span id=\"cb85-2\">     <span class=\"at\">xlab =<\/span> <span class=\"st\">\"Geschlecht\"<\/span>, <\/span>\r\n<span id=\"cb85-3\">     <span class=\"at\">ylab =<\/span> <span class=\"st\">\"Zufriedenheit mit dem Leben\"<\/span>,<\/span>\r\n<span id=\"cb85-4\">     <span class=\"at\">main =<\/span> <span class=\"st\">\"Zufriedenheit der Studierenden nach Geschlecht\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-98-1.png\" width=\"672\" \/>\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/1Wwx9IuE8d4\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<h1>Weitere Grafiktypen mit R<\/h1>\r\n<div id=\"balkendiagramm\" class=\"section level2 hasAnchor\">\r\n<h1>Balkendiagramm<\/h1>\r\nUm ein Balkendiagramm in R zu erstellen, k\u00f6nnen Sie die Funktion <em>barplot()<\/em> verwenden. Wichtig ist, dass wir diese Funktion auf H\u00e4ufigkeiten anwenden, die wir mit der <em>table()<\/em> Funktion generieren. Nehmen wir an, wir wollen die H\u00e4ufigkeiten der Antworten bei der Frage \u201cZufriedenheit mit dem Leben\u201d darstellen.\r\n<div id=\"cb86\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb86-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-100-1.png\" width=\"672\" \/>\r\n\r\nNun wollen wir dies getrennt nach Geschlechtern dargestellt haben. Wir nutzen dazu die Kreuztabelle mit der <em>prop.table()<\/em> Funktion mit dem Parameter <em>,2<\/em> f\u00fcr die Spaltenprozente. In diesem Fall erhalten wir ein gestapeltes Balkendiagramm. Ein gestapeltes Balkendiagramm wird verwendet, um Vergleiche zwischen Datenkategorien zu zeigen, aber mit dem Zusatz, dass die Balken, die verschiedene Unterkategorien darstellen, \u00fcbereinander gestapelt werden. Dies erm\u00f6glicht die Darstellung der Gesamtgr\u00f6\u00dfe jeder Kategorie sowie des Anteils jeder Unterkategorie an dieser Gesamtgr\u00f6\u00dfe.\r\n<div id=\"cb87\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb87-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">2<\/span>))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-101-1.png\" width=\"672\" \/>\r\n\r\nUm die einzelnen Kategorien zuordnen zu k\u00f6nnen, ben\u00f6tigen wir noch eine Legende. Diese k\u00f6nnen wir uns mit <em>Legend=True<\/em> anzeigen lassen.\r\n<div id=\"cb88\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb88-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">2<\/span>),<span class=\"at\">legend=<\/span>T)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-102-1.png\" width=\"672\" \/>\r\n\r\nEs ist wichtig zu beachten, dass gestapelte Balkendiagramme irref\u00fchrend sein k\u00f6nnen, wenn man versucht, die Gr\u00f6\u00dfe einzelner Unterkategorien \u00fcber verschiedene Kategorien hinweg zu vergleichen, da die Stapel die zugrunde liegenden Werte verdecken k\u00f6nnen. In solchen F\u00e4llen kann es sinnvoller sein, ein gruppiertes Balkendiagramm zu verwenden, in dem die Balken f\u00fcr jede Unterkategorie nebeneinander angeordnet sind. Mit dem Argument <em>beside=TRUE<\/em> sorgt man daf\u00fcr, dass statt gestapelten Balken, diese nebeneinander dargestellt werden und wir somit ein gruppiertes Balkendiagramm erhalten.\r\n<div id=\"cb89\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb89-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">2<\/span>),<span class=\"at\">beside=<\/span>T,<span class=\"at\">legend=<\/span>T)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-103-1.png\" width=\"672\" \/>\r\n\r\nHier ein Beispiel aus dem R Standarddatensatz <em>VADeaths<\/em>. Dieser enth\u00e4lt die Todesraten (pro 1000 Einwohner) im Bundesstaat Virginia, USA, in den Jahren 1907-1916.\r\n\r\nErzeugen wir zun\u00e4chst ein einfaches Balkendiagramm.\r\n<div id=\"cb90\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb90-1\"><span class=\"fu\">barplot<\/span>(VADeaths)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-104-1.png\" width=\"672\" \/>\r\n\r\nDie Lesbarkeit ist aufgrund der vielen Kategorien nicht optimal. Daher nun als gruppiertes Balkendiagramm mit dem Befehl <em>beside=TRUE<\/em> . Zus\u00e4tzlich vergeben wir eine \u00dcberschrift und beschriften die y-Achse .\r\n<div id=\"cb91\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb91-1\"><span class=\"fu\">barplot<\/span>(VADeaths, <span class=\"at\">beside=<\/span><span class=\"cn\">TRUE<\/span>, <span class=\"at\">legend=<\/span><span class=\"cn\">TRUE<\/span>, <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">250<\/span>),<\/span>\r\n<span id=\"cb91-2\">        <span class=\"at\">ylab=<\/span><span class=\"st\">\"Tote pro 1000\"<\/span>,<\/span>\r\n<span id=\"cb91-3\">        <span class=\"at\">main=<\/span><span class=\"st\">\"Sterberaten in Virginia 1940\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-105-1.png\" width=\"672\" \/>\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/jcdOnV5j0Xs\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-6\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\n<ul>\r\n \t<li>Entwerfen Sie ein Balkendiagramm f\u00fcr die Schuhgroesse der WP Studierenden.<\/li>\r\n \t<li>Versuchen Sie die Balken rot und ohne Umrandung zu formatieren.<\/li>\r\n \t<li>Wenn Sie die Beschriftung der x-Achse betrachten, was f\u00e4llt Ihnen auf? Welche alternative Darstellung k\u00f6nnte man f\u00fcr die Daten w\u00e4hlen?<\/li>\r\n<\/ul>\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n\r\n<\/div>\r\n<div id=\"vergleich-von-mittelwerten\" class=\"section level2 hasAnchor\">\r\n<h1>Vergleich von Mittelwerten<\/h1>\r\nAuch Mittelwerte lassen sich als Balkendiagramm darstellen. Hierf\u00fcr wenden wir die <em>barplot<\/em> Funktion einfach auf den <em>tapply<\/em> Befehl aus dem vorangegangenen Kapitel an. Sie k\u00f6nnen mit dem Befehl <em>col<\/em> \u00fcbrigens auch zwei Farbwerte angeben.\r\n<div id=\"cb92\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb92-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">tapply<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, mean), <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">200<\/span>), <span class=\"at\">col=<\/span><span class=\"fu\">c<\/span>(<span class=\"st\">\"#665588\"<\/span>,<span class=\"st\">\"#009999\"<\/span>))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-107-1.png\" width=\"672\" \/>\r\n\r\nJedoch sind Balkendiagramme nicht der beste Weg, um zwei Mittelwerte grafisch zu vergleichen, da sie leicht zu einer Fehlinterpretation der Daten f\u00fchren k\u00f6nnen. Beim Vergleich von zwei Mittelwerten kann der H\u00f6henunterschied zwischen den Balken gering sein, was einen visuellen Vergleich der beiden Mittelwerte erschwert. Au\u00dferdem gibt die H\u00f6he der Balken keinen Aufschluss \u00fcber die Streuung der Daten oder die Variabilit\u00e4t innerhalb jeder Gruppe (Die Streuung liegt ja auch zu 50 % \u00fcber den Balken, was allerdings optisch so nicht erkennbar ist).\r\n\r\nEin weiteres Problem bei Balkendiagrammen ist, dass sie keinen Hinweis auf die Unsicherheit um die Mittelwerte geben, wie z. B. die Standardabweichung oder das Konfidenzintervall. Dies bedeutet, dass es schwierig ist festzustellen, ob der Unterschied zwischen den beiden Mittelwerten statistisch signifikant ist.\r\n\r\nAus diesen Gr\u00fcnden werden Punktdiagramme oder sogenannte Fehlerbalkendiagramme als bessere M\u00f6glichkeiten f\u00fcr den grafischen Vergleich zweier Mittelwerte angesehen. Diese schauen wir uns im n\u00e4chsten Kapitel an.\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/tzXGNMZLc60\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"fehlerbalkendiagramme\" class=\"section level2 hasAnchor\">\r\n<h1>Fehlerbalkendiagramme<\/h1>\r\nMit dem <em>psych<\/em> Paket lassen sich sehr einfach Grafiken f\u00fcr Mittelwerte und Fehlerbalkendiagramme mit Konfidenzintervallen erstellen.\r\n\r\nHierzu nutzen wir die <em>error.bars.by()<\/em> Funktion des Pakets psych. Diese Funktion kann verwendet werden, um Fehlerbalken zu einem mit der Funktion barplot() erstellten Balkendiagramm hinzuzuf\u00fcgen, indem der Mittelwert und die Standardabweichung (oder der Standardfehler) f\u00fcr jede Gruppe angegeben werden.\r\n\r\nWollen wir zum Beispiel die Mittelwerte der K\u00f6rpergr\u00f6\u00dfe von Frauen und M\u00e4nnern vergleichen, gehen wir wie folgt vor: error.bars.by(Variable1,Variable2). Hinweis: Standardm\u00e4\u00dfig zeigt die Funktion sogenannte Katzenaugen. Wenn Sie stattdessen die Fehlerbalken erhalten wollen, m\u00fcssen Sie also <em>eyes=FALSE<\/em> angeben.\r\n<div id=\"cb93\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb93-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb93-2\"><span class=\"fu\">error.bars.by<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">eyes=<\/span><span class=\"cn\">FALSE<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-109-1.png\" width=\"672\" \/>\r\n\r\nLeider benennt die Funktion die Gruppen immer mit \u201cgroup1\u201d etc., daher vergeben wir wieder die richtigen Labels mit der <em>v.labels<\/em> Funktion (f\u00fcr Variablen-Labels).\r\n<div id=\"cb94\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb94-1\"><span class=\"fu\">error.bars.by<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">eyes=<\/span><span class=\"cn\">FALSE<\/span>, <span class=\"at\">v.labels=<\/span><span class=\"fu\">cbind<\/span>(<span class=\"st\">\"M\u00e4nnlich\"<\/span>,<span class=\"st\">\"Weiblich\"<\/span>))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-110-1.png\" width=\"672\" \/>\r\n\r\nWenn sich die Konfidenzintervalle f\u00fcr zwei Mittelwerte nicht \u00fcberschneiden, wie in diesem Beispiel, bedeutet dies, dass der Unterschied zwischen den beiden Mittelwerten statistisch signifikant ist. Ein Konfidenzintervall stellt den Wertebereich dar, in dem der wahre Mittelwert auf der Grundlage eines bestimmten Konfidenzniveaus (in der Regel 95 %) wahrscheinlich liegen wird. Wenn sich die Konfidenzintervalle f\u00fcr zwei Mittelwerte nicht \u00fcberschneiden, bedeutet dies, dass die wahren Mittelwerte f\u00fcr die beiden Gruppen wahrscheinlich unterschiedlich sind.\r\n\r\nMachen wir ein weiteres Beispiel aus dem Datensatz WPStudis. Wer ist zufriedener in der Beziehung, M\u00e4nner oder Frauen?\r\n<div id=\"cb95\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb95-1\"><span class=\"fu\">error.bars.by<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_03_Zufriedenheit_Partnerschaft,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht,<span class=\"at\">eyes=<\/span><span class=\"cn\">FALSE<\/span>, <span class=\"at\">v.labels=<\/span><span class=\"fu\">cbind<\/span>(<span class=\"st\">\"M\u00e4nnlich\"<\/span>,<span class=\"st\">\"Weiblich\"<\/span>))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-111-1.png\" width=\"672\" \/>\r\n\r\nDeskriptiv ist der Wert der Frauen h\u00f6her, aber wie man sieht \u00fcberschneiden sich die Konfidenzintervalle. Der Unterschied der Mittelwerte ist also nicht signifikant und wir k\u00f6nnen daher nicht sagen, dass Frauen auch in der Population zufriedener sind als M\u00e4nner.\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/x_mHPk9Xf0c\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"histogramm\" class=\"section level2 hasAnchor\">\r\n<h1>Histogramm<\/h1>\r\nEin Histogramm ist eine grafische Darstellung der Verteilung eines Datensatzes. Ein Histogramm sieht auf den ersten Blick aus wie ein S\u00e4ulendiagramm, ist aber dennoch eine andere Darstellungsform. Ein Histogramm wird verwendet, um die Verteilung von kontinuierlichen Daten, wie Messwerten oder Zeitdaten, darzustellen. Die x-Achse eines Histogramms stellt die Werte im Datensatz dar, die y-Achse die H\u00e4ufigkeit, d.\u00a0h. die Anzahl, mit der dieser Wert im Datensatz erscheint. Die Balken in einem Histogramm liegen in der Regel ohne Zwischenraum nebeneinander und haben in der Regel die gleiche Breite.\r\n\r\nEin Balkendiagramm hingegen wird verwendet, um die Werte verschiedener Kategorien oder Gruppen zu vergleichen. Die x-Achse eines Balkendiagramms steht f\u00fcr die Kategorien oder Gruppen, die y-Achse f\u00fcr die Werte. Kategorien, die in den Daten nicht vorkommen, werden nicht angezeigt. In einem Histogramm hingegen, werden diese als \u201cL\u00fccken\u201d sichtbar. Daher ist ein Histogramm besonders dazu geeignet, die Verteilungsform zu interpretieren.\r\n\r\nEin Histogramm kann direkt mit <em>hist()<\/em> erstellt werden. Hier ein Beispiel aus unserem Datensatz:\r\n<div id=\"cb96\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb96-1\"><span class=\"fu\">hist<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-113-1.png\" width=\"672\" \/>\r\n\r\nVersuchen wir mal schrittweise diese Grafik zu \u201cversch\u00f6nern\u201d\r\nIn einem Histogramm k\u00f6nnen wir die Anzahl der S\u00e4ulen selbst bestimmen. Hierzu nutzen wir das Argument <em>breaks<\/em>. Wenn wir die Balkenzahl in unserem Beispiel erh\u00f6hen wollen, k\u00f6nnten wir also wie folgt vorgehen. Spielen Sie doch mal mit diesem Wert und betrachten Sie, wie sich die Verteilungsform ver\u00e4ndert.\r\n<div id=\"cb97\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb97-1\"><span class=\"fu\">hist<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, <span class=\"at\">breaks=<\/span><span class=\"dv\">30<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-114-1.png\" width=\"672\" \/>\r\n\r\nWir k\u00f6nnen nat\u00fcrlich auch hier wieder einen Titel einf\u00fcgen, die Achsen vergr\u00f6\u00dfern und benennen, die Farben \u00e4ndern etc. Hier ein weiteres Beispiel:\r\n<div id=\"cb98\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb98-1\"><span class=\"fu\">hist<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, <span class=\"at\">breaks=<\/span><span class=\"dv\">15<\/span>,<\/span>\r\n<span id=\"cb98-2\">     <span class=\"at\">main=<\/span><span class=\"st\">\"Histogramm K\u00f6rpergroesse\"<\/span>,<\/span>\r\n<span id=\"cb98-3\">     <span class=\"at\">xlim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">150<\/span>,<span class=\"dv\">190<\/span>), <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">12<\/span>),<\/span>\r\n<span id=\"cb98-4\">     <span class=\"at\">xlab=<\/span><span class=\"st\">\"groesse WP-Studierende\"<\/span>,<\/span>\r\n<span id=\"cb98-5\">     <span class=\"at\">ylab=<\/span><span class=\"st\">\"H\u00e4ufigkeit\"<\/span>,<\/span>\r\n<span id=\"cb98-6\">     <span class=\"at\">col=<\/span><span class=\"st\">\"tomato\"<\/span>,<\/span>\r\n<span id=\"cb98-7\">     <span class=\"at\">border=<\/span><span class=\"st\">\"white\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-115-1.png\" width=\"672\" \/>\r\n\r\nStatt die Anzahl der Balken zu definieren, kann man auch ein sog. Kerndichte-Diagramm erstellen. Hierbei werden die H\u00e4ufigkeiten nicht als Balken, sondern als durchgezogene Linie dargestellt (Dies entspricht dem Gedankenexperiment von unendlich vielen Balken).\r\n<div id=\"cb99\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb99-1\"><span class=\"fu\">plot<\/span>(<span class=\"fu\">density<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-116-1.png\" width=\"672\" \/>\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/us1OA51QD_A\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-7\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nEntwerfen Sie ein Histogramm f\u00fcr die Anzahl der Freunde auf Facebook der WP Studierenden mit 10 Klassen (Balken).\r\n\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<\/div>\r\n<div id=\"boxplot\" class=\"section level2 hasAnchor\">\r\n<h1>\u00a0Boxplot<\/h1>\r\nEin Boxplot, auch bekannt als Box-and-Whisker-Plot, ist eine grafische Darstellung der Verteilung eines Datensatzes. Er wird verwendet, um die Streuung eines Datensatzes sowie Ausrei\u00dfer oder ungew\u00f6hnliche Werte darzustellen. Der Boxplot besteht aus einer Reihe von verschiedenen Komponenten:\r\n<ul>\r\n \t<li>Die Box: Diese stellt den Interquartilsbereich (IQR) des Datensatzes dar, d.\u00a0h. den Bereich der mittleren 50 % der Daten.<\/li>\r\n \t<li>Die Whisker: Diese erstrecken sich auf beiden Seiten der Box bis zu den Minimal- und Maximalwerten des Datensatzes, wobei Ausrei\u00dfer ausgeschlossen werden.<\/li>\r\n \t<li>Die Linie innerhalb der Box: Dies ist der Median (Mittelwert) des Datensatzes.<\/li>\r\n \t<li>Die Punkte: Sie stellen die Ausrei\u00dfer dar, d.\u00a0h. die Werte, die au\u00dferhalb der Whiskers liegen. Diese erhalten in R eine Ziffer, die die Zeilennummer im Datensatz darstellt.<\/li>\r\n<\/ul>\r\nBoxplots sind besonders n\u00fctzlich, um die Verteilung mehrerer Datens\u00e4tze zu vergleichen (Histogramme k\u00f6nnen die Verteilungsform von nur einer Variablen darstellen).\r\n\r\nEin Boxplot kann direkt mit <em>boxplot()<\/em> erstellt werden. Aus unserem Datensatz:\r\n<div id=\"cb100\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb100-1\"><span class=\"fu\">boxplot<\/span>(WPStudis<span class=\"sc\">$<\/span>F2_Alter)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-118-1.png\" width=\"672\" \/>\r\n\r\nAuch Gruppierungen lassen sich leicht erzeugen. Hierzu nutzen wir wieder das Format: Variable1 ~ Variable2. Hier ein Beispiel:\r\n<div id=\"cb101\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb101-1\"><span class=\"fu\">boxplot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-119-1.png\" width=\"672\" \/>\r\n\r\nWir k\u00f6nnen auch hier die Farben \u00e4ndern und Beschriftungen vornehmen. Hierzu m\u00fcssen wir hier jedoch das <em>names<\/em> Argument verwenden.\r\n<div id=\"cb102\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb102-1\"><span class=\"fu\">boxplot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht,<\/span>\r\n<span id=\"cb102-2\">        <span class=\"at\">col=<\/span>(<span class=\"st\">\"darkgreen\"<\/span>),<\/span>\r\n<span id=\"cb102-3\">        <span class=\"at\">names=<\/span><span class=\"fu\">c<\/span>(<span class=\"st\">\"M\u00e4nnlich\"<\/span>,<span class=\"st\">\"Weiblich\"<\/span>))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-120-1.png\" width=\"672\" \/>\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/v_XxyF-8fnI\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-8\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nEntwerfen Sie zwei Boxplots nebeneinander f\u00fcr die Schuhgroesse der weiblichen bzw. m\u00e4nnlichen Studierenden.\r\n\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n\r\n<\/div>\r\n<div id=\"kreisdiagramm\" class=\"section level2 hasAnchor\">\r\n<h1>Kreisdiagramm<\/h1>\r\nEin Kreisdiagramm ist eine kreisf\u00f6rmige grafische Darstellung von Daten, wobei der gesamte Kreis den Gesamtwert der Daten darstellt und jedes Segment oder \u201cSt\u00fcck\u201d des Kuchens eine andere Kategorie oder Gruppe repr\u00e4sentiert. Die Gr\u00f6\u00dfe jedes Segments ist proportional zu der Menge oder dem Prozentsatz der Daten, die es repr\u00e4sentiert.\r\n\r\nTortendiagramme sind besonders n\u00fctzlich, wenn die Daten eine geringe Anzahl verschiedener Kategorien aufweisen und wenn die relative Gr\u00f6\u00dfe der Kategorien wichtiger ist als ihre genauen Werte. Es kann jedoch schwierig sein, die Gr\u00f6\u00dfe kleiner Scheiben zu vergleichen, insbesondere wenn es viele davon gibt. Da Tortendiagramme zur Darstellung von Daten Winkel und nicht L\u00e4ngen verwenden, kann es au\u00dferdem schwierig sein, die Gr\u00f6\u00dfe der Scheiben genau zu vergleichen.\r\n\r\nHier ein Beispiel aus unserem Datensatz:\r\n<div id=\"cb103\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb103-1\"><span class=\"fu\">pie<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille)) <\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-122-1.png\" width=\"672\" \/>\r\n\r\nUm den Startpunkt auf \u201c12 Uhr\u201d zu stellen, kann zus\u00e4tzlich das Argument <em>clockwise=T<\/em> verwendet werden\r\n<div id=\"cb104\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb104-1\"><span class=\"fu\">pie<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille), <span class=\"at\">clockwise=<\/span>T) <\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-123-1.png\" width=\"672\" \/>\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/MT7OYP6LPCg\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-9\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nErzeugen Sie ein Kreisdiagramm f\u00fcr das Geschlecht unserer Ersties (Datensatz WPStudis)\r\n\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<\/div>\r\n<div id=\"streudiagramm\" class=\"section level2 hasAnchor\">\r\n<h1>Streudiagramm<\/h1>\r\nEin Streudiagramm ist eine grafische Darstellung von zweidimensionalen Daten, bei der jeder Punkt im Diagramm ein Wertepaar aus einem Datensatz darstellt. Die x-Achse steht f\u00fcr eine Variable und die y-Achse f\u00fcr die andere Variable. Die Position jedes Punktes im Diagramm entspricht den Werten der beiden Variablen f\u00fcr diesen Punkt. Streudiagramme werden verwendet, um die Beziehung zwischen zwei Variablen zu visualisieren und um Muster oder Trends in den Daten zu erkennen.\r\n\r\nStreudiagramme sind n\u00fctzlich, um Muster und Trends in den Daten zu erkennen, z. B. lineare Beziehungen, nicht lineare Beziehungen, Cluster und Ausrei\u00dfer. Auch die Verteilung der Daten und die Streuung der Werte lassen sich damit visualisieren. Streudiagramme sind besonders n\u00fctzlich f\u00fcr gro\u00dfe Datens\u00e4tze, da sie eine gro\u00dfe Anzahl von Datenpunkten in einem einzigen Diagramm darstellen k\u00f6nnen.\r\n\r\nDas Generieren von Streudiagrammen in R haben wir schon kennengelernt, diese lassen sich mit der <em>plot()<\/em> Funktion sehr einfach generieren.\r\n<div id=\"cb105\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb105-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-125-1.png\" width=\"672\" \/>\r\n\r\nEine Regressionsgerade k\u00f6nnen wir durch den Befehl <em>abline<\/em> sowie durch die Spezifikation des linearen Modells (lm) hinzuf\u00fcgen. Den Aufbau des linearen Modells und das Thema Regression besprechen wir noch in den folgenden Kapiteln. Grunds\u00e4tzlich gilt, dass in der <em>lm()<\/em> Funktion zun\u00e4chst die abh\u00e4ngige Variable, die auf der y-Achse abgetragen wird und dann die unabh\u00e4ngige Variable, die auf der x-Achse abgetragen wird, getrennt wird von einer Tilde (~).\r\n<div id=\"cb106\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb106-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse)<\/span>\r\n<span id=\"cb106-2\"><span class=\"fu\">abline<\/span>(<span class=\"fu\">lm<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-126-1.png\" width=\"672\" \/>\r\n\r\n<\/div>\r\n<div id=\"streudiagramm-matrizen\" class=\"section level2 hasAnchor\">\r\n<h1>Streudiagramm-Matrizen<\/h1>\r\nR kann auch sogenannte Streudiagramm-Matrizen erstellen, die \u00fcbersichtlich den Zusammenhang von mehr als 2 Variablen darstellen. Hierf\u00fcr ben\u00f6tigen wir die Funktion <em>pairs.panels()<\/em> aus dem <em>psych<\/em> Paket.\r\n\r\nDie Funktion <em>pairs.panels()<\/em> erstellt eine Matrix von Streudiagrammen, in der jede Variable gegen jede andere Variable aufgetragen wird. Sie kann verwendet werden, um die Beziehungen zwischen mehreren Variablen zu visualisieren und um Muster oder Trends in den Daten zu erkennen. Die Funktion verf\u00fcgt \u00fcber mehrere Optionen, mit denen Sie das Aussehen des Diagramms anpassen k\u00f6nnen, z. B. die Gr\u00f6\u00dfe der Punkte, die Farbe der Punkte und die Art der zu verwendenden Gl\u00e4ttung.\r\n\r\nAls Input ben\u00f6tigen wir hier jedoch einen Data-Frame. Diesen k\u00f6nnen wir vorab generieren oder direkt in die Funktion einbauen, mithilfe der <em>data.frame<\/em> Funktion.\r\n\r\nIm folgenden Beispiel erstellen wir einen Data-Frame mit den gew\u00fcnschten drei Variablen. Diese m\u00fcssen alle als Vektoren formatiert sein.\r\n<div id=\"cb107\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb107-1\">Zusammenhang <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">data.frame<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse, WPStudis<span class=\"sc\">$<\/span>F20_Einkommen_Glueck)<\/span><\/code><\/pre>\r\n<\/div>\r\nNun k\u00f6nnen wir die Funktion auf unseren neuen Datensatz anwenden.\r\n<div id=\"cb108\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb108-1\"><span class=\"fu\">pairs.panels<\/span>(Zusammenhang)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-128-1.png\" width=\"672\" \/>\r\n\r\nWenn man die Funktion auf unseren ganzen Datensatz anwendet, wird es jedoch un\u00fcbersichtlich.\r\n<div id=\"cb109\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb109-1\"><span class=\"fu\">pairs.panels<\/span>(WPStudis)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-129-1.png\" width=\"672\" \/>\r\n\r\nAlternativ gibt es weitere Pakete mit denen Streudiagramm-Matrizen erstellt werden k\u00f6nnnen. Insbesondere wenn viele Variablen betrachtet werden sollen, ist z. B. <em>corrgram<\/em> eine gute Alternative. Die Funktion erstellt eine Matrix von Zellen, wobei jede Zelle den Korrelationskoeffizienten zwischen zwei verschiedenen Variablen darstellt. Die Zellen sind farbkodiert, um die St\u00e4rke und Richtung der Korrelation anzuzeigen. Blaue Farben zeigen positive, rote Farben negative Korrelationen. Je st\u00e4rker die Korrelation, desto dunkler die Farbe. Hier ein Beispiel:\r\n\r\nBeispiel corrgramm\r\n<div id=\"cb110\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb110-1\"><span class=\"fu\">library<\/span>(<span class=\"st\">\"corrgram\"<\/span>)<\/span>\r\n<span id=\"cb110-2\"><span class=\"fu\">corrgram<\/span>(WPStudis)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-130-1.png\" width=\"672\" \/>\r\n\r\nAlternativ kann mit der Funktion <em>corrgram<\/em> auch eine H\u00e4lfte der Kombinationon mit Piecharts dargestellt werden. Dadurch kann die St\u00e4rke der Korrelation noch exakter abgelesen werden.\r\n<div id=\"cb111\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb111-1\"><span class=\"fu\">corrgram<\/span>(WPStudis, <span class=\"at\">upper.panel=<\/span>panel.pie)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-131-1.png\" width=\"672\" \/>\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/5V4dSGmr3pE\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-10\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nWir haben echte Daten der Besucherfrequenz in der Fussg\u00e4ngerzone von Stuttgart.\r\n\r\nUm die Daten aus Excel zu laden, nutzen wir das <em>readxl<\/em> Paket und die <em>read_excel<\/em> Funktion.\r\n\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n<div id=\"cb112\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb112-1\"><\/span>\r\n<span id=\"cb112-2\"><span class=\"fu\">library<\/span>(readxl)<\/span>\r\n<span id=\"cb112-3\">Passanten <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">read_excel<\/span>(<span class=\"st\">\"Passanten2019.xlsx\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\nWir m\u00fcssen zun\u00e4chst die Variable \u201cTag\u201d in einen Faktor umwandeln. Damit die Tage dann noch in unserer gewohnten Reihenfolge erscheinen (Mo-So), k\u00f6nnen Sie einen ordered Factor erstellen. Dies geht wie folgt:\r\n<div id=\"cb113\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb113-1\">Passanten<span class=\"sc\">$<\/span>Tag <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">as.factor<\/span>(Passanten<span class=\"sc\">$<\/span>Tag)<\/span>\r\n<span id=\"cb113-2\">Passanten<span class=\"sc\">$<\/span>Tag <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ordered<\/span>(Passanten<span class=\"sc\">$<\/span>Tag,<span class=\"at\">levels=<\/span><span class=\"fu\">c<\/span>(<span class=\"st\">\"Mo\"<\/span>,<span class=\"st\">\"Di\"<\/span>,<span class=\"st\">\"Mi\"<\/span>,<span class=\"st\">\"Do\"<\/span>,<span class=\"st\">\"Fr\"<\/span>,<span class=\"st\">\"Sa\"<\/span>,<span class=\"st\">\"So\"<\/span>))<\/span><\/code><\/pre>\r\n<\/div>\r\nVersuchen Sie Boxplots zu erzeugen, die uns sagen, an welchem Wochentag wieviele Menschen auf der K\u00f6nigstrasse unterwegs sind.\r\nVersuchen Sie zus\u00e4tzlich Boxplots zu erzeugen, die die Standorte K\u00f6nigstrasse Mitte und S\u00fcd vergleichen.\r\n\r\n<\/div>\r\n<div id=\"\u00fcbung-11\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nWir laden die Daten (Befragung von Paaren nach der Aufteilung der Hausarbeit, aufgeteilt in 13 klassische Hausarbeiten) aus dem Paket <em>ade4<\/em>.\r\n<div id=\"cb114\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb114-1\"><span class=\"fu\">library<\/span>(ade4)<\/span>\r\n<span id=\"cb114-2\"><span class=\"fu\">data<\/span>(housetasks)<\/span><\/code><\/pre>\r\n<\/div>\r\nBetrachten Sie die Daten. Erzeugen Sie eine Grafik, um die Daten m\u00f6glichst gut zu visualisieren.\r\n\r\nTipp: Sie ben\u00f6tigen zun\u00e4chst eine Tabelle mit den relativen H\u00e4ufigkeiten. Um diese besser darstellen zu k\u00f6nnen, lohnt es sich zudem, die Tabelle zu transponieren (Die Spalten und Zeilen zu tauschen). Hierzu k\u00f6nnen Sie die <em>t()<\/em> Funktion in R nutzen.\r\n<div id=\"cb115\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb115-1\">data<span class=\"ot\">&lt;-<\/span><span class=\"fu\">as.matrix<\/span>(housetasks)  <span class=\"co\">#Erzeugt eine Daten-Matrix (Voraussetzung f\u00fcr viele Plots bzw. die Umwandlung in eine Tabelle)<\/span><\/span>\r\n<span id=\"cb115-2\">data<span class=\"ot\">&lt;-<\/span><span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(data, <span class=\"at\">margin =<\/span> <span class=\"dv\">1<\/span>)  <span class=\"co\">#Erzeugt eine Kontinenztabelle mit Zeilenprozenten<\/span><\/span>\r\n<span id=\"cb115-3\">data_trans <span class=\"ot\">&lt;-<\/span><span class=\"fu\">t<\/span>(data)  <span class=\"co\">#Die Funktion t() erzeugt eine transponierte Matrix (X und Y Achse getauscht)<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-12\" class=\"section level2 hasAnchor\">\r\n\r\n&nbsp;\r\n\r\n<\/div>\r\n<h1>Grafiken mit GGPlot2<\/h1>\r\nDas Paket <em>ggplot2<\/em> ist der Goldstandard f\u00fcr Grafiken in R, aber auch eine eigene Programmiersprache innerhalb von R, die man sich aneignen muss. Es ist das beliebteste Datenvisualisierungspaket in R, das einen leistungsstarken und flexiblen Rahmen f\u00fcr die Erstellung verschiedener Arten von Diagrammen bietet. Es gibt mehrere Gr\u00fcnde, warum Nutzer ggplot2 gegen\u00fcber anderen Visualisierungspaketen oder -methoden bevorzugen:\r\n<ul>\r\n \t<li>Grammatik der Grafik: ggplot2 basiert auf der \u201cGrammatik der Grafik\u201d, die eine konsistente und flexible Methode zur Erstellung von Plots bietet. So k\u00f6nnen Sie Ihre Plots leicht anpassen und modifizieren und komplexe Plots durch die Kombination mehrerer Ebenen erstellen.<\/li>\r\n \t<li>Eingebaute Unterst\u00fctzung f\u00fcr mehrere Skalen: ggplot2 hat eingebaute Unterst\u00fctzung f\u00fcr verschiedene Skalen, wie z. B. kontinuierliche, kategoriale und Datumsskalen, was die Erstellung von Plots f\u00fcr verschiedene Datentypen erleichtert.<\/li>\r\n \t<li>Anpassbare Themen: ggplot2 bietet eine Reihe von eingebauten Themen, mit denen Sie das Aussehen Ihrer Diagramme schnell \u00e4ndern k\u00f6nnen. Sie k\u00f6nnen auch Ihre eigenen Themen erstellen, um den Stil Ihrer Organisation oder Ihres Projekts anzupassen.<\/li>\r\n \t<li>Viele Geoms: ggplot2 unterst\u00fctzt viele Arten von Geoms (geometrische Objekte bzw. Darstellungsarten), mit denen verschiedene Arten von Diagrammen erstellt werden k\u00f6nnen, wie z. B. Streudiagramme, Liniendiagramme, Balkendiagramme und viele mehr. Es unterst\u00fctzt auch eine Vielzahl von statistischen Transformationen, die zur Visualisierung und Analyse von Daten verwendet werden k\u00f6nnen.<\/li>\r\n<\/ul>\r\n<div id=\"vorbereitung-1\" class=\"section level2 hasAnchor\">\r\n<h1>Vorbereitung<\/h1>\r\nDatensatz \u2018WPStudis.RData\u2019 \u00f6ffnen (Sie muessen ggf. noch Ihren Pfad \u00e4ndern bzw. den Workspace neu definieren):\r\n<div id=\"cb116\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb116-1\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.Rdata\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\nPaket aktivieren\r\n<div id=\"cb117\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb117-1\"><span class=\"fu\">library<\/span>(ggplot2)<\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"qplot-und-ggplot\" class=\"section level2 hasAnchor\">\r\n<h1>QPlot und GGPlot<\/h1>\r\nQplot ist so konzipiert, dass es einfacher und bequemer zu benutzen ist als <em>ggplot()<\/em>, um g\u00e4ngige Arten von Diagrammen zu erstellen, wie z. B. Streudiagramme, Balkendiagramme und Histogramme. Gleichzeitig hat es deutlich weniger Optionen und Argumente. Wenn es schnell gehen muss, kann <em>qplot()<\/em> dennoch eine Alternative sein. Hier ein Beispiel:\r\n<div id=\"cb118\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb118-1\"><span class=\"fu\">qplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"at\">x=<\/span>F6_Sternzeichen,<span class=\"at\">y=<\/span>F5_Schuhgroesse,<span class=\"at\">color=<\/span>F3_Geschlecht)<\/span>\r\n<span id=\"cb118-2\"><span class=\"do\">## Warning: `qplot()` was deprecated in ggplot2 3.4.0.<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-139-1.png\" width=\"672\" \/>\r\n\r\nDie gleiche Grafik mit <em>ggplot()<\/em> braucht deutlich mehr Argumente, ist daf\u00fcr aber auch beliebig erweiterbar. Wie das geht, schauen wir uns im n\u00e4chsten Schritt an.\r\n<div id=\"cb119\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb119-1\"><span class=\"fu\">ggplot<\/span>() <span class=\"sc\">+<\/span> <span class=\"fu\">geom_point<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(<span class=\"at\">x=<\/span>F6_Sternzeichen,<span class=\"at\">y=<\/span>F5_Schuhgroesse,<span class=\"at\">colour=<\/span>F3_Geschlecht))<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-140-1.png\" width=\"672\" \/>\r\n\r\n<\/div>\r\n<div id=\"ggplot2-grafik-erstellen\" class=\"section level2 hasAnchor\">\r\n<h1>GGplot2 Grafik erstellen<\/h1>\r\nMit Hilfe von <em>ggplot<\/em> k\u00f6nnen wir nun auch detailliertere Grafiken zu unseren WP Studierenden erstellen. Nehmen wir wieder das Schuhgroessen Beispiel aus unserem Datensatz. Der <em>aes()<\/em> Befehl steht f\u00fcr \u201cAesthetics\u201d und erwartet als Eingabe einen Vektor. Hiermit definieren wir, was im Folgenden visualisiert werden soll.\r\n<div id=\"cb120\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb120-1\">Schuhgroesse <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ggplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(F5_Schuhgroesse))<\/span><\/code><\/pre>\r\n<\/div>\r\nJetzt haben wir ggplot2 gesagt, um welche Daten es geht. Um nun etwas anzuzeigen, m\u00fcssen wir ein \u201cLayer\u201d erzeugen. Dieser nennt sich <em>geom<\/em> und steht f\u00fcr die geometrische Darstellung der Daten, also ob diese z. B. als S\u00e4ule oder Linie dargestellt werden sollen. Wir entscheiden uns f\u00fcr ein S\u00e4ulendiagramm und nutzen daher <em>geom_bar<\/em> f\u00fcr ein Bar Chart.\r\n<div id=\"cb121\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb121-1\">Schuhgroesse <span class=\"sc\">+<\/span> <span class=\"fu\">geom_bar<\/span>()<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-142-1.png\" width=\"672\" \/>\r\n\r\nNun wollen wir die Schuhgroessen nach Geschlecht aufgeteilt darstellen, dazu erzeugen wir ein neues <em>ggplot<\/em> Objekt und geben nun zwei Variablen ein. Grunds\u00e4tzlich gilt bei <em>ggplot<\/em> immer, dass die erste Variable auf der x-Achse und die zweite auf der y-Achse dargestellt wird. Da wir hier die zweite Variable (hier das Geschlecht) nicht als eigenen Achsenwert, sondern als farblich getrennt dargestellt haben wollen, nutzen wir wir das Argument <em>fill<\/em>.\r\n<div id=\"cb122\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb122-1\">Schuhgroesse2 <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ggplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(F5_Schuhgroesse, <span class=\"at\">fill=<\/span>F3_Geschlecht))<\/span>\r\n<span id=\"cb122-2\">Schuhgroesse2 <span class=\"sc\">+<\/span> <span class=\"fu\">geom_bar<\/span>()<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-143-1.png\" width=\"672\" \/>\r\n\r\nEs gibt eine sehr gro\u00dfe Zahl weiterer Darstellungsformen (sog. geoms). In einem weiteren Beispiel erzeugen wir mit dem Argument <em>geom_boxplot<\/em> einen Boxplot f\u00fcr die gleichen Daten. Da wir jetzt das Geschlecht als Trennung zwischen den beiden Boxplots nutzen wollen, nehmen wir es zuerst und verwenden hier auch nicht das Argument <em>fill<\/em>.\r\n<div id=\"cb123\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb123-1\">Schuhgroesse3 <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ggplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(F3_Geschlecht,F5_Schuhgroesse))<\/span>\r\n<span id=\"cb123-2\">Schuhgroesse3 <span class=\"sc\">+<\/span> <span class=\"fu\">geom_boxplot<\/span>()<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-144-1.png\" width=\"672\" \/>\r\n\r\n<\/div>\r\n<div id=\"fehlerbalkendiagramm-mit-ggplot2\" class=\"section level2 hasAnchor\">\r\n<h1>Fehlerbalkendiagramm mit GGPlot2<\/h1>\r\nNehmen wir nun an, wir wollen nicht die einzelnen Werte darstellen, sondern die Mittelwerte vergleichen. Auch das kann ggplot2. Zun\u00e4chst m\u00fcssen wir als x-Achsenwerte Geschlecht und als y-Achsenwerte die Schuhgr\u00f6sse definieren.\r\n<div id=\"cb124\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb124-1\">Schuhgroesse_Mittel <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ggplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(F3_Geschlecht, F5_Schuhgroesse))<\/span><\/code><\/pre>\r\n<\/div>\r\nAls n\u00e4chsten ben\u00f6tigen wir hierf\u00fcr die \u201cstat-summary\u201d Funktion, um die Mittelwerte auszurechnen. Wenn wir uns nun die Grafik ansehen, erhalten wir schon ein Punktdiagramm, welches beide Mittelwerte anzeigt.\r\n<div id=\"cb125\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb125-1\">Schuhgroesse_Mittel <span class=\"sc\">+<\/span> <span class=\"fu\">stat_summary<\/span>(<span class=\"at\">fun =<\/span> mean) <\/span>\r\n<span id=\"cb125-2\"><span class=\"do\">## Warning: Removed 2 rows containing missing values<\/span><\/span>\r\n<span id=\"cb125-3\"><span class=\"do\">## (`geom_segment()`).<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-146-1.png\" width=\"672\" \/>\r\n\r\nNun machen wir es noch etwas sch\u00f6ner und beschriften die y-Achse\r\n<div id=\"cb126\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb126-1\">Schuhgroesse_Mittel <span class=\"sc\">+<\/span> <span class=\"fu\">stat_summary<\/span>(<span class=\"at\">fun =<\/span> mean) <span class=\"sc\">+<\/span> <span class=\"fu\">labs<\/span>(<span class=\"at\">x=<\/span><span class=\"st\">\"\"<\/span>, <span class=\"at\">y=<\/span><span class=\"st\">\"Schuhgroesse\"<\/span>)<\/span>\r\n<span id=\"cb126-2\"><span class=\"do\">## Warning: Removed 2 rows containing missing values<\/span><\/span>\r\n<span id=\"cb126-3\"><span class=\"do\">## (`geom_segment()`).<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-147-1.png\" width=\"672\" \/>\r\n\r\nWir wollen nun zus\u00e4tzlich die 95 % Konfidenzintervalle anzeigen lassen. Hierzu erg\u00e4nzen wir die Funktion <em>mean_cl_normal<\/em>, sowie das geom <em>errorbar<\/em> (Nur die untere Zeile ist neu)\r\n<div id=\"cb127\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb127-1\"><\/span>\r\n<span id=\"cb127-2\">Schuhgroesse_Mittel <span class=\"sc\">+<\/span> <span class=\"fu\">stat_summary<\/span>(<span class=\"at\">fun =<\/span> mean ) <span class=\"sc\">+<\/span> <span class=\"fu\">labs<\/span>(<span class=\"at\">x=<\/span><span class=\"st\">\"\"<\/span>, <span class=\"at\">y=<\/span><span class=\"st\">\"Schuhgroesse\"<\/span>)<span class=\"sc\">+<\/span> <span class=\"fu\">stat_summary<\/span>(<span class=\"at\">fun.data=<\/span>mean_cl_normal, <span class=\"at\">geom=<\/span><span class=\"st\">\"errorbar\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-148-1.png\" width=\"672\" \/>\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/YGaVHTlLBfo\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-12\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nErstellen Sie mit ggplot2 ein Histogramm zur Anzahl der Facebook Freunde der WP Studierenden.\r\n\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n\r\n<\/div>","rendered":"<h1>Grafiken mit der plot() Funktion<\/h1>\n<div id=\"vorbereitung\" class=\"section level2 hasAnchor\">\n<h1>Vorbereitung<\/h1>\n<p>Datensatz \u2018WPStudis.RData\u2019 \u00f6ffnen (Sie muessen ggf. noch Ihren Pfad aendern bzw. den Workspace neu definieren):<\/p>\n<div id=\"cb76\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb76-1\"><\/span>\r\n<span id=\"cb76-2\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.Rdata\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"die-plot-funktion\" class=\"section level2 hasAnchor\">\n<h1>Die plot() Funktion<\/h1>\n<p>Die Funktion <em>plot()<\/em> kann verwendet werden, um je nach Dateneingabe eine breite Palette von Diagrammen zu erstellen. Die folgende Tabelle gibt eine kleine \u00dcbersicht:<\/p>\n<table>\n<thead>\n<tr class=\"header\">\n<th>Datenformat<\/th>\n<th>Grafik<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr class=\"odd\">\n<td>plot(vektor)<\/td>\n<td>Index-Diagramm<\/td>\n<\/tr>\n<tr class=\"even\">\n<td>plot(faktor)<\/td>\n<td>S\u00e4ulendiagramm<\/td>\n<\/tr>\n<tr class=\"odd\">\n<td>plot(vektor, vektor)<\/td>\n<td>Streudiagramm<\/td>\n<\/tr>\n<tr class=\"even\">\n<td>plot(faktor, vektor)<\/td>\n<td>Boxplots<\/td>\n<\/tr>\n<tr class=\"odd\">\n<td>plot(faktor, faktor)<\/td>\n<td>Mosaik-Diagramm<\/td>\n<\/tr>\n<tr class=\"even\">\n<td>plot(dataframe)<\/td>\n<td>Streu-Matrix<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Wenden wir die <em>plot()<\/em> Funktion zun\u00e4chst auf einen Faktor an, dann erhalten wir ein S\u00e4ulendiagramm.<\/p>\n<div id=\"cb77\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb77-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-90-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Die y-Achse k\u00f6nnte einen Tick h\u00f6her sein. Dies l\u00e4sst sich recht einfach mit dem <em>ylim<\/em> Argument \u00e4ndern. Hier m\u00fcssen zwei Werte mit der <em>c()<\/em> Funktion verbunden werden: Der Anfang und das Ende der y-Achse. Hier wollen wir eine Achse, die bei 0 anf\u00e4ngt und bis 100 geht.<\/p>\n<div id=\"cb78\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb78-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">100<\/span>))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-91-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Mit dem Argument <em>col<\/em> l\u00e4sst sich die Farbe der S\u00e4ulen beispielsweise auf rot (\u201cred\u201d) \u00e4ndern.<\/p>\n<div id=\"cb79\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb79-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">100<\/span>), <span class=\"at\">col=<\/span><span class=\"st\">\"red\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-92-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Es gibt auch andere Farben. Eine \u00dcbersicht \u00fcber die in R mit Namen verf\u00fcgbaren Farben erh\u00e4lt man mit dem Befehl <em>colors()<\/em>. Dar\u00fcber hinaus gibt es jede m\u00f6gliche RGB Farbe. Der Befehl hierf\u00fcr ist <em>col=<\/em> gefolgt von einem Hashtag und dem 6-stelligen RGB Code der Farbe, also zum Beispiel <em>col=\u201c#009999\u201d<\/em>.<\/p>\n<div id=\"cb80\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb80-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">120<\/span>), <span class=\"at\">col=<\/span><span class=\"st\">\"#009999\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-93-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Wenn wir numerische Daten haben, dann gibt der Befehl ein Streudiagramm aus. Dies ist eine wenig sinnvolle Darstellungsform, wenn die Reihenfolge der Daten keine Rolle spielt (wie in unserem Datensatz). Die x-Achse entspricht dabei der Zeilennummer im Datensatz.<\/p>\n<div id=\"cb81\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb81-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-94-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Bei zwei numerischen Variablen (Vektoren) macht eine solche Darstellung schon mehr Sinn. Bei zwei Variablen zeigt ein Streudiagramm den Zusammenhang der beiden Variablen in \u00fcbersichtlicher Form. Hierf\u00fcr benutzen wir die Tilde \u201c~\u201d. Es gilt y-Achse ~ x-Achse.<\/p>\n<div id=\"cb82\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb82-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-95-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Falls eine Variable numerisch ist und die zweite Variable ein Faktor, bekommen wir mit demselben Befehl einen Boxplot. Hierzu nutzen wir nun die Variable Geschlecht, die als Faktor formatiert ist.<\/p>\n<div id=\"cb83\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb83-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-96-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Falls beide Variablen Faktoren sind, bekommen wir mit demselben Befehl ein Mosaik-Diagramm. Dies entspricht einem gestapelten Balkendiagramm, wobei die Breite der Balken (x-Ausdehnung) dem jeweiligen relativen Anteil der Variable entspricht.<\/p>\n<div id=\"cb84\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb84-1\">WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben<span class=\"ot\">&lt;-<\/span><span class=\"fu\">as.factor<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben)<\/span>\r\n<span id=\"cb84-2\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben <span class=\"sc\">~<\/span> WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-97-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<h1><strong>Weitere M\u00f6glichkeiten der Grafikgestaltung<\/strong><\/h1>\n<p>Es gibt noch eine gro\u00dfe Anzahl weiterer Argumente f\u00fcr die plot() Funktion, wie zum Beispiel:<\/p>\n<p>-main: der Haupttitel des Diagramms.<br \/>\n-xlab: die Beschriftung f\u00fcr die x-Achse.<br \/>\n-ylab: die Beschriftung f\u00fcr die y-Achse.<\/p>\n<p>Weitere Funktionen k\u00f6nnen Sie mit<em>?plot()<\/em> herausfinden.<\/p>\n<p>Hier nochmal die gleiche Grafik, jedoch angereichert um die Beschriftungen der Achsen. <em>xlab<\/em> und <em>ylab<\/em> bezeichnen jeweils die Achsen-Beschriftungen (Label). <em>main<\/em> gibt den Diagramm-Titel an.<\/p>\n<div id=\"cb85\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb85-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben <span class=\"sc\">~<\/span> WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht,<\/span>\r\n<span id=\"cb85-2\">     <span class=\"at\">xlab =<\/span> <span class=\"st\">\"Geschlecht\"<\/span>, <\/span>\r\n<span id=\"cb85-3\">     <span class=\"at\">ylab =<\/span> <span class=\"st\">\"Zufriedenheit mit dem Leben\"<\/span>,<\/span>\r\n<span id=\"cb85-4\">     <span class=\"at\">main =<\/span> <span class=\"st\">\"Zufriedenheit der Studierenden nach Geschlecht\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-98-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/1Wwx9IuE8d4\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<h1>Weitere Grafiktypen mit R<\/h1>\n<div id=\"balkendiagramm\" class=\"section level2 hasAnchor\">\n<h1>Balkendiagramm<\/h1>\n<p>Um ein Balkendiagramm in R zu erstellen, k\u00f6nnen Sie die Funktion <em>barplot()<\/em> verwenden. Wichtig ist, dass wir diese Funktion auf H\u00e4ufigkeiten anwenden, die wir mit der <em>table()<\/em> Funktion generieren. Nehmen wir an, wir wollen die H\u00e4ufigkeiten der Antworten bei der Frage \u201cZufriedenheit mit dem Leben\u201d darstellen.<\/p>\n<div id=\"cb86\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb86-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-100-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Nun wollen wir dies getrennt nach Geschlechtern dargestellt haben. Wir nutzen dazu die Kreuztabelle mit der <em>prop.table()<\/em> Funktion mit dem Parameter <em>,2<\/em> f\u00fcr die Spaltenprozente. In diesem Fall erhalten wir ein gestapeltes Balkendiagramm. Ein gestapeltes Balkendiagramm wird verwendet, um Vergleiche zwischen Datenkategorien zu zeigen, aber mit dem Zusatz, dass die Balken, die verschiedene Unterkategorien darstellen, \u00fcbereinander gestapelt werden. Dies erm\u00f6glicht die Darstellung der Gesamtgr\u00f6\u00dfe jeder Kategorie sowie des Anteils jeder Unterkategorie an dieser Gesamtgr\u00f6\u00dfe.<\/p>\n<div id=\"cb87\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb87-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">2<\/span>))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-101-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Um die einzelnen Kategorien zuordnen zu k\u00f6nnen, ben\u00f6tigen wir noch eine Legende. Diese k\u00f6nnen wir uns mit <em>Legend=True<\/em> anzeigen lassen.<\/p>\n<div id=\"cb88\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb88-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">2<\/span>),<span class=\"at\">legend=<\/span>T)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-102-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Es ist wichtig zu beachten, dass gestapelte Balkendiagramme irref\u00fchrend sein k\u00f6nnen, wenn man versucht, die Gr\u00f6\u00dfe einzelner Unterkategorien \u00fcber verschiedene Kategorien hinweg zu vergleichen, da die Stapel die zugrunde liegenden Werte verdecken k\u00f6nnen. In solchen F\u00e4llen kann es sinnvoller sein, ein gruppiertes Balkendiagramm zu verwenden, in dem die Balken f\u00fcr jede Unterkategorie nebeneinander angeordnet sind. Mit dem Argument <em>beside=TRUE<\/em> sorgt man daf\u00fcr, dass statt gestapelten Balken, diese nebeneinander dargestellt werden und wir somit ein gruppiertes Balkendiagramm erhalten.<\/p>\n<div id=\"cb89\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb89-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">prop.table<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_01_Zufriedenheit_Leben,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht),<span class=\"dv\">2<\/span>),<span class=\"at\">beside=<\/span>T,<span class=\"at\">legend=<\/span>T)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-103-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Hier ein Beispiel aus dem R Standarddatensatz <em>VADeaths<\/em>. Dieser enth\u00e4lt die Todesraten (pro 1000 Einwohner) im Bundesstaat Virginia, USA, in den Jahren 1907-1916.<\/p>\n<p>Erzeugen wir zun\u00e4chst ein einfaches Balkendiagramm.<\/p>\n<div id=\"cb90\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb90-1\"><span class=\"fu\">barplot<\/span>(VADeaths)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-104-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Die Lesbarkeit ist aufgrund der vielen Kategorien nicht optimal. Daher nun als gruppiertes Balkendiagramm mit dem Befehl <em>beside=TRUE<\/em> . Zus\u00e4tzlich vergeben wir eine \u00dcberschrift und beschriften die y-Achse .<\/p>\n<div id=\"cb91\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb91-1\"><span class=\"fu\">barplot<\/span>(VADeaths, <span class=\"at\">beside=<\/span><span class=\"cn\">TRUE<\/span>, <span class=\"at\">legend=<\/span><span class=\"cn\">TRUE<\/span>, <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">250<\/span>),<\/span>\r\n<span id=\"cb91-2\">        <span class=\"at\">ylab=<\/span><span class=\"st\">\"Tote pro 1000\"<\/span>,<\/span>\r\n<span id=\"cb91-3\">        <span class=\"at\">main=<\/span><span class=\"st\">\"Sterberaten in Virginia 1940\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-105-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/jcdOnV5j0Xs\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-6\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<ul>\n<li>Entwerfen Sie ein Balkendiagramm f\u00fcr die Schuhgroesse der WP Studierenden.<\/li>\n<li>Versuchen Sie die Balken rot und ohne Umrandung zu formatieren.<\/li>\n<li>Wenn Sie die Beschriftung der x-Achse betrachten, was f\u00e4llt Ihnen auf? Welche alternative Darstellung k\u00f6nnte man f\u00fcr die Daten w\u00e4hlen?<\/li>\n<\/ul>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" srcset=\"https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png 900w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-300x192.png 300w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-768x492.png 768w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-65x42.png 65w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-225x144.png 225w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-350x224.png 350w\" sizes=\"(max-width: 900px) 100vw, 900px\" \/><\/a><\/p>\n<\/div>\n<div id=\"vergleich-von-mittelwerten\" class=\"section level2 hasAnchor\">\n<h1>Vergleich von Mittelwerten<\/h1>\n<p>Auch Mittelwerte lassen sich als Balkendiagramm darstellen. Hierf\u00fcr wenden wir die <em>barplot<\/em> Funktion einfach auf den <em>tapply<\/em> Befehl aus dem vorangegangenen Kapitel an. Sie k\u00f6nnen mit dem Befehl <em>col<\/em> \u00fcbrigens auch zwei Farbwerte angeben.<\/p>\n<div id=\"cb92\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb92-1\"><span class=\"fu\">barplot<\/span>(<span class=\"fu\">tapply<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, mean), <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">200<\/span>), <span class=\"at\">col=<\/span><span class=\"fu\">c<\/span>(<span class=\"st\">\"#665588\"<\/span>,<span class=\"st\">\"#009999\"<\/span>))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-107-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Jedoch sind Balkendiagramme nicht der beste Weg, um zwei Mittelwerte grafisch zu vergleichen, da sie leicht zu einer Fehlinterpretation der Daten f\u00fchren k\u00f6nnen. Beim Vergleich von zwei Mittelwerten kann der H\u00f6henunterschied zwischen den Balken gering sein, was einen visuellen Vergleich der beiden Mittelwerte erschwert. Au\u00dferdem gibt die H\u00f6he der Balken keinen Aufschluss \u00fcber die Streuung der Daten oder die Variabilit\u00e4t innerhalb jeder Gruppe (Die Streuung liegt ja auch zu 50 % \u00fcber den Balken, was allerdings optisch so nicht erkennbar ist).<\/p>\n<p>Ein weiteres Problem bei Balkendiagrammen ist, dass sie keinen Hinweis auf die Unsicherheit um die Mittelwerte geben, wie z. B. die Standardabweichung oder das Konfidenzintervall. Dies bedeutet, dass es schwierig ist festzustellen, ob der Unterschied zwischen den beiden Mittelwerten statistisch signifikant ist.<\/p>\n<p>Aus diesen Gr\u00fcnden werden Punktdiagramme oder sogenannte Fehlerbalkendiagramme als bessere M\u00f6glichkeiten f\u00fcr den grafischen Vergleich zweier Mittelwerte angesehen. Diese schauen wir uns im n\u00e4chsten Kapitel an.<\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/tzXGNMZLc60\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"fehlerbalkendiagramme\" class=\"section level2 hasAnchor\">\n<h1>Fehlerbalkendiagramme<\/h1>\n<p>Mit dem <em>psych<\/em> Paket lassen sich sehr einfach Grafiken f\u00fcr Mittelwerte und Fehlerbalkendiagramme mit Konfidenzintervallen erstellen.<\/p>\n<p>Hierzu nutzen wir die <em>error.bars.by()<\/em> Funktion des Pakets psych. Diese Funktion kann verwendet werden, um Fehlerbalken zu einem mit der Funktion barplot() erstellten Balkendiagramm hinzuzuf\u00fcgen, indem der Mittelwert und die Standardabweichung (oder der Standardfehler) f\u00fcr jede Gruppe angegeben werden.<\/p>\n<p>Wollen wir zum Beispiel die Mittelwerte der K\u00f6rpergr\u00f6\u00dfe von Frauen und M\u00e4nnern vergleichen, gehen wir wie folgt vor: error.bars.by(Variable1,Variable2). Hinweis: Standardm\u00e4\u00dfig zeigt die Funktion sogenannte Katzenaugen. Wenn Sie stattdessen die Fehlerbalken erhalten wollen, m\u00fcssen Sie also <em>eyes=FALSE<\/em> angeben.<\/p>\n<div id=\"cb93\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb93-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb93-2\"><span class=\"fu\">error.bars.by<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">eyes=<\/span><span class=\"cn\">FALSE<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-109-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Leider benennt die Funktion die Gruppen immer mit \u201cgroup1\u201d etc., daher vergeben wir wieder die richtigen Labels mit der <em>v.labels<\/em> Funktion (f\u00fcr Variablen-Labels).<\/p>\n<div id=\"cb94\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb94-1\"><span class=\"fu\">error.bars.by<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht, <span class=\"at\">eyes=<\/span><span class=\"cn\">FALSE<\/span>, <span class=\"at\">v.labels=<\/span><span class=\"fu\">cbind<\/span>(<span class=\"st\">\"M\u00e4nnlich\"<\/span>,<span class=\"st\">\"Weiblich\"<\/span>))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-110-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Wenn sich die Konfidenzintervalle f\u00fcr zwei Mittelwerte nicht \u00fcberschneiden, wie in diesem Beispiel, bedeutet dies, dass der Unterschied zwischen den beiden Mittelwerten statistisch signifikant ist. Ein Konfidenzintervall stellt den Wertebereich dar, in dem der wahre Mittelwert auf der Grundlage eines bestimmten Konfidenzniveaus (in der Regel 95 %) wahrscheinlich liegen wird. Wenn sich die Konfidenzintervalle f\u00fcr zwei Mittelwerte nicht \u00fcberschneiden, bedeutet dies, dass die wahren Mittelwerte f\u00fcr die beiden Gruppen wahrscheinlich unterschiedlich sind.<\/p>\n<p>Machen wir ein weiteres Beispiel aus dem Datensatz WPStudis. Wer ist zufriedener in der Beziehung, M\u00e4nner oder Frauen?<\/p>\n<div id=\"cb95\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb95-1\"><span class=\"fu\">error.bars.by<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_03_Zufriedenheit_Partnerschaft,WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht,<span class=\"at\">eyes=<\/span><span class=\"cn\">FALSE<\/span>, <span class=\"at\">v.labels=<\/span><span class=\"fu\">cbind<\/span>(<span class=\"st\">\"M\u00e4nnlich\"<\/span>,<span class=\"st\">\"Weiblich\"<\/span>))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-111-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Deskriptiv ist der Wert der Frauen h\u00f6her, aber wie man sieht \u00fcberschneiden sich die Konfidenzintervalle. Der Unterschied der Mittelwerte ist also nicht signifikant und wir k\u00f6nnen daher nicht sagen, dass Frauen auch in der Population zufriedener sind als M\u00e4nner.<\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/x_mHPk9Xf0c\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"histogramm\" class=\"section level2 hasAnchor\">\n<h1>Histogramm<\/h1>\n<p>Ein Histogramm ist eine grafische Darstellung der Verteilung eines Datensatzes. Ein Histogramm sieht auf den ersten Blick aus wie ein S\u00e4ulendiagramm, ist aber dennoch eine andere Darstellungsform. Ein Histogramm wird verwendet, um die Verteilung von kontinuierlichen Daten, wie Messwerten oder Zeitdaten, darzustellen. Die x-Achse eines Histogramms stellt die Werte im Datensatz dar, die y-Achse die H\u00e4ufigkeit, d.\u00a0h. die Anzahl, mit der dieser Wert im Datensatz erscheint. Die Balken in einem Histogramm liegen in der Regel ohne Zwischenraum nebeneinander und haben in der Regel die gleiche Breite.<\/p>\n<p>Ein Balkendiagramm hingegen wird verwendet, um die Werte verschiedener Kategorien oder Gruppen zu vergleichen. Die x-Achse eines Balkendiagramms steht f\u00fcr die Kategorien oder Gruppen, die y-Achse f\u00fcr die Werte. Kategorien, die in den Daten nicht vorkommen, werden nicht angezeigt. In einem Histogramm hingegen, werden diese als \u201cL\u00fccken\u201d sichtbar. Daher ist ein Histogramm besonders dazu geeignet, die Verteilungsform zu interpretieren.<\/p>\n<p>Ein Histogramm kann direkt mit <em>hist()<\/em> erstellt werden. Hier ein Beispiel aus unserem Datensatz:<\/p>\n<div id=\"cb96\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb96-1\"><span class=\"fu\">hist<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-113-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Versuchen wir mal schrittweise diese Grafik zu \u201cversch\u00f6nern\u201d<br \/>\nIn einem Histogramm k\u00f6nnen wir die Anzahl der S\u00e4ulen selbst bestimmen. Hierzu nutzen wir das Argument <em>breaks<\/em>. Wenn wir die Balkenzahl in unserem Beispiel erh\u00f6hen wollen, k\u00f6nnten wir also wie folgt vorgehen. Spielen Sie doch mal mit diesem Wert und betrachten Sie, wie sich die Verteilungsform ver\u00e4ndert.<\/p>\n<div id=\"cb97\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb97-1\"><span class=\"fu\">hist<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, <span class=\"at\">breaks=<\/span><span class=\"dv\">30<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-114-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Wir k\u00f6nnen nat\u00fcrlich auch hier wieder einen Titel einf\u00fcgen, die Achsen vergr\u00f6\u00dfern und benennen, die Farben \u00e4ndern etc. Hier ein weiteres Beispiel:<\/p>\n<div id=\"cb98\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb98-1\"><span class=\"fu\">hist<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, <span class=\"at\">breaks=<\/span><span class=\"dv\">15<\/span>,<\/span>\r\n<span id=\"cb98-2\">     <span class=\"at\">main=<\/span><span class=\"st\">\"Histogramm K\u00f6rpergroesse\"<\/span>,<\/span>\r\n<span id=\"cb98-3\">     <span class=\"at\">xlim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">150<\/span>,<span class=\"dv\">190<\/span>), <span class=\"at\">ylim=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">0<\/span>,<span class=\"dv\">12<\/span>),<\/span>\r\n<span id=\"cb98-4\">     <span class=\"at\">xlab=<\/span><span class=\"st\">\"groesse WP-Studierende\"<\/span>,<\/span>\r\n<span id=\"cb98-5\">     <span class=\"at\">ylab=<\/span><span class=\"st\">\"H\u00e4ufigkeit\"<\/span>,<\/span>\r\n<span id=\"cb98-6\">     <span class=\"at\">col=<\/span><span class=\"st\">\"tomato\"<\/span>,<\/span>\r\n<span id=\"cb98-7\">     <span class=\"at\">border=<\/span><span class=\"st\">\"white\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-115-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Statt die Anzahl der Balken zu definieren, kann man auch ein sog. Kerndichte-Diagramm erstellen. Hierbei werden die H\u00e4ufigkeiten nicht als Balken, sondern als durchgezogene Linie dargestellt (Dies entspricht dem Gedankenexperiment von unendlich vielen Balken).<\/p>\n<div id=\"cb99\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb99-1\"><span class=\"fu\">plot<\/span>(<span class=\"fu\">density<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-116-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/us1OA51QD_A\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-7\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Entwerfen Sie ein Histogramm f\u00fcr die Anzahl der Freunde auf Facebook der WP Studierenden mit 10 Klassen (Balken).<\/p>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<\/div>\n<div id=\"boxplot\" class=\"section level2 hasAnchor\">\n<h1>\u00a0Boxplot<\/h1>\n<p>Ein Boxplot, auch bekannt als Box-and-Whisker-Plot, ist eine grafische Darstellung der Verteilung eines Datensatzes. Er wird verwendet, um die Streuung eines Datensatzes sowie Ausrei\u00dfer oder ungew\u00f6hnliche Werte darzustellen. Der Boxplot besteht aus einer Reihe von verschiedenen Komponenten:<\/p>\n<ul>\n<li>Die Box: Diese stellt den Interquartilsbereich (IQR) des Datensatzes dar, d.\u00a0h. den Bereich der mittleren 50 % der Daten.<\/li>\n<li>Die Whisker: Diese erstrecken sich auf beiden Seiten der Box bis zu den Minimal- und Maximalwerten des Datensatzes, wobei Ausrei\u00dfer ausgeschlossen werden.<\/li>\n<li>Die Linie innerhalb der Box: Dies ist der Median (Mittelwert) des Datensatzes.<\/li>\n<li>Die Punkte: Sie stellen die Ausrei\u00dfer dar, d.\u00a0h. die Werte, die au\u00dferhalb der Whiskers liegen. Diese erhalten in R eine Ziffer, die die Zeilennummer im Datensatz darstellt.<\/li>\n<\/ul>\n<p>Boxplots sind besonders n\u00fctzlich, um die Verteilung mehrerer Datens\u00e4tze zu vergleichen (Histogramme k\u00f6nnen die Verteilungsform von nur einer Variablen darstellen).<\/p>\n<p>Ein Boxplot kann direkt mit <em>boxplot()<\/em> erstellt werden. Aus unserem Datensatz:<\/p>\n<div id=\"cb100\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb100-1\"><span class=\"fu\">boxplot<\/span>(WPStudis<span class=\"sc\">$<\/span>F2_Alter)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-118-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Auch Gruppierungen lassen sich leicht erzeugen. Hierzu nutzen wir wieder das Format: Variable1 ~ Variable2. Hier ein Beispiel:<\/p>\n<div id=\"cb101\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb101-1\"><span class=\"fu\">boxplot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-119-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Wir k\u00f6nnen auch hier die Farben \u00e4ndern und Beschriftungen vornehmen. Hierzu m\u00fcssen wir hier jedoch das <em>names<\/em> Argument verwenden.<\/p>\n<div id=\"cb102\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb102-1\"><span class=\"fu\">boxplot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F3_Geschlecht,<\/span>\r\n<span id=\"cb102-2\">        <span class=\"at\">col=<\/span>(<span class=\"st\">\"darkgreen\"<\/span>),<\/span>\r\n<span id=\"cb102-3\">        <span class=\"at\">names=<\/span><span class=\"fu\">c<\/span>(<span class=\"st\">\"M\u00e4nnlich\"<\/span>,<span class=\"st\">\"Weiblich\"<\/span>))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-120-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/v_XxyF-8fnI\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-8\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Entwerfen Sie zwei Boxplots nebeneinander f\u00fcr die Schuhgroesse der weiblichen bzw. m\u00e4nnlichen Studierenden.<\/p>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" srcset=\"https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png 900w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-300x192.png 300w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-768x492.png 768w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-65x42.png 65w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-225x144.png 225w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-350x224.png 350w\" sizes=\"(max-width: 900px) 100vw, 900px\" \/><\/a><\/p>\n<\/div>\n<div id=\"kreisdiagramm\" class=\"section level2 hasAnchor\">\n<h1>Kreisdiagramm<\/h1>\n<p>Ein Kreisdiagramm ist eine kreisf\u00f6rmige grafische Darstellung von Daten, wobei der gesamte Kreis den Gesamtwert der Daten darstellt und jedes Segment oder \u201cSt\u00fcck\u201d des Kuchens eine andere Kategorie oder Gruppe repr\u00e4sentiert. Die Gr\u00f6\u00dfe jedes Segments ist proportional zu der Menge oder dem Prozentsatz der Daten, die es repr\u00e4sentiert.<\/p>\n<p>Tortendiagramme sind besonders n\u00fctzlich, wenn die Daten eine geringe Anzahl verschiedener Kategorien aufweisen und wenn die relative Gr\u00f6\u00dfe der Kategorien wichtiger ist als ihre genauen Werte. Es kann jedoch schwierig sein, die Gr\u00f6\u00dfe kleiner Scheiben zu vergleichen, insbesondere wenn es viele davon gibt. Da Tortendiagramme zur Darstellung von Daten Winkel und nicht L\u00e4ngen verwenden, kann es au\u00dferdem schwierig sein, die Gr\u00f6\u00dfe der Scheiben genau zu vergleichen.<\/p>\n<p>Hier ein Beispiel aus unserem Datensatz:<\/p>\n<div id=\"cb103\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb103-1\"><span class=\"fu\">pie<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille)) <\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-122-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Um den Startpunkt auf \u201c12 Uhr\u201d zu stellen, kann zus\u00e4tzlich das Argument <em>clockwise=T<\/em> verwendet werden<\/p>\n<div id=\"cb104\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb104-1\"><span class=\"fu\">pie<\/span>(<span class=\"fu\">table<\/span>(WPStudis<span class=\"sc\">$<\/span>F7_Brille), <span class=\"at\">clockwise=<\/span>T) <\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-123-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/MT7OYP6LPCg\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-9\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Erzeugen Sie ein Kreisdiagramm f\u00fcr das Geschlecht unserer Ersties (Datensatz WPStudis)<\/p>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<\/div>\n<div id=\"streudiagramm\" class=\"section level2 hasAnchor\">\n<h1>Streudiagramm<\/h1>\n<p>Ein Streudiagramm ist eine grafische Darstellung von zweidimensionalen Daten, bei der jeder Punkt im Diagramm ein Wertepaar aus einem Datensatz darstellt. Die x-Achse steht f\u00fcr eine Variable und die y-Achse f\u00fcr die andere Variable. Die Position jedes Punktes im Diagramm entspricht den Werten der beiden Variablen f\u00fcr diesen Punkt. Streudiagramme werden verwendet, um die Beziehung zwischen zwei Variablen zu visualisieren und um Muster oder Trends in den Daten zu erkennen.<\/p>\n<p>Streudiagramme sind n\u00fctzlich, um Muster und Trends in den Daten zu erkennen, z. B. lineare Beziehungen, nicht lineare Beziehungen, Cluster und Ausrei\u00dfer. Auch die Verteilung der Daten und die Streuung der Werte lassen sich damit visualisieren. Streudiagramme sind besonders n\u00fctzlich f\u00fcr gro\u00dfe Datens\u00e4tze, da sie eine gro\u00dfe Anzahl von Datenpunkten in einem einzigen Diagramm darstellen k\u00f6nnen.<\/p>\n<p>Das Generieren von Streudiagrammen in R haben wir schon kennengelernt, diese lassen sich mit der <em>plot()<\/em> Funktion sehr einfach generieren.<\/p>\n<div id=\"cb105\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb105-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-125-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Eine Regressionsgerade k\u00f6nnen wir durch den Befehl <em>abline<\/em> sowie durch die Spezifikation des linearen Modells (lm) hinzuf\u00fcgen. Den Aufbau des linearen Modells und das Thema Regression besprechen wir noch in den folgenden Kapiteln. Grunds\u00e4tzlich gilt, dass in der <em>lm()<\/em> Funktion zun\u00e4chst die abh\u00e4ngige Variable, die auf der y-Achse abgetragen wird und dann die unabh\u00e4ngige Variable, die auf der x-Achse abgetragen wird, getrennt wird von einer Tilde (~).<\/p>\n<div id=\"cb106\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb106-1\"><span class=\"fu\">plot<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse)<\/span>\r\n<span id=\"cb106-2\"><span class=\"fu\">abline<\/span>(<span class=\"fu\">lm<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse<span class=\"sc\">~<\/span>WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-126-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<\/div>\n<div id=\"streudiagramm-matrizen\" class=\"section level2 hasAnchor\">\n<h1>Streudiagramm-Matrizen<\/h1>\n<p>R kann auch sogenannte Streudiagramm-Matrizen erstellen, die \u00fcbersichtlich den Zusammenhang von mehr als 2 Variablen darstellen. Hierf\u00fcr ben\u00f6tigen wir die Funktion <em>pairs.panels()<\/em> aus dem <em>psych<\/em> Paket.<\/p>\n<p>Die Funktion <em>pairs.panels()<\/em> erstellt eine Matrix von Streudiagrammen, in der jede Variable gegen jede andere Variable aufgetragen wird. Sie kann verwendet werden, um die Beziehungen zwischen mehreren Variablen zu visualisieren und um Muster oder Trends in den Daten zu erkennen. Die Funktion verf\u00fcgt \u00fcber mehrere Optionen, mit denen Sie das Aussehen des Diagramms anpassen k\u00f6nnen, z. B. die Gr\u00f6\u00dfe der Punkte, die Farbe der Punkte und die Art der zu verwendenden Gl\u00e4ttung.<\/p>\n<p>Als Input ben\u00f6tigen wir hier jedoch einen Data-Frame. Diesen k\u00f6nnen wir vorab generieren oder direkt in die Funktion einbauen, mithilfe der <em>data.frame<\/em> Funktion.<\/p>\n<p>Im folgenden Beispiel erstellen wir einen Data-Frame mit den gew\u00fcnschten drei Variablen. Diese m\u00fcssen alle als Vektoren formatiert sein.<\/p>\n<div id=\"cb107\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb107-1\">Zusammenhang <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">data.frame<\/span>(WPStudis<span class=\"sc\">$<\/span>F4_Koerpergroesse, WPStudis<span class=\"sc\">$<\/span>F5_Schuhgroesse, WPStudis<span class=\"sc\">$<\/span>F20_Einkommen_Glueck)<\/span><\/code><\/pre>\n<\/div>\n<p>Nun k\u00f6nnen wir die Funktion auf unseren neuen Datensatz anwenden.<\/p>\n<div id=\"cb108\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb108-1\"><span class=\"fu\">pairs.panels<\/span>(Zusammenhang)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-128-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Wenn man die Funktion auf unseren ganzen Datensatz anwendet, wird es jedoch un\u00fcbersichtlich.<\/p>\n<div id=\"cb109\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb109-1\"><span class=\"fu\">pairs.panels<\/span>(WPStudis)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-129-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Alternativ gibt es weitere Pakete mit denen Streudiagramm-Matrizen erstellt werden k\u00f6nnnen. Insbesondere wenn viele Variablen betrachtet werden sollen, ist z. B. <em>corrgram<\/em> eine gute Alternative. Die Funktion erstellt eine Matrix von Zellen, wobei jede Zelle den Korrelationskoeffizienten zwischen zwei verschiedenen Variablen darstellt. Die Zellen sind farbkodiert, um die St\u00e4rke und Richtung der Korrelation anzuzeigen. Blaue Farben zeigen positive, rote Farben negative Korrelationen. Je st\u00e4rker die Korrelation, desto dunkler die Farbe. Hier ein Beispiel:<\/p>\n<p>Beispiel corrgramm<\/p>\n<div id=\"cb110\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb110-1\"><span class=\"fu\">library<\/span>(<span class=\"st\">\"corrgram\"<\/span>)<\/span>\r\n<span id=\"cb110-2\"><span class=\"fu\">corrgram<\/span>(WPStudis)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-130-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Alternativ kann mit der Funktion <em>corrgram<\/em> auch eine H\u00e4lfte der Kombinationon mit Piecharts dargestellt werden. Dadurch kann die St\u00e4rke der Korrelation noch exakter abgelesen werden.<\/p>\n<div id=\"cb111\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb111-1\"><span class=\"fu\">corrgram<\/span>(WPStudis, <span class=\"at\">upper.panel=<\/span>panel.pie)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-131-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/5V4dSGmr3pE\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-10\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Wir haben echte Daten der Besucherfrequenz in der Fussg\u00e4ngerzone von Stuttgart.<\/p>\n<p>Um die Daten aus Excel zu laden, nutzen wir das <em>readxl<\/em> Paket und die <em>read_excel<\/em> Funktion.<\/p>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" srcset=\"https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png 900w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-300x192.png 300w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-768x492.png 768w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-65x42.png 65w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-225x144.png 225w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-350x224.png 350w\" sizes=\"(max-width: 900px) 100vw, 900px\" \/><\/a><\/p>\n<div id=\"cb112\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb112-1\"><\/span>\r\n<span id=\"cb112-2\"><span class=\"fu\">library<\/span>(readxl)<\/span>\r\n<span id=\"cb112-3\">Passanten <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">read_excel<\/span>(<span class=\"st\">\"Passanten2019.xlsx\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p>Wir m\u00fcssen zun\u00e4chst die Variable \u201cTag\u201d in einen Faktor umwandeln. Damit die Tage dann noch in unserer gewohnten Reihenfolge erscheinen (Mo-So), k\u00f6nnen Sie einen ordered Factor erstellen. Dies geht wie folgt:<\/p>\n<div id=\"cb113\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb113-1\">Passanten<span class=\"sc\">$<\/span>Tag <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">as.factor<\/span>(Passanten<span class=\"sc\">$<\/span>Tag)<\/span>\r\n<span id=\"cb113-2\">Passanten<span class=\"sc\">$<\/span>Tag <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ordered<\/span>(Passanten<span class=\"sc\">$<\/span>Tag,<span class=\"at\">levels=<\/span><span class=\"fu\">c<\/span>(<span class=\"st\">\"Mo\"<\/span>,<span class=\"st\">\"Di\"<\/span>,<span class=\"st\">\"Mi\"<\/span>,<span class=\"st\">\"Do\"<\/span>,<span class=\"st\">\"Fr\"<\/span>,<span class=\"st\">\"Sa\"<\/span>,<span class=\"st\">\"So\"<\/span>))<\/span><\/code><\/pre>\n<\/div>\n<p>Versuchen Sie Boxplots zu erzeugen, die uns sagen, an welchem Wochentag wieviele Menschen auf der K\u00f6nigstrasse unterwegs sind.<br \/>\nVersuchen Sie zus\u00e4tzlich Boxplots zu erzeugen, die die Standorte K\u00f6nigstrasse Mitte und S\u00fcd vergleichen.<\/p>\n<\/div>\n<div id=\"\u00fcbung-11\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Wir laden die Daten (Befragung von Paaren nach der Aufteilung der Hausarbeit, aufgeteilt in 13 klassische Hausarbeiten) aus dem Paket <em>ade4<\/em>.<\/p>\n<div id=\"cb114\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb114-1\"><span class=\"fu\">library<\/span>(ade4)<\/span>\r\n<span id=\"cb114-2\"><span class=\"fu\">data<\/span>(housetasks)<\/span><\/code><\/pre>\n<\/div>\n<p>Betrachten Sie die Daten. Erzeugen Sie eine Grafik, um die Daten m\u00f6glichst gut zu visualisieren.<\/p>\n<p>Tipp: Sie ben\u00f6tigen zun\u00e4chst eine Tabelle mit den relativen H\u00e4ufigkeiten. Um diese besser darstellen zu k\u00f6nnen, lohnt es sich zudem, die Tabelle zu transponieren (Die Spalten und Zeilen zu tauschen). Hierzu k\u00f6nnen Sie die <em>t()<\/em> Funktion in R nutzen.<\/p>\n<div id=\"cb115\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb115-1\">data<span class=\"ot\">&lt;-<\/span><span class=\"fu\">as.matrix<\/span>(housetasks)  <span class=\"co\">#Erzeugt eine Daten-Matrix (Voraussetzung f\u00fcr viele Plots bzw. die Umwandlung in eine Tabelle)<\/span><\/span>\r\n<span id=\"cb115-2\">data<span class=\"ot\">&lt;-<\/span><span class=\"dv\">100<\/span><span class=\"sc\">*<\/span><span class=\"fu\">prop.table<\/span>(data, <span class=\"at\">margin =<\/span> <span class=\"dv\">1<\/span>)  <span class=\"co\">#Erzeugt eine Kontinenztabelle mit Zeilenprozenten<\/span><\/span>\r\n<span id=\"cb115-3\">data_trans <span class=\"ot\">&lt;-<\/span><span class=\"fu\">t<\/span>(data)  <span class=\"co\">#Die Funktion t() erzeugt eine transponierte Matrix (X und Y Achse getauscht)<\/span><\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-12\" class=\"section level2 hasAnchor\">\n<p>&nbsp;<\/p>\n<\/div>\n<h1>Grafiken mit GGPlot2<\/h1>\n<p>Das Paket <em>ggplot2<\/em> ist der Goldstandard f\u00fcr Grafiken in R, aber auch eine eigene Programmiersprache innerhalb von R, die man sich aneignen muss. Es ist das beliebteste Datenvisualisierungspaket in R, das einen leistungsstarken und flexiblen Rahmen f\u00fcr die Erstellung verschiedener Arten von Diagrammen bietet. Es gibt mehrere Gr\u00fcnde, warum Nutzer ggplot2 gegen\u00fcber anderen Visualisierungspaketen oder -methoden bevorzugen:<\/p>\n<ul>\n<li>Grammatik der Grafik: ggplot2 basiert auf der \u201cGrammatik der Grafik\u201d, die eine konsistente und flexible Methode zur Erstellung von Plots bietet. So k\u00f6nnen Sie Ihre Plots leicht anpassen und modifizieren und komplexe Plots durch die Kombination mehrerer Ebenen erstellen.<\/li>\n<li>Eingebaute Unterst\u00fctzung f\u00fcr mehrere Skalen: ggplot2 hat eingebaute Unterst\u00fctzung f\u00fcr verschiedene Skalen, wie z. B. kontinuierliche, kategoriale und Datumsskalen, was die Erstellung von Plots f\u00fcr verschiedene Datentypen erleichtert.<\/li>\n<li>Anpassbare Themen: ggplot2 bietet eine Reihe von eingebauten Themen, mit denen Sie das Aussehen Ihrer Diagramme schnell \u00e4ndern k\u00f6nnen. Sie k\u00f6nnen auch Ihre eigenen Themen erstellen, um den Stil Ihrer Organisation oder Ihres Projekts anzupassen.<\/li>\n<li>Viele Geoms: ggplot2 unterst\u00fctzt viele Arten von Geoms (geometrische Objekte bzw. Darstellungsarten), mit denen verschiedene Arten von Diagrammen erstellt werden k\u00f6nnen, wie z. B. Streudiagramme, Liniendiagramme, Balkendiagramme und viele mehr. Es unterst\u00fctzt auch eine Vielzahl von statistischen Transformationen, die zur Visualisierung und Analyse von Daten verwendet werden k\u00f6nnen.<\/li>\n<\/ul>\n<div id=\"vorbereitung-1\" class=\"section level2 hasAnchor\">\n<h1>Vorbereitung<\/h1>\n<p>Datensatz \u2018WPStudis.RData\u2019 \u00f6ffnen (Sie muessen ggf. noch Ihren Pfad \u00e4ndern bzw. den Workspace neu definieren):<\/p>\n<div id=\"cb116\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb116-1\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.Rdata\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p>Paket aktivieren<\/p>\n<div id=\"cb117\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb117-1\"><span class=\"fu\">library<\/span>(ggplot2)<\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"qplot-und-ggplot\" class=\"section level2 hasAnchor\">\n<h1>QPlot und GGPlot<\/h1>\n<p>Qplot ist so konzipiert, dass es einfacher und bequemer zu benutzen ist als <em>ggplot()<\/em>, um g\u00e4ngige Arten von Diagrammen zu erstellen, wie z. B. Streudiagramme, Balkendiagramme und Histogramme. Gleichzeitig hat es deutlich weniger Optionen und Argumente. Wenn es schnell gehen muss, kann <em>qplot()<\/em> dennoch eine Alternative sein. Hier ein Beispiel:<\/p>\n<div id=\"cb118\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb118-1\"><span class=\"fu\">qplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"at\">x=<\/span>F6_Sternzeichen,<span class=\"at\">y=<\/span>F5_Schuhgroesse,<span class=\"at\">color=<\/span>F3_Geschlecht)<\/span>\r\n<span id=\"cb118-2\"><span class=\"do\">## Warning: `qplot()` was deprecated in ggplot2 3.4.0.<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-139-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Die gleiche Grafik mit <em>ggplot()<\/em> braucht deutlich mehr Argumente, ist daf\u00fcr aber auch beliebig erweiterbar. Wie das geht, schauen wir uns im n\u00e4chsten Schritt an.<\/p>\n<div id=\"cb119\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb119-1\"><span class=\"fu\">ggplot<\/span>() <span class=\"sc\">+<\/span> <span class=\"fu\">geom_point<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(<span class=\"at\">x=<\/span>F6_Sternzeichen,<span class=\"at\">y=<\/span>F5_Schuhgroesse,<span class=\"at\">colour=<\/span>F3_Geschlecht))<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-140-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<\/div>\n<div id=\"ggplot2-grafik-erstellen\" class=\"section level2 hasAnchor\">\n<h1>GGplot2 Grafik erstellen<\/h1>\n<p>Mit Hilfe von <em>ggplot<\/em> k\u00f6nnen wir nun auch detailliertere Grafiken zu unseren WP Studierenden erstellen. Nehmen wir wieder das Schuhgroessen Beispiel aus unserem Datensatz. Der <em>aes()<\/em> Befehl steht f\u00fcr \u201cAesthetics\u201d und erwartet als Eingabe einen Vektor. Hiermit definieren wir, was im Folgenden visualisiert werden soll.<\/p>\n<div id=\"cb120\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb120-1\">Schuhgroesse <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ggplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(F5_Schuhgroesse))<\/span><\/code><\/pre>\n<\/div>\n<p>Jetzt haben wir ggplot2 gesagt, um welche Daten es geht. Um nun etwas anzuzeigen, m\u00fcssen wir ein \u201cLayer\u201d erzeugen. Dieser nennt sich <em>geom<\/em> und steht f\u00fcr die geometrische Darstellung der Daten, also ob diese z. B. als S\u00e4ule oder Linie dargestellt werden sollen. Wir entscheiden uns f\u00fcr ein S\u00e4ulendiagramm und nutzen daher <em>geom_bar<\/em> f\u00fcr ein Bar Chart.<\/p>\n<div id=\"cb121\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb121-1\">Schuhgroesse <span class=\"sc\">+<\/span> <span class=\"fu\">geom_bar<\/span>()<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-142-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Nun wollen wir die Schuhgroessen nach Geschlecht aufgeteilt darstellen, dazu erzeugen wir ein neues <em>ggplot<\/em> Objekt und geben nun zwei Variablen ein. Grunds\u00e4tzlich gilt bei <em>ggplot<\/em> immer, dass die erste Variable auf der x-Achse und die zweite auf der y-Achse dargestellt wird. Da wir hier die zweite Variable (hier das Geschlecht) nicht als eigenen Achsenwert, sondern als farblich getrennt dargestellt haben wollen, nutzen wir wir das Argument <em>fill<\/em>.<\/p>\n<div id=\"cb122\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb122-1\">Schuhgroesse2 <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ggplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(F5_Schuhgroesse, <span class=\"at\">fill=<\/span>F3_Geschlecht))<\/span>\r\n<span id=\"cb122-2\">Schuhgroesse2 <span class=\"sc\">+<\/span> <span class=\"fu\">geom_bar<\/span>()<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-143-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Es gibt eine sehr gro\u00dfe Zahl weiterer Darstellungsformen (sog. geoms). In einem weiteren Beispiel erzeugen wir mit dem Argument <em>geom_boxplot<\/em> einen Boxplot f\u00fcr die gleichen Daten. Da wir jetzt das Geschlecht als Trennung zwischen den beiden Boxplots nutzen wollen, nehmen wir es zuerst und verwenden hier auch nicht das Argument <em>fill<\/em>.<\/p>\n<div id=\"cb123\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb123-1\">Schuhgroesse3 <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ggplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(F3_Geschlecht,F5_Schuhgroesse))<\/span>\r\n<span id=\"cb123-2\">Schuhgroesse3 <span class=\"sc\">+<\/span> <span class=\"fu\">geom_boxplot<\/span>()<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-144-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<\/div>\n<div id=\"fehlerbalkendiagramm-mit-ggplot2\" class=\"section level2 hasAnchor\">\n<h1>Fehlerbalkendiagramm mit GGPlot2<\/h1>\n<p>Nehmen wir nun an, wir wollen nicht die einzelnen Werte darstellen, sondern die Mittelwerte vergleichen. Auch das kann ggplot2. Zun\u00e4chst m\u00fcssen wir als x-Achsenwerte Geschlecht und als y-Achsenwerte die Schuhgr\u00f6sse definieren.<\/p>\n<div id=\"cb124\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb124-1\">Schuhgroesse_Mittel <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">ggplot<\/span>(<span class=\"at\">data=<\/span>WPStudis,<span class=\"fu\">aes<\/span>(F3_Geschlecht, F5_Schuhgroesse))<\/span><\/code><\/pre>\n<\/div>\n<p>Als n\u00e4chsten ben\u00f6tigen wir hierf\u00fcr die \u201cstat-summary\u201d Funktion, um die Mittelwerte auszurechnen. Wenn wir uns nun die Grafik ansehen, erhalten wir schon ein Punktdiagramm, welches beide Mittelwerte anzeigt.<\/p>\n<div id=\"cb125\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb125-1\">Schuhgroesse_Mittel <span class=\"sc\">+<\/span> <span class=\"fu\">stat_summary<\/span>(<span class=\"at\">fun =<\/span> mean) <\/span>\r\n<span id=\"cb125-2\"><span class=\"do\">## Warning: Removed 2 rows containing missing values<\/span><\/span>\r\n<span id=\"cb125-3\"><span class=\"do\">## (`geom_segment()`).<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-146-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Nun machen wir es noch etwas sch\u00f6ner und beschriften die y-Achse<\/p>\n<div id=\"cb126\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb126-1\">Schuhgroesse_Mittel <span class=\"sc\">+<\/span> <span class=\"fu\">stat_summary<\/span>(<span class=\"at\">fun =<\/span> mean) <span class=\"sc\">+<\/span> <span class=\"fu\">labs<\/span>(<span class=\"at\">x=<\/span><span class=\"st\">\"\"<\/span>, <span class=\"at\">y=<\/span><span class=\"st\">\"Schuhgroesse\"<\/span>)<\/span>\r\n<span id=\"cb126-2\"><span class=\"do\">## Warning: Removed 2 rows containing missing values<\/span><\/span>\r\n<span id=\"cb126-3\"><span class=\"do\">## (`geom_segment()`).<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-147-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Wir wollen nun zus\u00e4tzlich die 95 % Konfidenzintervalle anzeigen lassen. Hierzu erg\u00e4nzen wir die Funktion <em>mean_cl_normal<\/em>, sowie das geom <em>errorbar<\/em> (Nur die untere Zeile ist neu)<\/p>\n<div id=\"cb127\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb127-1\"><\/span>\r\n<span id=\"cb127-2\">Schuhgroesse_Mittel <span class=\"sc\">+<\/span> <span class=\"fu\">stat_summary<\/span>(<span class=\"at\">fun =<\/span> mean ) <span class=\"sc\">+<\/span> <span class=\"fu\">labs<\/span>(<span class=\"at\">x=<\/span><span class=\"st\">\"\"<\/span>, <span class=\"at\">y=<\/span><span class=\"st\">\"Schuhgroesse\"<\/span>)<span class=\"sc\">+<\/span> <span class=\"fu\">stat_summary<\/span>(<span class=\"at\">fun.data=<\/span>mean_cl_normal, <span class=\"at\">geom=<\/span><span class=\"st\">\"errorbar\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-148-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/YGaVHTlLBfo\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Erstellen Sie mit ggplot2 ein Histogramm zur Anzahl der Facebook Freunde der WP Studierenden.<\/p>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" srcset=\"https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png 900w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-300x192.png 300w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-768x492.png 768w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-65x42.png 65w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-225x144.png 225w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-350x224.png 350w\" sizes=\"(max-width: 900px) 100vw, 900px\" \/><\/a><\/p>\n<\/div>\n","protected":false},"author":1,"menu_order":3,"template":"","meta":{"pb_show_title":"on","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":1725,"_links":{"self":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1742"}],"collection":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":7,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1742\/revisions"}],"predecessor-version":[{"id":1894,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1742\/revisions\/1894"}],"part":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/parts\/1725"}],"metadata":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1742\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/media?parent=1742"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapter-type?post=1742"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/contributor?post=1742"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/license?post=1742"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}