{"id":1779,"date":"2023-04-12T15:02:29","date_gmt":"2023-04-12T13:02:29","guid":{"rendered":"http:\/\/statistikgrundlagen.de\/ebook\/?post_type=chapter&#038;p=1779"},"modified":"2023-04-12T21:12:16","modified_gmt":"2023-04-12T19:12:16","slug":"logistische-regression-mit-r","status":"publish","type":"chapter","link":"https:\/\/statistikgrundlagen.de\/ebook\/chapter\/logistische-regression-mit-r\/","title":{"rendered":"Logistische Regression mit R"},"content":{"raw":"<h1>Logistische Regression<\/h1>\r\nEine logistische Regression ist eine weitere Variante eines Regressionsmodells, bei dem die abh\u00e4ngige Variable (Kriterium) mit einer dichotomen Variable gemessen wird, also nur zwei m\u00f6gliche Ergebnisse hat. Ein logistisches Regressionsmodell kann einen oder mehrere kontinuierliche Pr\u00e4diktoren haben.\r\n\r\nIn R kann die Funktion <em>glm()<\/em> verwendet werden, um eine logistische Regression durchzuf\u00fchren (General Linear Model - GLM). Der Funktion werden die folgenden Argumente \u00fcbergeben:\r\n\r\nDie Formel, die die Beziehung zwischen der Ergebnisvariablen und den unabh\u00e4ngigen Variablen beschreibt, entspricht den Regressionsmodellen, die wir bisher kennengelernt haben. Jedoch wird zus\u00e4tzlich <em>family=binomial<\/em>(link = \u201clogit\u201d)* erg\u00e4nzt.\r\n<div id=\"beispiel-4\" class=\"section level2 hasAnchor\">\r\n<h1>Beispiel<\/h1>\r\nAls Beispiel k\u00f6nnten wir unseren WPStudis Datensatz nutzen und versuchen, das Geschlecht einer Person aus ihrer Schuhgroesse vorhersagen.\r\n\r\nWir nutzen hierzu wieder den WPStudis Datensatz und erstellen ein Subset ohne Missings. Ausserdem schlie\u00dfen wir die Person in Zeile 4 aus (Ausrei\u00dfer, siehe erstes Regressionsmodell).\r\n<div id=\"cb233\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb233-1\">data_log <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">na.omit<\/span>(WPStudis[<span class=\"fu\">c<\/span>(<span class=\"st\">\"F1_Nummer\"<\/span>, <span class=\"st\">\"F4_Koerpergroesse\"<\/span>,<span class=\"st\">\"F5_Schuhgroesse\"<\/span>,<span class=\"st\">\"F2_Alter\"<\/span>, <span class=\"st\">\"F3_Geschlecht\"<\/span>)])<\/span>\r\n<span id=\"cb233-2\">data_log <span class=\"ot\">&lt;-<\/span> data_log<span class=\"ot\">&lt;-<\/span>data_lm[<span class=\"sc\">-<\/span><span class=\"dv\">4<\/span>,]<\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"voraussetzungen-2\" class=\"section level2 hasAnchor\">\r\n<h1>Voraussetzungen<\/h1>\r\nDie gute Nachricht ist, dass logistische Regression weder eine Normalverteilung der Residuen, noch Varianzhomogenit\u00e4t voraussetzt. Auch ein linearer Zusammenhang zwischen AV und UV muss nicht gegeben sein. Dennoch gibt es Voraussetzungen, die erf\u00fcllt sein m\u00fcssen: Die AV muss dichotom sein. Die Beobachtungen m\u00fcssen unabh\u00e4ngig sein (also kein Messwiederholungsdesign). Drittens sollte es wenig oder keine Korrelation zwischen den UVs geben (Multikollinearit\u00e4t). Hierf\u00fcr kann man eine Streudiagramm-Matrix verwenden. Da wir in diesem ersten Beispiel nur eine UV haben, ist dies jedoch nicht n\u00f6tig.\r\n\r\n<\/div>\r\n<div id=\"logistisches-modell-erstellen\" class=\"section level2 hasAnchor\">\r\n<h1>Logistisches Modell erstellen<\/h1>\r\nDie Spezifikation des Modells mit der <em>glm()<\/em> Funktion ist analog der <em>lm()<\/em> Funktion (also AV~UV), nur dass wir\r\nzus\u00e4tzlich das Argument \u201cfamily=binomial\u201d anh\u00e4ngen.\r\n<div id=\"cb234\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb234-1\">lm9 <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">glm<\/span>(F3_Geschlecht <span class=\"sc\">~<\/span> F5_Schuhgroesse, <span class=\"at\">data=<\/span>data_log,<span class=\"at\">family=<\/span>binomial)<\/span>\r\n<span id=\"cb234-2\"><span class=\"fu\">summary<\/span>(lm9)  <\/span>\r\n<span id=\"cb234-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb234-5\"><span class=\"do\">## glm(formula = F3_Geschlecht ~ F5_Schuhgroesse, family = binomial, <\/span><\/span>\r\n<span id=\"cb234-6\"><span class=\"do\">##     data = data_log)<\/span><\/span>\r\n<span id=\"cb234-7\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-8\"><span class=\"do\">## Deviance Residuals: <\/span><\/span>\r\n<span id=\"cb234-9\"><span class=\"do\">##      Min        1Q    Median        3Q       Max  <\/span><\/span>\r\n<span id=\"cb234-10\"><span class=\"do\">## -2.05356   0.00205   0.00819   0.03280   1.52821  <\/span><\/span>\r\n<span id=\"cb234-11\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-12\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb234-13\"><span class=\"do\">##                 Estimate Std. Error z value Pr(&gt;|z|)  <\/span><\/span>\r\n<span id=\"cb234-14\"><span class=\"do\">## (Intercept)      115.722     44.996   2.572   0.0101 *<\/span><\/span>\r\n<span id=\"cb234-15\"><span class=\"do\">## F5_Schuhgroesse   -2.774      1.086  -2.555   0.0106 *<\/span><\/span>\r\n<span id=\"cb234-16\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb234-17\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span>\r\n<span id=\"cb234-18\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-19\"><span class=\"do\">## (Dispersion parameter for binomial family taken to be 1)<\/span><\/span>\r\n<span id=\"cb234-20\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-21\"><span class=\"do\">##     Null deviance: 84.6304  on 90  degrees of freedom<\/span><\/span>\r\n<span id=\"cb234-22\"><span class=\"do\">## Residual deviance:  8.8285  on 89  degrees of freedom<\/span><\/span>\r\n<span id=\"cb234-23\"><span class=\"do\">## AIC: 12.829<\/span><\/span>\r\n<span id=\"cb234-24\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-25\"><span class=\"do\">## Number of Fisher Scoring iterations: 9<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDie Regressions-Koeffizienten sind hier schwer zu interpretieren, da sie sich auf Logit (nat\u00fcrlicher\r\nLogarithmus des Wettquotienten) beziehen. Eine Erh\u00f6hung der Schuhgroesse um eine Einheit verringert den Logit des Geschlechts (zur Erinnerung \u201c1\u201d war weiblich) um 2,8.\r\n\r\nDie Nullabweichung (Null deviance) ist die Abweichung des Modells mit nur dem Intercept-Term. Die Restabweichung ist die Abweichung des Modells mit allen unabh\u00e4ngigen Variablen. Eine geringere Restabweichung zeigt an, dass das Modell besser zu den Daten passt.\r\n\r\nAIC (Akaike Information Criterion) ist ein Ma\u00df f\u00fcr die relative Qualit\u00e4t eines Modells, das sowohl die Anpassungsg\u00fcte als auch die Komplexit\u00e4t des Modells ber\u00fccksichtigt. Er wird wie folgt berechnet: AIC = 2k - 2ln(L), wobei k die Anzahl der Parameter im Modell und L der maximierte Wert der Likelihood-Funktion ist. Ein niedrigerer AIC-Wert weist auf ein besser passendes Modell hin.\r\n\r\nDas Fisher-Scoring, auch bekannt als Fisher-Informationskriterium, ist ein Ma\u00df f\u00fcr die relative Qualit\u00e4t eines Modells auf der Grundlage der beobachteten Fisher-Informationen. Es wird berechnet als -2ln(L), wobei L der maximierte Wert der Likelihood-Funktion ist. Niedrigeres Fisher-Scoring deutet auf ein besser passendes Modell hin. Ist ein Ma\u00df f\u00fcr die relative Qualit\u00e4t eines statistischen Modells. AIC und BIC werden verwendet, um verschiedene Modelle zu vergleichen. Die AIC- und BIC-Werte sind im Allgemeinen niedriger f\u00fcr Modelle, die besser zu den Daten passen. F\u00fcr ein einzelnes Modell sind beide jedoch nicht zu interpretieren.\r\n\r\n<\/div>\r\n<div id=\"vorhersagen-erstellen-1\" class=\"section level2 hasAnchor\">\r\n<h1>Vorhersagen erstellen<\/h1>\r\nDa die Regressions-Koeffizienten bei einer logistischen Regression nur schwer zu interpretieren sind, ist es spannender, eine Vorhersagefunktion zu bauen. Wir nutzen wieder <em>predict()<\/em> Funktion. Bei logistischen Regressionsmodellen m\u00fcssen wir jedoch noch das Argument \u201ctype=\u201dresponse\u201d hinzuf\u00fcgen, um eine Wahrscheinlichkeit zu erhalten (sonst erhalten wir odds ratios)\r\n<div id=\"cb235\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb235-1\"><span class=\"fu\">predict<\/span>(lm9, <span class=\"fu\">data.frame<\/span>(<span class=\"at\">F5_Schuhgroesse=<\/span><span class=\"dv\">43<\/span>), <span class=\"at\">type=<\/span><span class=\"st\">\"response\"<\/span>)<\/span>\r\n<span id=\"cb235-2\"><span class=\"do\">##          1 <\/span><\/span>\r\n<span id=\"cb235-3\"><span class=\"do\">## 0.02740349<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDer Output beantwortet die Frage: Wenn eine Person Schuhgroesse 43 hat, wie hoch ist die Wahrscheinlichkeit, dass es sich um eine Frau handelt? Die Antwort darauf ist 2,7 % (basierend auf diesen Daten). Spielen Sie doch ein wenig mit den Daten, wie ist die Wahrscheinlichkeitsverteilung f\u00fcr Ihre Schuhgroesse?\r\n\r\nDer Dichteplot l\u00e4sst sich auch sehr leicht erstellen. Bei nominalen\/dichotomen Verteilungen nutzen wir hierzu die <em>cdplot<\/em> Funktion (cd steh f\u00fcr conditional densities)\r\n<div id=\"cb236\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb236-1\"><span class=\"fu\">cdplot<\/span>(F3_Geschlecht <span class=\"sc\">~<\/span> F5_Schuhgroesse, <span class=\"at\">data=<\/span>data_lm)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-274-1.png\" width=\"672\" \/>\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/c0xS-5zeajM\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-21\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nLearning from Disaster\r\n\r\nDer Untergang der Titanic 1912 kostete 1512 Menschen das Leben. Die Plattform Kaggle stellt einen (echten) Datensatz mit 500 echten Personendaten zur Verf\u00fcgung (<a class=\"uri\" href=\"https:\/\/www.kaggle.com\/c\/titanic\">https:\/\/www.kaggle.com\/c\/titanic<\/a>). Neben dem Namen, haben wir Alter, Klasse, Zustiegsort, Kosten des Tickets und einige weitere Variablen. Ausserdem haben wir die Information, ob die Person \u00fcberlebt hat. Hierf\u00fcr wollen wir nun ein logistisches Regressionsmodell bauen, welches m\u00f6glichst gut vorhersagt, ob eine Person \u00fcberlebt hat oder nicht. Nutzen Sie hierf\u00fcr: Geschlecht, Alter und Kabinenklasse. Interpretieren Sie das Ergebnis.\r\n<div id=\"cb237\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb237-1\">titanic <span class=\"ot\">&lt;-<\/span><span class=\"fu\">read.csv<\/span>(<span class=\"at\">file=<\/span><span class=\"st\">\"titanic.csv\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>","rendered":"<h1>Logistische Regression<\/h1>\n<p>Eine logistische Regression ist eine weitere Variante eines Regressionsmodells, bei dem die abh\u00e4ngige Variable (Kriterium) mit einer dichotomen Variable gemessen wird, also nur zwei m\u00f6gliche Ergebnisse hat. Ein logistisches Regressionsmodell kann einen oder mehrere kontinuierliche Pr\u00e4diktoren haben.<\/p>\n<p>In R kann die Funktion <em>glm()<\/em> verwendet werden, um eine logistische Regression durchzuf\u00fchren (General Linear Model &#8211; GLM). Der Funktion werden die folgenden Argumente \u00fcbergeben:<\/p>\n<p>Die Formel, die die Beziehung zwischen der Ergebnisvariablen und den unabh\u00e4ngigen Variablen beschreibt, entspricht den Regressionsmodellen, die wir bisher kennengelernt haben. Jedoch wird zus\u00e4tzlich <em>family=binomial<\/em>(link = \u201clogit\u201d)* erg\u00e4nzt.<\/p>\n<div id=\"beispiel-4\" class=\"section level2 hasAnchor\">\n<h1>Beispiel<\/h1>\n<p>Als Beispiel k\u00f6nnten wir unseren WPStudis Datensatz nutzen und versuchen, das Geschlecht einer Person aus ihrer Schuhgroesse vorhersagen.<\/p>\n<p>Wir nutzen hierzu wieder den WPStudis Datensatz und erstellen ein Subset ohne Missings. Ausserdem schlie\u00dfen wir die Person in Zeile 4 aus (Ausrei\u00dfer, siehe erstes Regressionsmodell).<\/p>\n<div id=\"cb233\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb233-1\">data_log <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">na.omit<\/span>(WPStudis[<span class=\"fu\">c<\/span>(<span class=\"st\">\"F1_Nummer\"<\/span>, <span class=\"st\">\"F4_Koerpergroesse\"<\/span>,<span class=\"st\">\"F5_Schuhgroesse\"<\/span>,<span class=\"st\">\"F2_Alter\"<\/span>, <span class=\"st\">\"F3_Geschlecht\"<\/span>)])<\/span>\r\n<span id=\"cb233-2\">data_log <span class=\"ot\">&lt;-<\/span> data_log<span class=\"ot\">&lt;-<\/span>data_lm[<span class=\"sc\">-<\/span><span class=\"dv\">4<\/span>,]<\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"voraussetzungen-2\" class=\"section level2 hasAnchor\">\n<h1>Voraussetzungen<\/h1>\n<p>Die gute Nachricht ist, dass logistische Regression weder eine Normalverteilung der Residuen, noch Varianzhomogenit\u00e4t voraussetzt. Auch ein linearer Zusammenhang zwischen AV und UV muss nicht gegeben sein. Dennoch gibt es Voraussetzungen, die erf\u00fcllt sein m\u00fcssen: Die AV muss dichotom sein. Die Beobachtungen m\u00fcssen unabh\u00e4ngig sein (also kein Messwiederholungsdesign). Drittens sollte es wenig oder keine Korrelation zwischen den UVs geben (Multikollinearit\u00e4t). Hierf\u00fcr kann man eine Streudiagramm-Matrix verwenden. Da wir in diesem ersten Beispiel nur eine UV haben, ist dies jedoch nicht n\u00f6tig.<\/p>\n<\/div>\n<div id=\"logistisches-modell-erstellen\" class=\"section level2 hasAnchor\">\n<h1>Logistisches Modell erstellen<\/h1>\n<p>Die Spezifikation des Modells mit der <em>glm()<\/em> Funktion ist analog der <em>lm()<\/em> Funktion (also AV~UV), nur dass wir<br \/>\nzus\u00e4tzlich das Argument \u201cfamily=binomial\u201d anh\u00e4ngen.<\/p>\n<div id=\"cb234\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb234-1\">lm9 <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">glm<\/span>(F3_Geschlecht <span class=\"sc\">~<\/span> F5_Schuhgroesse, <span class=\"at\">data=<\/span>data_log,<span class=\"at\">family=<\/span>binomial)<\/span>\r\n<span id=\"cb234-2\"><span class=\"fu\">summary<\/span>(lm9)  <\/span>\r\n<span id=\"cb234-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb234-5\"><span class=\"do\">## glm(formula = F3_Geschlecht ~ F5_Schuhgroesse, family = binomial, <\/span><\/span>\r\n<span id=\"cb234-6\"><span class=\"do\">##     data = data_log)<\/span><\/span>\r\n<span id=\"cb234-7\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-8\"><span class=\"do\">## Deviance Residuals: <\/span><\/span>\r\n<span id=\"cb234-9\"><span class=\"do\">##      Min        1Q    Median        3Q       Max  <\/span><\/span>\r\n<span id=\"cb234-10\"><span class=\"do\">## -2.05356   0.00205   0.00819   0.03280   1.52821  <\/span><\/span>\r\n<span id=\"cb234-11\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-12\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb234-13\"><span class=\"do\">##                 Estimate Std. Error z value Pr(&gt;|z|)  <\/span><\/span>\r\n<span id=\"cb234-14\"><span class=\"do\">## (Intercept)      115.722     44.996   2.572   0.0101 *<\/span><\/span>\r\n<span id=\"cb234-15\"><span class=\"do\">## F5_Schuhgroesse   -2.774      1.086  -2.555   0.0106 *<\/span><\/span>\r\n<span id=\"cb234-16\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb234-17\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span>\r\n<span id=\"cb234-18\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-19\"><span class=\"do\">## (Dispersion parameter for binomial family taken to be 1)<\/span><\/span>\r\n<span id=\"cb234-20\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-21\"><span class=\"do\">##     Null deviance: 84.6304  on 90  degrees of freedom<\/span><\/span>\r\n<span id=\"cb234-22\"><span class=\"do\">## Residual deviance:  8.8285  on 89  degrees of freedom<\/span><\/span>\r\n<span id=\"cb234-23\"><span class=\"do\">## AIC: 12.829<\/span><\/span>\r\n<span id=\"cb234-24\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb234-25\"><span class=\"do\">## Number of Fisher Scoring iterations: 9<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Die Regressions-Koeffizienten sind hier schwer zu interpretieren, da sie sich auf Logit (nat\u00fcrlicher<br \/>\nLogarithmus des Wettquotienten) beziehen. Eine Erh\u00f6hung der Schuhgroesse um eine Einheit verringert den Logit des Geschlechts (zur Erinnerung \u201c1\u201d war weiblich) um 2,8.<\/p>\n<p>Die Nullabweichung (Null deviance) ist die Abweichung des Modells mit nur dem Intercept-Term. Die Restabweichung ist die Abweichung des Modells mit allen unabh\u00e4ngigen Variablen. Eine geringere Restabweichung zeigt an, dass das Modell besser zu den Daten passt.<\/p>\n<p>AIC (Akaike Information Criterion) ist ein Ma\u00df f\u00fcr die relative Qualit\u00e4t eines Modells, das sowohl die Anpassungsg\u00fcte als auch die Komplexit\u00e4t des Modells ber\u00fccksichtigt. Er wird wie folgt berechnet: AIC = 2k &#8211; 2ln(L), wobei k die Anzahl der Parameter im Modell und L der maximierte Wert der Likelihood-Funktion ist. Ein niedrigerer AIC-Wert weist auf ein besser passendes Modell hin.<\/p>\n<p>Das Fisher-Scoring, auch bekannt als Fisher-Informationskriterium, ist ein Ma\u00df f\u00fcr die relative Qualit\u00e4t eines Modells auf der Grundlage der beobachteten Fisher-Informationen. Es wird berechnet als -2ln(L), wobei L der maximierte Wert der Likelihood-Funktion ist. Niedrigeres Fisher-Scoring deutet auf ein besser passendes Modell hin. Ist ein Ma\u00df f\u00fcr die relative Qualit\u00e4t eines statistischen Modells. AIC und BIC werden verwendet, um verschiedene Modelle zu vergleichen. Die AIC- und BIC-Werte sind im Allgemeinen niedriger f\u00fcr Modelle, die besser zu den Daten passen. F\u00fcr ein einzelnes Modell sind beide jedoch nicht zu interpretieren.<\/p>\n<\/div>\n<div id=\"vorhersagen-erstellen-1\" class=\"section level2 hasAnchor\">\n<h1>Vorhersagen erstellen<\/h1>\n<p>Da die Regressions-Koeffizienten bei einer logistischen Regression nur schwer zu interpretieren sind, ist es spannender, eine Vorhersagefunktion zu bauen. Wir nutzen wieder <em>predict()<\/em> Funktion. Bei logistischen Regressionsmodellen m\u00fcssen wir jedoch noch das Argument \u201ctype=\u201dresponse\u201d hinzuf\u00fcgen, um eine Wahrscheinlichkeit zu erhalten (sonst erhalten wir odds ratios)<\/p>\n<div id=\"cb235\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb235-1\"><span class=\"fu\">predict<\/span>(lm9, <span class=\"fu\">data.frame<\/span>(<span class=\"at\">F5_Schuhgroesse=<\/span><span class=\"dv\">43<\/span>), <span class=\"at\">type=<\/span><span class=\"st\">\"response\"<\/span>)<\/span>\r\n<span id=\"cb235-2\"><span class=\"do\">##          1 <\/span><\/span>\r\n<span id=\"cb235-3\"><span class=\"do\">## 0.02740349<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Der Output beantwortet die Frage: Wenn eine Person Schuhgroesse 43 hat, wie hoch ist die Wahrscheinlichkeit, dass es sich um eine Frau handelt? Die Antwort darauf ist 2,7 % (basierend auf diesen Daten). Spielen Sie doch ein wenig mit den Daten, wie ist die Wahrscheinlichkeitsverteilung f\u00fcr Ihre Schuhgroesse?<\/p>\n<p>Der Dichteplot l\u00e4sst sich auch sehr leicht erstellen. Bei nominalen\/dichotomen Verteilungen nutzen wir hierzu die <em>cdplot<\/em> Funktion (cd steh f\u00fcr conditional densities)<\/p>\n<div id=\"cb236\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb236-1\"><span class=\"fu\">cdplot<\/span>(F3_Geschlecht <span class=\"sc\">~<\/span> F5_Schuhgroesse, <span class=\"at\">data=<\/span>data_lm)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-274-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/c0xS-5zeajM\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-21\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Learning from Disaster<\/p>\n<p>Der Untergang der Titanic 1912 kostete 1512 Menschen das Leben. Die Plattform Kaggle stellt einen (echten) Datensatz mit 500 echten Personendaten zur Verf\u00fcgung (<a class=\"uri\" href=\"https:\/\/www.kaggle.com\/c\/titanic\">https:\/\/www.kaggle.com\/c\/titanic<\/a>). Neben dem Namen, haben wir Alter, Klasse, Zustiegsort, Kosten des Tickets und einige weitere Variablen. Ausserdem haben wir die Information, ob die Person \u00fcberlebt hat. Hierf\u00fcr wollen wir nun ein logistisches Regressionsmodell bauen, welches m\u00f6glichst gut vorhersagt, ob eine Person \u00fcberlebt hat oder nicht. Nutzen Sie hierf\u00fcr: Geschlecht, Alter und Kabinenklasse. Interpretieren Sie das Ergebnis.<\/p>\n<div id=\"cb237\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb237-1\">titanic <span class=\"ot\">&lt;-<\/span><span class=\"fu\">read.csv<\/span>(<span class=\"at\">file=<\/span><span class=\"st\">\"titanic.csv\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" srcset=\"https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png 900w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-300x192.png 300w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-768x492.png 768w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-65x42.png 65w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-225x144.png 225w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-350x224.png 350w\" sizes=\"(max-width: 900px) 100vw, 900px\" \/><\/a><\/p>\n","protected":false},"author":1,"menu_order":13,"template":"","meta":{"pb_show_title":"on","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":1725,"_links":{"self":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1779"}],"collection":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":3,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1779\/revisions"}],"predecessor-version":[{"id":1835,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1779\/revisions\/1835"}],"part":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/parts\/1725"}],"metadata":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1779\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/media?parent=1779"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapter-type?post=1779"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/contributor?post=1779"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/license?post=1779"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}