{"id":1774,"date":"2023-04-12T14:56:17","date_gmt":"2023-04-12T12:56:17","guid":{"rendered":"http:\/\/statistikgrundlagen.de\/ebook\/?post_type=chapter&#038;p=1774"},"modified":"2023-04-12T21:11:23","modified_gmt":"2023-04-12T19:11:23","slug":"multiple-lineare-regression-mit-r","status":"publish","type":"chapter","link":"https:\/\/statistikgrundlagen.de\/ebook\/chapter\/multiple-lineare-regression-mit-r\/","title":{"rendered":"Multiple lineare Regression mit R"},"content":{"raw":"<h1>Multiple lineare Regression<\/h1>\r\nEine multiple lineare Regression ist ein statistisches Verfahren, das zur Vorhersage des Wertes einer abh\u00e4ngigen Variablen (auch Kriterium genannt) auf der Grundlage der Werte einer oder mehrerer unabh\u00e4ngiger Variablen (auch Pr\u00e4diktorvariablen genannt) verwendet wird. Die allgemeine Form der Gleichung f\u00fcr eine multiple lineare Regression ist\r\n\r\nY = b0 + b1X1 + b2X2 + \u2026 + bnXn,\r\n\r\nwobei Y die abh\u00e4ngige Variable ist, X1, X2, \u2026 Xn die unabh\u00e4ngigen Variablen sind, und b0, b1, b2, \u2026 bn die Koeffizienten der Gleichung sind. Diese Koeffizienten werden mit der Methode der \u201cgew\u00f6hnlichen kleinsten Quadrate\u201d (OLS) gesch\u00e4tzt, die die Summe der quadrierten Residuen zwischen den vorhergesagten und tats\u00e4chlichen Werten der abh\u00e4ngigen Variable minimiert.\r\n<div id=\"beispiel-2\" class=\"section level2 hasAnchor\">\r\n<h1>Beispiel<\/h1>\r\nWir wollen der Frage nachgehen, ob wir die Lebenszufriedenheit aus der Zufriedenheit mit dem Studium und der Zufriedenheit mit der Partnerschaft vorhersagen k\u00f6nnen und nutzen dazu wieder den WPStudis Datensatz.\r\n\r\n<\/div>\r\n<div id=\"daten-vorbereiten-1\" class=\"section level2 hasAnchor\">\r\n<h1>Daten vorbereiten<\/h1>\r\nDatensatz einlesen (Sie muessen natuerlich noch Ihren Pfad aendern)\r\n<div id=\"cb211\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb211-1\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.RData\"<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\nWir erstellen ein Subset mit den relevanten Variablen und schlie\u00dfen NAs aus:\r\n<div id=\"cb212\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb212-1\">data_multi <span class=\"ot\">&lt;-<\/span> WPStudis[<span class=\"fu\">c<\/span>(<span class=\"st\">\"F1_Nummer\"<\/span>,<span class=\"st\">\"F19_Partnerschaft\"<\/span>,<span class=\"st\">\"F21_01_Zufriedenheit_Leben\"<\/span>,<span class=\"st\">\"F21_02_Zufriedenheit_Studium\"<\/span>,<span class=\"st\">\"F21_03_Zufriedenheit_Partnerschaft\"<\/span>)]<\/span><\/code><\/pre>\r\n<\/div>\r\nWir schlie\u00dfen wieder fehlende Werte aus, da diese auch bei der multiplen Regression zu Problemen f\u00fchren.\r\n<div id=\"cb213\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb213-1\">data_multi <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">na.omit<\/span>(data_multi)<\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"modell-erstellen-1\" class=\"section level2 hasAnchor\">\r\n<h1>Modell erstellen<\/h1>\r\nIn R k\u00f6nnen Sie mit der Funktion <em>lm()<\/em> eine multiple lineare Regression durchf\u00fchren. Die grundlegende Syntax lautet:\r\n\r\nmodel &lt;- lm(Y ~ X1 + X2 + \u2026 + Xn, data = your_data)\r\n\r\nHier ist Y die abh\u00e4ngige Variable (Kriterium), und X1, X2, \u2026 Xn sind die unabh\u00e4ngigen Variablen (Pr\u00e4diktoren). In unserem Fall sieht das Modell also wie folgt aus:\r\n<div id=\"cb214\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb214-1\">lm4<span class=\"ot\">&lt;-<\/span> <span class=\"fu\">lm<\/span>(F21_01_Zufriedenheit_Leben <span class=\"sc\">~<\/span> F21_02_Zufriedenheit_Studium <span class=\"sc\">+<\/span> F21_03_Zufriedenheit_Partnerschaft , <span class=\"at\">data=<\/span>data_multi)<\/span>\r\n<span id=\"cb214-2\"><span class=\"fu\">summary<\/span>(lm4)<\/span>\r\n<span id=\"cb214-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb214-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb214-5\"><span class=\"do\">## lm(formula = F21_01_Zufriedenheit_Leben ~ F21_02_Zufriedenheit_Studium + <\/span><\/span>\r\n<span id=\"cb214-6\"><span class=\"do\">##     F21_03_Zufriedenheit_Partnerschaft, data = data_multi)<\/span><\/span>\r\n<span id=\"cb214-7\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb214-8\"><span class=\"do\">## Residuals:<\/span><\/span>\r\n<span id=\"cb214-9\"><span class=\"do\">##     Min      1Q  Median      3Q     Max <\/span><\/span>\r\n<span id=\"cb214-10\"><span class=\"do\">## -3.4732 -0.2084  0.0564  0.3647  1.3212 <\/span><\/span>\r\n<span id=\"cb214-11\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb214-12\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb214-13\"><span class=\"do\">##                                    Estimate Std. Error t value<\/span><\/span>\r\n<span id=\"cb214-14\"><span class=\"do\">## (Intercept)                         2.19408    0.43483   5.046<\/span><\/span>\r\n<span id=\"cb214-15\"><span class=\"do\">## F21_02_Zufriedenheit_Studium        0.26479    0.09763   2.712<\/span><\/span>\r\n<span id=\"cb214-16\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft  0.19104    0.07884   2.423<\/span><\/span>\r\n<span id=\"cb214-17\"><span class=\"do\">##                                      Pr(&gt;|t|)    <\/span><\/span>\r\n<span id=\"cb214-18\"><span class=\"do\">## (Intercept)                        0.00000253 ***<\/span><\/span>\r\n<span id=\"cb214-19\"><span class=\"do\">## F21_02_Zufriedenheit_Studium          0.00809 ** <\/span><\/span>\r\n<span id=\"cb214-20\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft    0.01751 *  <\/span><\/span>\r\n<span id=\"cb214-21\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb214-22\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span>\r\n<span id=\"cb214-23\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb214-24\"><span class=\"do\">## Residual standard error: 0.712 on 85 degrees of freedom<\/span><\/span>\r\n<span id=\"cb214-25\"><span class=\"do\">## Multiple R-squared:  0.1595, Adjusted R-squared:  0.1397 <\/span><\/span>\r\n<span id=\"cb214-26\"><span class=\"do\">## F-statistic: 8.063 on 2 and 85 DF,  p-value: 0.0006216<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDas Ergebnis zeigt, dass sowohl die Zufriedenheit mit dem Studium, als auch die Zufriedenheit mit der Partnerschaft signifikante Pr\u00e4diktoren f\u00fcr die Lebenszufriedenheit sind. Beide Pr\u00e4diktoren haben einen P-Wert von &lt; 0.05 (Spalte Pr(&gt;|t|)).\r\n\r\nDas Modell hat eine aufgekl\u00e4rte Varianz von 0.14 (R2-Wert). Wir k\u00f6nnen mit den beiden Variablen zusammen, also rund 14 % der Varianz der Lebenszufriedenheit erkl\u00e4ren. Der Rest wird wohl durch andere Faktoren bestimmt.\r\n\r\n<\/div>\r\n<div id=\"voraussetzungen-pr\u00fcfen-2\" class=\"section level2 hasAnchor\">\r\n<h1>Voraussetzungen pr\u00fcfen<\/h1>\r\nWir m\u00fcssen nat\u00fcrlich noch die Voraussetzungen f\u00fcr die multiple Regression pr\u00fcfen. Diese sind:\r\n<ol style=\"list-style-type: decimal;\">\r\n \t<li>Korrekte Spezifikation des Modells<\/li>\r\n \t<li>Normalverteilung der Residuen<\/li>\r\n \t<li>Homoskedastizit\u00e4t<\/li>\r\n \t<li>Ausrei\u00dfer und einflussreiche Datenpunkte<\/li>\r\n \t<li>Multikollinearit\u00e4t<\/li>\r\n \t<li>Unabh\u00e4ngigkeit der Residuen<\/li>\r\n<\/ol>\r\nAuch bei multiplen Regressionen funktioniert die Diagnostik f\u00fcr die Voraussetzungen 1-4 \u00fcber die <em>plot()<\/em> Funktion. Da dies dem Vorgehen im vorigen Kapitel entspricht, werden wir hierauf nicht mehr vertieft eingehen.\r\n<div id=\"cb215\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb215-1\"><span class=\"fu\">par<\/span>(<span class=\"at\">mfrow=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">2<\/span>,<span class=\"dv\">2<\/span>))    <span class=\"co\">#4 Graphen pro Seite<\/span><\/span>\r\n<span id=\"cb215-2\"><span class=\"fu\">plot<\/span>(lm4)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-251-1.png\" width=\"672\" \/>\r\n<div id=\"cb216\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb216-1\"><span class=\"fu\">dev.off<\/span>() <span class=\"co\">#setzt das Layout zurueck<\/span><\/span>\r\n<span id=\"cb216-2\"><span class=\"do\">## null device <\/span><\/span>\r\n<span id=\"cb216-3\"><span class=\"do\">##           1<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nVoraussetzung 5&amp;6:\r\n\r\n<strong>Test auf Multikollinearitaet<\/strong>\r\n\r\nIn R k\u00f6nnen Sie die Funktion <em>vif()<\/em> des Pakets <em>car<\/em> verwenden, um auf Multikollinearit\u00e4t in einem multiplen linearen Regressionsmodell zu testen.\r\n\r\nSobald Sie Ihr Modell haben, k\u00f6nnen Sie die Funktion vif() verwenden, um den Varianzinflationsfaktor (VIF) f\u00fcr jede unabh\u00e4ngige Variable zu berechnen. Der VIF ist ein Ma\u00df daf\u00fcr, wie stark die Varianz des gesch\u00e4tzten Koeffizienten einer bestimmten unabh\u00e4ngigen Variablen aufgrund von Multikollinearit\u00e4t erh\u00f6ht ist. Ein VIF von 1 bedeutet, dass keine Multikollinearit\u00e4t vorliegt, w\u00e4hrend ein VIF gr\u00f6\u00dfer als 1 bedeutet, dass Multikollinearit\u00e4t vorliegt.\r\n\r\nWenn einer der VIF-Werte gr\u00f6\u00dfer als 5 (je nach Literatur 10) ist, deutet dies darauf hin, dass diese Variable mit anderen unabh\u00e4ngigen Variablen korreliert ist und es besser ist, diese Variable aus dem Modell zu entfernen. Wenn alle VIF-Werte kleiner als 5 sind, bedeutet dies, dass keine Multikollinearit\u00e4t im Modell vorliegt.\r\n<div id=\"cb217\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb217-1\"><span class=\"fu\">library<\/span>(car)<\/span>\r\n<span id=\"cb217-2\"><span class=\"fu\">vif<\/span>(lm4) <\/span>\r\n<span id=\"cb217-3\"><span class=\"do\">##       F21_02_Zufriedenheit_Studium <\/span><\/span>\r\n<span id=\"cb217-4\"><span class=\"do\">##                           1.033705 <\/span><\/span>\r\n<span id=\"cb217-5\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft <\/span><\/span>\r\n<span id=\"cb217-6\"><span class=\"do\">##                           1.033705<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nIn unserem Fall liegt also keine Multikollinearit\u00e4t vor. Um die Korrelation zwischen verschiedenen Variablen zu beurteilen, k\u00f6nnen wir alternativ zum VIF auch wieder auf die Streudiagramm-Matrix zur\u00fcckgreifen\r\n<div id=\"cb218\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb218-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb218-2\">Zusammenhang <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">data.frame<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_02_Zufriedenheit_Studium,WPStudis<span class=\"sc\">$<\/span>F21_03_Zufriedenheit_Partnerschaft)<\/span>\r\n<span id=\"cb218-3\"><span class=\"fu\">pairs.panels<\/span>(Zusammenhang)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-254-1.png\" width=\"672\" \/>\r\n\r\nAuch hier sehen wir, dass die beiden Pr\u00e4diktoren nur schwach korreliert sind.\r\n\r\n<strong>Test auf Unabh\u00e4ngigkeit der Residuen<\/strong>\r\n\r\nEine weitere Voraussetzung ist die Unabh\u00e4ngigkeit der Residuen. Das bedeutet, dass die Residuen (Sch\u00e4tzfehler) nicht untereinander korrelieren sollten. Dies geschieht jedoch in der Praxis meist nur dann, wenn Zeitreihen vorliegen oder es sonst einen logischen Zusammenhang der Reihenfolge der Daten gibt.\r\n\r\nUm dies zu pr\u00fcfen, nutzen wir den Durbin-Watson-Test. Der Durbin-Watson-Test ist ein statistischer Test, der dazu dient, das Vorhandensein einer seriellen Korrelation (auch Autokorrelation genannt) in den Residuen eines linearen Regressionsmodells festzustellen. Eine serielle Korrelation liegt vor, wenn die Residuen eines Modells nicht unabh\u00e4ngig voneinander sind, was zu verzerrten und ineffizienten Sch\u00e4tzungen der Parameter des Modells f\u00fchren kann.\r\n\r\nDie Durbin-Watson-Teststatistik, die mit d bezeichnet wird, liegt zwischen 0 und 4. Ein Wert von 2 zeigt an, dass es keine serielle Korrelation in den Residuen gibt, w\u00e4hrend ein Wert von weniger als 2 auf eine positive serielle Korrelation hinweist (was bedeutet, dass auf Residuen mit gr\u00f6\u00dferen Gr\u00f6\u00dfen tendenziell Residuen mit \u00e4hnlichen Gr\u00f6\u00dfen folgen), und ein Wert von mehr als 2 auf eine negative serielle Korrelation hinweist (was bedeutet, dass auf Residuen mit gr\u00f6\u00dferen Gr\u00f6\u00dfen tendenziell Residuen mit entgegengesetzten Vorzeichen folgen). Grunds\u00e4tzlich sollte der Test also nicht signifikant werden und die Pruefstatistik sollte relativ nahe an 2 liegen.\r\n\r\nIn R k\u00f6nnen Sie den Durbin-Watson-Test mit der Funktion <em>durbinWatsonTest()<\/em> aus dem Paket <em>car<\/em> durchf\u00fchren.\r\n<div id=\"cb219\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb219-1\"><span class=\"fu\">durbinWatsonTest<\/span>(lm4)  <\/span>\r\n<span id=\"cb219-2\"><span class=\"do\">##  lag Autocorrelation D-W Statistic p-value<\/span><\/span>\r\n<span id=\"cb219-3\"><span class=\"do\">##    1      0.02084141      1.951871   0.796<\/span><\/span>\r\n<span id=\"cb219-4\"><span class=\"do\">##  Alternative hypothesis: rho != 0<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nIn diesem Fall liegt also keine Autokorrelation vor und wir k\u00f6nnen mit der Interpretation fortfahren.\r\n\r\n<\/div>\r\n<div id=\"modellvergleich\" class=\"section level2 hasAnchor\">\r\n<h1>Modellvergleich<\/h1>\r\nGrunds\u00e4tzlich gilt beim multiplen Regressionsmodell das Gesetz der Sparsamkeit. Das bedeutet, dass nur weiter Pr\u00e4diktoren in ein Modell aufgenommen werden sollten, wenn diese die Vorhersage des Modells auch signifikant verbessern. Um dies zu testen, kann man f\u00fcr die Aufnahme jedes Faktors einen Modellvergleich machen, um festzustellen, ob das Modell mit dem zus\u00e4tzlichen Pr\u00e4diktor eine signifikant bessere Vorhersage macht.\r\n\r\nDies k\u00f6nnen wir auch auf unser Beispiel von oben anwenden. Die Frage w\u00e4re hier zum Beispiel: Bringt das multiple Modell mit zwei Pr\u00e4diktoren eine bessere Vorhersage, als wenn ich die Lebenszufriedenheit aus der Zufriedenheit mit der Partnerschafft alleine vorhersage?\r\n\r\nWer erstellen dazu ein \u201cKonkurrenz-Modell\u201d mit nur einem Pr\u00e4diktor und nennen es \u201clm5\u201d.\r\n<div id=\"cb220\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb220-1\">lm5<span class=\"ot\">&lt;-<\/span> <span class=\"fu\">lm<\/span>(F21_01_Zufriedenheit_Leben <span class=\"sc\">~<\/span> F21_03_Zufriedenheit_Partnerschaft, <span class=\"at\">data=<\/span>data_multi)<\/span>\r\n<span id=\"cb220-2\"><span class=\"fu\">summary<\/span>(lm5)<\/span>\r\n<span id=\"cb220-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb220-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb220-5\"><span class=\"do\">## lm(formula = F21_01_Zufriedenheit_Leben ~ F21_03_Zufriedenheit_Partnerschaft, <\/span><\/span>\r\n<span id=\"cb220-6\"><span class=\"do\">##     data = data_multi)<\/span><\/span>\r\n<span id=\"cb220-7\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb220-8\"><span class=\"do\">## Residuals:<\/span><\/span>\r\n<span id=\"cb220-9\"><span class=\"do\">##     Min      1Q  Median      3Q     Max <\/span><\/span>\r\n<span id=\"cb220-10\"><span class=\"do\">## -3.1857 -0.1857  0.0439  0.2736  1.2736 <\/span><\/span>\r\n<span id=\"cb220-11\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb220-12\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb220-13\"><span class=\"do\">##                                    Estimate Std. Error t value<\/span><\/span>\r\n<span id=\"cb220-14\"><span class=\"do\">## (Intercept)                         3.03747    0.31498   9.643<\/span><\/span>\r\n<span id=\"cb220-15\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft  0.22965    0.08036   2.858<\/span><\/span>\r\n<span id=\"cb220-16\"><span class=\"do\">##                                               Pr(&gt;|t|)    <\/span><\/span>\r\n<span id=\"cb220-17\"><span class=\"do\">## (Intercept)                        0.00000000000000241 ***<\/span><\/span>\r\n<span id=\"cb220-18\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft             0.00535 ** <\/span><\/span>\r\n<span id=\"cb220-19\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb220-20\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span>\r\n<span id=\"cb220-21\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb220-22\"><span class=\"do\">## Residual standard error: 0.7379 on 86 degrees of freedom<\/span><\/span>\r\n<span id=\"cb220-23\"><span class=\"do\">## Multiple R-squared:  0.08673,    Adjusted R-squared:  0.07611 <\/span><\/span>\r\n<span id=\"cb220-24\"><span class=\"do\">## F-statistic: 8.167 on 1 and 86 DF,  p-value: 0.00535<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nWir sehen, dass das Modell mit 2 Pr\u00e4diktoren (oben) eine h\u00f6here aufgekl\u00e4rte Varianz hat als dieses Modell (R2 0,14 vs 0,08). Da wir jedoch grunds\u00e4tzlich sparsam sein sollten bei der Aufnahme weiterer Pr\u00e4diktoren, pr\u00fcfen wir nun, ob der Zugewinn an Varianz auch statistisch signifikant ist. Hierf\u00fcr f\u00fchren wir eine hierarchische Regression mit beiden Modellen durch. Dazu k\u00f6nnen wir die <em>anova()<\/em> Funktion nutzen, in die wir die zu vergleichenden Modelle eintragen. Der Syntax lautet dabei\r\n\r\nanova(model1, model2)\r\n\r\nDas Ergebnis F-Wert und den zugeh\u00f6rigen p-Wert f\u00fcr den Test der Nullhypothese, dass es keinen Unterschied in den Modellen gibt. Wenn der p-Wert kleiner ist als das von Ihnen gew\u00e4hlte Signifikanzniveau (z. B. 0,05), k\u00f6nnen Sie daraus schlie\u00dfen, dass ein signifikanter Unterschied zwischen den Modellen besteht.\r\n\r\nAlso in unserem Fall:\r\n<div id=\"cb221\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb221-1\"><span class=\"fu\">anova<\/span>(lm5,lm4)<\/span>\r\n<span id=\"cb221-2\"><span class=\"do\">## Analysis of Variance Table<\/span><\/span>\r\n<span id=\"cb221-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb221-4\"><span class=\"do\">## Model 1: F21_01_Zufriedenheit_Leben ~ F21_03_Zufriedenheit_Partnerschaft<\/span><\/span>\r\n<span id=\"cb221-5\"><span class=\"do\">## Model 2: F21_01_Zufriedenheit_Leben ~ F21_02_Zufriedenheit_Studium + F21_03_Zufriedenheit_Partnerschaft<\/span><\/span>\r\n<span id=\"cb221-6\"><span class=\"do\">##   Res.Df    RSS Df Sum of Sq     F   Pr(&gt;F)   <\/span><\/span>\r\n<span id=\"cb221-7\"><span class=\"do\">## 1     86 46.826                               <\/span><\/span>\r\n<span id=\"cb221-8\"><span class=\"do\">## 2     85 43.096  1    3.7296 7.356 0.008088 **<\/span><\/span>\r\n<span id=\"cb221-9\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb221-10\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDie ANOVA wird signifikant und sagt uns damit, dass der Zugewinn an aufgekl\u00e4rter Varianz statistisch signifikant ist. Wir sollten daher mit dem multiplen Modell mit zwei Pr\u00e4diktoren weiter arbeiten.\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/2H1XWULNbCw\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-19\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nWir nutzen wieder den Prestige Datensatz. Wir wollen nun das Einkommen \u00b4(\u201cincome\u201d) wieder aus dem Bildungsgrad (\u201ceducation\u201d) vorhersagen, wollen aber als\r\nweitere Pr\u00e4diktoren das Prestige (\u201cprestige\u201d) des Jobs und den Frauenanteil (\u201cwomen\u201d) im Job dazunehmen. Erzeugen Sie das Regressionsmodell.\r\n<ul>\r\n \t<li>Wie hat sich der \u201cGoodness of Fit\u201d des Modells ver\u00e4ndert?<\/li>\r\n \t<li>Wie interpretieren Sie die Regressionsgewichte?<\/li>\r\n<\/ul>\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n<\/div>","rendered":"<h1>Multiple lineare Regression<\/h1>\n<p>Eine multiple lineare Regression ist ein statistisches Verfahren, das zur Vorhersage des Wertes einer abh\u00e4ngigen Variablen (auch Kriterium genannt) auf der Grundlage der Werte einer oder mehrerer unabh\u00e4ngiger Variablen (auch Pr\u00e4diktorvariablen genannt) verwendet wird. Die allgemeine Form der Gleichung f\u00fcr eine multiple lineare Regression ist<\/p>\n<p>Y = b0 + b1X1 + b2X2 + \u2026 + bnXn,<\/p>\n<p>wobei Y die abh\u00e4ngige Variable ist, X1, X2, \u2026 Xn die unabh\u00e4ngigen Variablen sind, und b0, b1, b2, \u2026 bn die Koeffizienten der Gleichung sind. Diese Koeffizienten werden mit der Methode der \u201cgew\u00f6hnlichen kleinsten Quadrate\u201d (OLS) gesch\u00e4tzt, die die Summe der quadrierten Residuen zwischen den vorhergesagten und tats\u00e4chlichen Werten der abh\u00e4ngigen Variable minimiert.<\/p>\n<div id=\"beispiel-2\" class=\"section level2 hasAnchor\">\n<h1>Beispiel<\/h1>\n<p>Wir wollen der Frage nachgehen, ob wir die Lebenszufriedenheit aus der Zufriedenheit mit dem Studium und der Zufriedenheit mit der Partnerschaft vorhersagen k\u00f6nnen und nutzen dazu wieder den WPStudis Datensatz.<\/p>\n<\/div>\n<div id=\"daten-vorbereiten-1\" class=\"section level2 hasAnchor\">\n<h1>Daten vorbereiten<\/h1>\n<p>Datensatz einlesen (Sie muessen natuerlich noch Ihren Pfad aendern)<\/p>\n<div id=\"cb211\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb211-1\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.RData\"<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<p>Wir erstellen ein Subset mit den relevanten Variablen und schlie\u00dfen NAs aus:<\/p>\n<div id=\"cb212\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb212-1\">data_multi <span class=\"ot\">&lt;-<\/span> WPStudis[<span class=\"fu\">c<\/span>(<span class=\"st\">\"F1_Nummer\"<\/span>,<span class=\"st\">\"F19_Partnerschaft\"<\/span>,<span class=\"st\">\"F21_01_Zufriedenheit_Leben\"<\/span>,<span class=\"st\">\"F21_02_Zufriedenheit_Studium\"<\/span>,<span class=\"st\">\"F21_03_Zufriedenheit_Partnerschaft\"<\/span>)]<\/span><\/code><\/pre>\n<\/div>\n<p>Wir schlie\u00dfen wieder fehlende Werte aus, da diese auch bei der multiplen Regression zu Problemen f\u00fchren.<\/p>\n<div id=\"cb213\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb213-1\">data_multi <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">na.omit<\/span>(data_multi)<\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"modell-erstellen-1\" class=\"section level2 hasAnchor\">\n<h1>Modell erstellen<\/h1>\n<p>In R k\u00f6nnen Sie mit der Funktion <em>lm()<\/em> eine multiple lineare Regression durchf\u00fchren. Die grundlegende Syntax lautet:<\/p>\n<p>model &lt;- lm(Y ~ X1 + X2 + \u2026 + Xn, data = your_data)<\/p>\n<p>Hier ist Y die abh\u00e4ngige Variable (Kriterium), und X1, X2, \u2026 Xn sind die unabh\u00e4ngigen Variablen (Pr\u00e4diktoren). In unserem Fall sieht das Modell also wie folgt aus:<\/p>\n<div id=\"cb214\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb214-1\">lm4<span class=\"ot\">&lt;-<\/span> <span class=\"fu\">lm<\/span>(F21_01_Zufriedenheit_Leben <span class=\"sc\">~<\/span> F21_02_Zufriedenheit_Studium <span class=\"sc\">+<\/span> F21_03_Zufriedenheit_Partnerschaft , <span class=\"at\">data=<\/span>data_multi)<\/span>\r\n<span id=\"cb214-2\"><span class=\"fu\">summary<\/span>(lm4)<\/span>\r\n<span id=\"cb214-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb214-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb214-5\"><span class=\"do\">## lm(formula = F21_01_Zufriedenheit_Leben ~ F21_02_Zufriedenheit_Studium + <\/span><\/span>\r\n<span id=\"cb214-6\"><span class=\"do\">##     F21_03_Zufriedenheit_Partnerschaft, data = data_multi)<\/span><\/span>\r\n<span id=\"cb214-7\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb214-8\"><span class=\"do\">## Residuals:<\/span><\/span>\r\n<span id=\"cb214-9\"><span class=\"do\">##     Min      1Q  Median      3Q     Max <\/span><\/span>\r\n<span id=\"cb214-10\"><span class=\"do\">## -3.4732 -0.2084  0.0564  0.3647  1.3212 <\/span><\/span>\r\n<span id=\"cb214-11\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb214-12\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb214-13\"><span class=\"do\">##                                    Estimate Std. Error t value<\/span><\/span>\r\n<span id=\"cb214-14\"><span class=\"do\">## (Intercept)                         2.19408    0.43483   5.046<\/span><\/span>\r\n<span id=\"cb214-15\"><span class=\"do\">## F21_02_Zufriedenheit_Studium        0.26479    0.09763   2.712<\/span><\/span>\r\n<span id=\"cb214-16\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft  0.19104    0.07884   2.423<\/span><\/span>\r\n<span id=\"cb214-17\"><span class=\"do\">##                                      Pr(&gt;|t|)    <\/span><\/span>\r\n<span id=\"cb214-18\"><span class=\"do\">## (Intercept)                        0.00000253 ***<\/span><\/span>\r\n<span id=\"cb214-19\"><span class=\"do\">## F21_02_Zufriedenheit_Studium          0.00809 ** <\/span><\/span>\r\n<span id=\"cb214-20\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft    0.01751 *  <\/span><\/span>\r\n<span id=\"cb214-21\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb214-22\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span>\r\n<span id=\"cb214-23\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb214-24\"><span class=\"do\">## Residual standard error: 0.712 on 85 degrees of freedom<\/span><\/span>\r\n<span id=\"cb214-25\"><span class=\"do\">## Multiple R-squared:  0.1595, Adjusted R-squared:  0.1397 <\/span><\/span>\r\n<span id=\"cb214-26\"><span class=\"do\">## F-statistic: 8.063 on 2 and 85 DF,  p-value: 0.0006216<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Das Ergebnis zeigt, dass sowohl die Zufriedenheit mit dem Studium, als auch die Zufriedenheit mit der Partnerschaft signifikante Pr\u00e4diktoren f\u00fcr die Lebenszufriedenheit sind. Beide Pr\u00e4diktoren haben einen P-Wert von &lt; 0.05 (Spalte Pr(&gt;|t|)).<\/p>\n<p>Das Modell hat eine aufgekl\u00e4rte Varianz von 0.14 (R2-Wert). Wir k\u00f6nnen mit den beiden Variablen zusammen, also rund 14 % der Varianz der Lebenszufriedenheit erkl\u00e4ren. Der Rest wird wohl durch andere Faktoren bestimmt.<\/p>\n<\/div>\n<div id=\"voraussetzungen-pr\u00fcfen-2\" class=\"section level2 hasAnchor\">\n<h1>Voraussetzungen pr\u00fcfen<\/h1>\n<p>Wir m\u00fcssen nat\u00fcrlich noch die Voraussetzungen f\u00fcr die multiple Regression pr\u00fcfen. Diese sind:<\/p>\n<ol style=\"list-style-type: decimal;\">\n<li>Korrekte Spezifikation des Modells<\/li>\n<li>Normalverteilung der Residuen<\/li>\n<li>Homoskedastizit\u00e4t<\/li>\n<li>Ausrei\u00dfer und einflussreiche Datenpunkte<\/li>\n<li>Multikollinearit\u00e4t<\/li>\n<li>Unabh\u00e4ngigkeit der Residuen<\/li>\n<\/ol>\n<p>Auch bei multiplen Regressionen funktioniert die Diagnostik f\u00fcr die Voraussetzungen 1-4 \u00fcber die <em>plot()<\/em> Funktion. Da dies dem Vorgehen im vorigen Kapitel entspricht, werden wir hierauf nicht mehr vertieft eingehen.<\/p>\n<div id=\"cb215\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb215-1\"><span class=\"fu\">par<\/span>(<span class=\"at\">mfrow=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">2<\/span>,<span class=\"dv\">2<\/span>))    <span class=\"co\">#4 Graphen pro Seite<\/span><\/span>\r\n<span id=\"cb215-2\"><span class=\"fu\">plot<\/span>(lm4)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-251-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<div id=\"cb216\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb216-1\"><span class=\"fu\">dev.off<\/span>() <span class=\"co\">#setzt das Layout zurueck<\/span><\/span>\r\n<span id=\"cb216-2\"><span class=\"do\">## null device <\/span><\/span>\r\n<span id=\"cb216-3\"><span class=\"do\">##           1<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Voraussetzung 5&amp;6:<\/p>\n<p><strong>Test auf Multikollinearitaet<\/strong><\/p>\n<p>In R k\u00f6nnen Sie die Funktion <em>vif()<\/em> des Pakets <em>car<\/em> verwenden, um auf Multikollinearit\u00e4t in einem multiplen linearen Regressionsmodell zu testen.<\/p>\n<p>Sobald Sie Ihr Modell haben, k\u00f6nnen Sie die Funktion vif() verwenden, um den Varianzinflationsfaktor (VIF) f\u00fcr jede unabh\u00e4ngige Variable zu berechnen. Der VIF ist ein Ma\u00df daf\u00fcr, wie stark die Varianz des gesch\u00e4tzten Koeffizienten einer bestimmten unabh\u00e4ngigen Variablen aufgrund von Multikollinearit\u00e4t erh\u00f6ht ist. Ein VIF von 1 bedeutet, dass keine Multikollinearit\u00e4t vorliegt, w\u00e4hrend ein VIF gr\u00f6\u00dfer als 1 bedeutet, dass Multikollinearit\u00e4t vorliegt.<\/p>\n<p>Wenn einer der VIF-Werte gr\u00f6\u00dfer als 5 (je nach Literatur 10) ist, deutet dies darauf hin, dass diese Variable mit anderen unabh\u00e4ngigen Variablen korreliert ist und es besser ist, diese Variable aus dem Modell zu entfernen. Wenn alle VIF-Werte kleiner als 5 sind, bedeutet dies, dass keine Multikollinearit\u00e4t im Modell vorliegt.<\/p>\n<div id=\"cb217\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb217-1\"><span class=\"fu\">library<\/span>(car)<\/span>\r\n<span id=\"cb217-2\"><span class=\"fu\">vif<\/span>(lm4) <\/span>\r\n<span id=\"cb217-3\"><span class=\"do\">##       F21_02_Zufriedenheit_Studium <\/span><\/span>\r\n<span id=\"cb217-4\"><span class=\"do\">##                           1.033705 <\/span><\/span>\r\n<span id=\"cb217-5\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft <\/span><\/span>\r\n<span id=\"cb217-6\"><span class=\"do\">##                           1.033705<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>In unserem Fall liegt also keine Multikollinearit\u00e4t vor. Um die Korrelation zwischen verschiedenen Variablen zu beurteilen, k\u00f6nnen wir alternativ zum VIF auch wieder auf die Streudiagramm-Matrix zur\u00fcckgreifen<\/p>\n<div id=\"cb218\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb218-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb218-2\">Zusammenhang <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">data.frame<\/span>(WPStudis<span class=\"sc\">$<\/span>F21_02_Zufriedenheit_Studium,WPStudis<span class=\"sc\">$<\/span>F21_03_Zufriedenheit_Partnerschaft)<\/span>\r\n<span id=\"cb218-3\"><span class=\"fu\">pairs.panels<\/span>(Zusammenhang)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-254-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Auch hier sehen wir, dass die beiden Pr\u00e4diktoren nur schwach korreliert sind.<\/p>\n<p><strong>Test auf Unabh\u00e4ngigkeit der Residuen<\/strong><\/p>\n<p>Eine weitere Voraussetzung ist die Unabh\u00e4ngigkeit der Residuen. Das bedeutet, dass die Residuen (Sch\u00e4tzfehler) nicht untereinander korrelieren sollten. Dies geschieht jedoch in der Praxis meist nur dann, wenn Zeitreihen vorliegen oder es sonst einen logischen Zusammenhang der Reihenfolge der Daten gibt.<\/p>\n<p>Um dies zu pr\u00fcfen, nutzen wir den Durbin-Watson-Test. Der Durbin-Watson-Test ist ein statistischer Test, der dazu dient, das Vorhandensein einer seriellen Korrelation (auch Autokorrelation genannt) in den Residuen eines linearen Regressionsmodells festzustellen. Eine serielle Korrelation liegt vor, wenn die Residuen eines Modells nicht unabh\u00e4ngig voneinander sind, was zu verzerrten und ineffizienten Sch\u00e4tzungen der Parameter des Modells f\u00fchren kann.<\/p>\n<p>Die Durbin-Watson-Teststatistik, die mit d bezeichnet wird, liegt zwischen 0 und 4. Ein Wert von 2 zeigt an, dass es keine serielle Korrelation in den Residuen gibt, w\u00e4hrend ein Wert von weniger als 2 auf eine positive serielle Korrelation hinweist (was bedeutet, dass auf Residuen mit gr\u00f6\u00dferen Gr\u00f6\u00dfen tendenziell Residuen mit \u00e4hnlichen Gr\u00f6\u00dfen folgen), und ein Wert von mehr als 2 auf eine negative serielle Korrelation hinweist (was bedeutet, dass auf Residuen mit gr\u00f6\u00dferen Gr\u00f6\u00dfen tendenziell Residuen mit entgegengesetzten Vorzeichen folgen). Grunds\u00e4tzlich sollte der Test also nicht signifikant werden und die Pruefstatistik sollte relativ nahe an 2 liegen.<\/p>\n<p>In R k\u00f6nnen Sie den Durbin-Watson-Test mit der Funktion <em>durbinWatsonTest()<\/em> aus dem Paket <em>car<\/em> durchf\u00fchren.<\/p>\n<div id=\"cb219\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb219-1\"><span class=\"fu\">durbinWatsonTest<\/span>(lm4)  <\/span>\r\n<span id=\"cb219-2\"><span class=\"do\">##  lag Autocorrelation D-W Statistic p-value<\/span><\/span>\r\n<span id=\"cb219-3\"><span class=\"do\">##    1      0.02084141      1.951871   0.796<\/span><\/span>\r\n<span id=\"cb219-4\"><span class=\"do\">##  Alternative hypothesis: rho != 0<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>In diesem Fall liegt also keine Autokorrelation vor und wir k\u00f6nnen mit der Interpretation fortfahren.<\/p>\n<\/div>\n<div id=\"modellvergleich\" class=\"section level2 hasAnchor\">\n<h1>Modellvergleich<\/h1>\n<p>Grunds\u00e4tzlich gilt beim multiplen Regressionsmodell das Gesetz der Sparsamkeit. Das bedeutet, dass nur weiter Pr\u00e4diktoren in ein Modell aufgenommen werden sollten, wenn diese die Vorhersage des Modells auch signifikant verbessern. Um dies zu testen, kann man f\u00fcr die Aufnahme jedes Faktors einen Modellvergleich machen, um festzustellen, ob das Modell mit dem zus\u00e4tzlichen Pr\u00e4diktor eine signifikant bessere Vorhersage macht.<\/p>\n<p>Dies k\u00f6nnen wir auch auf unser Beispiel von oben anwenden. Die Frage w\u00e4re hier zum Beispiel: Bringt das multiple Modell mit zwei Pr\u00e4diktoren eine bessere Vorhersage, als wenn ich die Lebenszufriedenheit aus der Zufriedenheit mit der Partnerschafft alleine vorhersage?<\/p>\n<p>Wer erstellen dazu ein \u201cKonkurrenz-Modell\u201d mit nur einem Pr\u00e4diktor und nennen es \u201clm5\u201d.<\/p>\n<div id=\"cb220\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb220-1\">lm5<span class=\"ot\">&lt;-<\/span> <span class=\"fu\">lm<\/span>(F21_01_Zufriedenheit_Leben <span class=\"sc\">~<\/span> F21_03_Zufriedenheit_Partnerschaft, <span class=\"at\">data=<\/span>data_multi)<\/span>\r\n<span id=\"cb220-2\"><span class=\"fu\">summary<\/span>(lm5)<\/span>\r\n<span id=\"cb220-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb220-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb220-5\"><span class=\"do\">## lm(formula = F21_01_Zufriedenheit_Leben ~ F21_03_Zufriedenheit_Partnerschaft, <\/span><\/span>\r\n<span id=\"cb220-6\"><span class=\"do\">##     data = data_multi)<\/span><\/span>\r\n<span id=\"cb220-7\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb220-8\"><span class=\"do\">## Residuals:<\/span><\/span>\r\n<span id=\"cb220-9\"><span class=\"do\">##     Min      1Q  Median      3Q     Max <\/span><\/span>\r\n<span id=\"cb220-10\"><span class=\"do\">## -3.1857 -0.1857  0.0439  0.2736  1.2736 <\/span><\/span>\r\n<span id=\"cb220-11\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb220-12\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb220-13\"><span class=\"do\">##                                    Estimate Std. Error t value<\/span><\/span>\r\n<span id=\"cb220-14\"><span class=\"do\">## (Intercept)                         3.03747    0.31498   9.643<\/span><\/span>\r\n<span id=\"cb220-15\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft  0.22965    0.08036   2.858<\/span><\/span>\r\n<span id=\"cb220-16\"><span class=\"do\">##                                               Pr(&gt;|t|)    <\/span><\/span>\r\n<span id=\"cb220-17\"><span class=\"do\">## (Intercept)                        0.00000000000000241 ***<\/span><\/span>\r\n<span id=\"cb220-18\"><span class=\"do\">## F21_03_Zufriedenheit_Partnerschaft             0.00535 ** <\/span><\/span>\r\n<span id=\"cb220-19\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb220-20\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span>\r\n<span id=\"cb220-21\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb220-22\"><span class=\"do\">## Residual standard error: 0.7379 on 86 degrees of freedom<\/span><\/span>\r\n<span id=\"cb220-23\"><span class=\"do\">## Multiple R-squared:  0.08673,    Adjusted R-squared:  0.07611 <\/span><\/span>\r\n<span id=\"cb220-24\"><span class=\"do\">## F-statistic: 8.167 on 1 and 86 DF,  p-value: 0.00535<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Wir sehen, dass das Modell mit 2 Pr\u00e4diktoren (oben) eine h\u00f6here aufgekl\u00e4rte Varianz hat als dieses Modell (R2 0,14 vs 0,08). Da wir jedoch grunds\u00e4tzlich sparsam sein sollten bei der Aufnahme weiterer Pr\u00e4diktoren, pr\u00fcfen wir nun, ob der Zugewinn an Varianz auch statistisch signifikant ist. Hierf\u00fcr f\u00fchren wir eine hierarchische Regression mit beiden Modellen durch. Dazu k\u00f6nnen wir die <em>anova()<\/em> Funktion nutzen, in die wir die zu vergleichenden Modelle eintragen. Der Syntax lautet dabei<\/p>\n<p>anova(model1, model2)<\/p>\n<p>Das Ergebnis F-Wert und den zugeh\u00f6rigen p-Wert f\u00fcr den Test der Nullhypothese, dass es keinen Unterschied in den Modellen gibt. Wenn der p-Wert kleiner ist als das von Ihnen gew\u00e4hlte Signifikanzniveau (z. B. 0,05), k\u00f6nnen Sie daraus schlie\u00dfen, dass ein signifikanter Unterschied zwischen den Modellen besteht.<\/p>\n<p>Also in unserem Fall:<\/p>\n<div id=\"cb221\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb221-1\"><span class=\"fu\">anova<\/span>(lm5,lm4)<\/span>\r\n<span id=\"cb221-2\"><span class=\"do\">## Analysis of Variance Table<\/span><\/span>\r\n<span id=\"cb221-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb221-4\"><span class=\"do\">## Model 1: F21_01_Zufriedenheit_Leben ~ F21_03_Zufriedenheit_Partnerschaft<\/span><\/span>\r\n<span id=\"cb221-5\"><span class=\"do\">## Model 2: F21_01_Zufriedenheit_Leben ~ F21_02_Zufriedenheit_Studium + F21_03_Zufriedenheit_Partnerschaft<\/span><\/span>\r\n<span id=\"cb221-6\"><span class=\"do\">##   Res.Df    RSS Df Sum of Sq     F   Pr(&gt;F)   <\/span><\/span>\r\n<span id=\"cb221-7\"><span class=\"do\">## 1     86 46.826                               <\/span><\/span>\r\n<span id=\"cb221-8\"><span class=\"do\">## 2     85 43.096  1    3.7296 7.356 0.008088 **<\/span><\/span>\r\n<span id=\"cb221-9\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb221-10\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Die ANOVA wird signifikant und sagt uns damit, dass der Zugewinn an aufgekl\u00e4rter Varianz statistisch signifikant ist. Wir sollten daher mit dem multiplen Modell mit zwei Pr\u00e4diktoren weiter arbeiten.<\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/2H1XWULNbCw\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-19\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Wir nutzen wieder den Prestige Datensatz. Wir wollen nun das Einkommen \u00b4(\u201cincome\u201d) wieder aus dem Bildungsgrad (\u201ceducation\u201d) vorhersagen, wollen aber als<br \/>\nweitere Pr\u00e4diktoren das Prestige (\u201cprestige\u201d) des Jobs und den Frauenanteil (\u201cwomen\u201d) im Job dazunehmen. Erzeugen Sie das Regressionsmodell.<\/p>\n<ul>\n<li>Wie hat sich der \u201cGoodness of Fit\u201d des Modells ver\u00e4ndert?<\/li>\n<li>Wie interpretieren Sie die Regressionsgewichte?<\/li>\n<\/ul>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" srcset=\"https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png 900w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-300x192.png 300w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-768x492.png 768w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-65x42.png 65w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-225x144.png 225w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-350x224.png 350w\" sizes=\"(max-width: 900px) 100vw, 900px\" \/><\/a>\n<\/div>\n","protected":false},"author":1,"menu_order":11,"template":"","meta":{"pb_show_title":"on","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":1725,"_links":{"self":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1774"}],"collection":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":3,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1774\/revisions"}],"predecessor-version":[{"id":1833,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1774\/revisions\/1833"}],"part":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/parts\/1725"}],"metadata":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1774\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/media?parent=1774"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapter-type?post=1774"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/contributor?post=1774"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/license?post=1774"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}