{"id":1772,"date":"2023-04-12T14:53:51","date_gmt":"2023-04-12T12:53:51","guid":{"rendered":"http:\/\/statistikgrundlagen.de\/ebook\/?post_type=chapter&#038;p=1772"},"modified":"2023-04-12T21:10:45","modified_gmt":"2023-04-12T19:10:45","slug":"einfache-lineare-regression-mit-r","status":"publish","type":"chapter","link":"https:\/\/statistikgrundlagen.de\/ebook\/chapter\/einfache-lineare-regression-mit-r\/","title":{"rendered":"Einfache lineare Regression mit R"},"content":{"raw":"<h1>Einfache lineare Regression<\/h1>\r\nDas Ziel der bivariaten linearen Regression ist es, die am besten passende Linie oder Regressionsgerade zu finden, die die Beziehung zwischen den beiden Variablen beschreibt. Die Regressionsgerade dient zur Vorhersage des Wertes einer Variablen auf der Grundlage des Wertes einer anderen Variablen. Hierbei werden die beiden Variablen als Pr\u00e4diktor bzw. unabh\u00e4ngige Variable und als Kriterium bzw. abh\u00e4ngige Variable bezeichnet.\r\n\r\nDie Gleichung f\u00fcr eine bivariate lineare Regressionsgerade ist\r\n\r\ny = b0 + b1 * x\r\n\r\nwobei y die abh\u00e4ngige Variable, x die unabh\u00e4ngige Variable, b0 der y-Achsenabschnitt und b1 die Steigung der Linie ist. Die Steigung b1 gibt die \u00c4nderung von y bei einer \u00c4nderung von x um eine Einheit an, w\u00e4hrend der y-Achsenabschnitt b0 den Wert von y darstellt, wenn x gleich Null ist.\r\n\r\nUm die beste Anpassungslinie (Regressionsgerade) zu ermitteln, wird die Methode der kleinsten Quadrate verwendet. Mit dieser Methode wird die Linie gefunden, die die Summe der quadrierten Differenzen zwischen den vorhergesagten Werten von y und den tats\u00e4chlichen Werten von y minimiert. Die Werte von b0 und b1, die diese Summe minimieren, gelten als die besten Sch\u00e4tzungen f\u00fcr die wahren Werte dieser Parameter. Anders ausgedr\u00fcckt ist dies auch die Linie, die den geringsten (quadrierten) Abstand zu allen Punkten im Streudiagramm hat.\r\n\r\nSobald die beste Regressionsgerade bestimmt wurde, kann sie verwendet werden, um Vorhersagen \u00fcber die abh\u00e4ngige Variable auf der Grundlage neuer Werte der unabh\u00e4ngigen Variable zu treffen. Dazu setzt man den neuen Wert von x in die Gleichung f\u00fcr die Regressionsgerade ein und l\u00f6st f\u00fcr y auf. Die Bestimmung der Regressionsgerade als auch die Vorhersage \u00fcbernimmt nat\u00fcrlich R f\u00fcr uns.\r\n<div id=\"vorbereitungen\" class=\"section level2 hasAnchor\">\r\n<h1>Vorbereitungen<\/h1>\r\nZun\u00e4chst laden wir die f\u00fcr dieses Kapitel notwendigen Pakete\r\n<div id=\"cb200\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb200-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb200-2\"><span class=\"fu\">library<\/span>(Hmisc)<\/span>\r\n<span id=\"cb200-3\"><span class=\"fu\">library<\/span>(car)<\/span><\/code><\/pre>\r\n<\/div>\r\nWissenschaftliche Notation ausschalten (damit f\u00e4llt es uns leichter den Output zu interpretieren, da Nachkommastellen nicht umgewandelt werden).\r\n<div id=\"cb201\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb201-1\"><span class=\"fu\">options<\/span>(<span class=\"at\">scipen =<\/span> <span class=\"dv\">999<\/span>)<\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"daten-vorbereiten\" class=\"section level2 hasAnchor\">\r\n<h1>Daten vorbereiten<\/h1>\r\nWir starten mit einem einfachen Beispiel: L\u00e4sst sich die Koerpergroesse aus der Schuhgroesse vorhersagen?\r\n\r\nWir laden unseren WPStudis Datensatz und erstellen zun\u00e4chst ein Subset mit den relevanten Variablen und schlie\u00dfen NAs aus, da fehlende Werte (NAs) zu einer Fehlermeldung bei der Berechnung der Regressionsgerade f\u00fchren.\r\n<div id=\"cb202\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb202-1\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.Rdata\"<\/span>)<\/span>\r\n<span id=\"cb202-2\">data_lm <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">na.omit<\/span>(WPStudis[<span class=\"fu\">c<\/span>(<span class=\"st\">\"F1_Nummer\"<\/span>, <span class=\"st\">\"F4_Koerpergroesse\"<\/span>,<span class=\"st\">\"F5_Schuhgroesse\"<\/span>,<span class=\"st\">\"F2_Alter\"<\/span>, <span class=\"st\">\"F3_Geschlecht\"<\/span>)])<\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"modell-erstellen\" class=\"section level2 hasAnchor\">\r\n<h1>Modell erstellen<\/h1>\r\nIn R kann eine bivariate lineare Regression mit der Funktion <em>lm()<\/em> durchgef\u00fchrt werden, was f\u00fcr \u201clineares Modell\u201d steht. Die grundlegende Syntax f\u00fcr diese Funktion lautet wie folgt:\r\n\r\nlm(y ~ x, Daten)\r\n\r\nwobei y der Name des Kriteriums bzw. der abh\u00e4ngigen Variable ist und x der Name des Pr\u00e4diktors bzw. der unabh\u00e4ngigen Variablen. Durch die Funktion wird ein lineares Modellobjekt namens erstellt, das die Koeffizienten und andere Informationen \u00fcber die Regression enth\u00e4lt. Dieses speichern wir unter einem neuen Objektnamen ab, den Sie nat\u00fcrlich frei w\u00e4hlen k\u00f6nnen. Wir nennen dieses nun \u201clm1\u201d, der Syntax sieht dann wie folgt aus:\r\n<div id=\"cb203\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb203-1\">lm1<span class=\"ot\">&lt;-<\/span> <span class=\"fu\">lm<\/span>(F4_Koerpergroesse <span class=\"sc\">~<\/span> F5_Schuhgroesse, <span class=\"at\">data=<\/span>data_lm)  <\/span>\r\n<span id=\"cb203-2\">lm1<\/span>\r\n<span id=\"cb203-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb203-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb203-5\"><span class=\"do\">## lm(formula = F4_Koerpergroesse ~ F5_Schuhgroesse, data = data_lm)<\/span><\/span>\r\n<span id=\"cb203-6\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb203-7\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb203-8\"><span class=\"do\">##     (Intercept)  F5_Schuhgroesse  <\/span><\/span>\r\n<span id=\"cb203-9\"><span class=\"do\">##          93.425            1.936<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"interpretation\" class=\"section level2 hasAnchor\">\r\n<h1>Interpretation<\/h1>\r\nAus den beiden Werten l\u00e4sst sich die Regressionsgleichung (also die Formel f\u00fcr eine Vorhersage) ableiten. Intercept entspricht b0, also der Konstante oder auch dem Punkt, an dem die Gerade die y-Achse schneidet. Der Wert unter \u201cF5_Schuhgroesse\u201d entspricht b1, also dem Regressionsgewicht oder auch der Steigung der Geraden.\r\n\r\nDie resultierende Regressionsgleichung ist nun also:\r\n\r\ny (K\u00f6rpergr\u00f6\u00dfe) = 93,43 + 1,94 * x (Schuhgr\u00f6\u00dfe).\r\n\r\nTesten Sie doch mal f\u00fcr Ihre Schuhgr\u00f6\u00dfe, wie gut diese Vorhersage funktioniert. Der Wert 1,94 ist die Steigung der Regressionsgerade und sagt uns daher, wie der Zusammenhang verl\u00e4uft. Da dieser Verlauf jedoch stark von der zugrundeliegeneden Skala abh\u00e4ngt, k\u00f6nnen wir diesen auch standardisieren. Die standardisierten Koeffizienten (= betas) k\u00f6nnen mit der <em>scale<\/em>-Funktion ausgegeben werden:\r\n<div id=\"cb204\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb204-1\">lm2<span class=\"ot\">&lt;-<\/span> <span class=\"fu\">lm<\/span>(<span class=\"fu\">scale<\/span>(F4_Koerpergroesse) <span class=\"sc\">~<\/span> <span class=\"fu\">scale<\/span>(F5_Schuhgroesse), <span class=\"at\">data=<\/span>data_lm) <\/span>\r\n<span id=\"cb204-2\">lm2<\/span>\r\n<span id=\"cb204-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb204-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb204-5\"><span class=\"do\">## lm(formula = scale(F4_Koerpergroesse) ~ scale(F5_Schuhgroesse), <\/span><\/span>\r\n<span id=\"cb204-6\"><span class=\"do\">##     data = data_lm)<\/span><\/span>\r\n<span id=\"cb204-7\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb204-8\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb204-9\"><span class=\"do\">##            (Intercept)  scale(F5_Schuhgroesse)  <\/span><\/span>\r\n<span id=\"cb204-10\"><span class=\"do\">## -0.0000000000000005575   0.7230085486694098895<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nWas bedeutet der standardisierte Koeffizient \/ beta Wert bei der bivariaten Regression?\r\nGrunds\u00e4tzlich helfen standardisierte Koeffizienten (beta Werte) bei der Interpretation, da sie unabh\u00e4ngig von der zugrunde liegenden Skala interpretierbar sind. Bei der bivariaten Regression entspricht der Wert dem Korrelationskoeffizienten und sagt uns daher, wie stark der Zusammenhang ist (unabh\u00e4ngig von der Skala).\r\n\r\nZum Vergleich k\u00f6nnen wir die Korrelation der beiden Variablen berechnen.\r\n<div id=\"cb205\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb205-1\"> <span class=\"fu\">cor<\/span>(data_lm<span class=\"sc\">$<\/span>F4_Koerpergroesse,data_lm<span class=\"sc\">$<\/span>F5_Schuhgroesse)<\/span>\r\n<span id=\"cb205-2\"><span class=\"do\">## [1] 0.7230085<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"signifikanztests-und-g\u00fctema\u00dfe\" class=\"section level2 hasAnchor\">\r\n<h1>Signifikanztests und G\u00fctema\u00dfe<\/h1>\r\nWie gut ist die Vorhersage f\u00fcr Ihre pers\u00f6nliche K\u00f6rpergr\u00f6\u00dfe? Um diese Frage zu beantworten, ben\u00f6tigen wir Signifikanztests f\u00fcr die Regressionskoeffizienten und G\u00fctema\u00dfe f\u00fcr das Regressionsmodell.\r\n\r\nDie Funktion <em>summary()<\/em> liefert eine detaillierte Zusammenfassung des linearen Modellobjekts, das mit der Funktion <em>lm()<\/em> erstellt wurde.\r\n<div id=\"cb206\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb206-1\"><span class=\"fu\">summary<\/span>(lm1)<\/span>\r\n<span id=\"cb206-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb206-3\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb206-4\"><span class=\"do\">## lm(formula = F4_Koerpergroesse ~ F5_Schuhgroesse, data = data_lm)<\/span><\/span>\r\n<span id=\"cb206-5\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb206-6\"><span class=\"do\">## Residuals:<\/span><\/span>\r\n<span id=\"cb206-7\"><span class=\"do\">##      Min       1Q   Median       3Q      Max <\/span><\/span>\r\n<span id=\"cb206-8\"><span class=\"do\">## -28.2497  -3.0276   0.1153   3.0041  15.1153 <\/span><\/span>\r\n<span id=\"cb206-9\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb206-10\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb206-11\"><span class=\"do\">##                 Estimate Std. Error t value             Pr(&gt;|t|)<\/span><\/span>\r\n<span id=\"cb206-12\"><span class=\"do\">## (Intercept)       93.425      7.735  12.078 &lt; 0.0000000000000002<\/span><\/span>\r\n<span id=\"cb206-13\"><span class=\"do\">## F5_Schuhgroesse    1.937      0.195   9.929 0.000000000000000402<\/span><\/span>\r\n<span id=\"cb206-14\"><span class=\"do\">##                    <\/span><\/span>\r\n<span id=\"cb206-15\"><span class=\"do\">## (Intercept)     ***<\/span><\/span>\r\n<span id=\"cb206-16\"><span class=\"do\">## F5_Schuhgroesse ***<\/span><\/span>\r\n<span id=\"cb206-17\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb206-18\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span>\r\n<span id=\"cb206-19\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb206-20\"><span class=\"do\">## Residual standard error: 5.394 on 90 degrees of freedom<\/span><\/span>\r\n<span id=\"cb206-21\"><span class=\"do\">## Multiple R-squared:  0.5227, Adjusted R-squared:  0.5174 <\/span><\/span>\r\n<span id=\"cb206-22\"><span class=\"do\">## F-statistic: 98.58 on 1 and 90 DF,  p-value: 0.000000000000000402<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nDie Zusammenfassung enth\u00e4lt in der Regel die folgenden Informationen:\r\n\r\nCall: Gibt das Modell an, das verwendet wurde, einschlie\u00dflich des Namens der abh\u00e4ngigen Variable, der unabh\u00e4ngigen Variable(n) und der verwendeten Daten.\r\n\r\nResiduen: Die Residuen des Modells, d.\u00a0h. die Differenzen zwischen den beobachteten Werten der abh\u00e4ngigen Variablen und den vorhergesagten Werten der abh\u00e4ngigen Variablen. Die Zusammenfassung enth\u00e4lt die Standardabweichung der Residuen, die ein Ma\u00df f\u00fcr die Streuung der Residuen um den Mittelwert ist, sowie die minimalen und maximalen Residuenwerte.\r\n\r\nKoeffizienten: Die Koeffizienten des Modells, d.\u00a0h. die Sch\u00e4tzungen der Parameter der Regressionsgeraden. Die Tabelle enth\u00e4lt die Sch\u00e4tzungen der Koeffizienten, ihre Standardfehler, t-Werte und p-Werte.\r\n\r\nR-Quadrat: Das Bestimmtheitsma\u00df (auch Determinationskoeffizient) ist ein Ma\u00df f\u00fcr den Anteil der Variation in der abh\u00e4ngigen Variable, der durch die unabh\u00e4ngige Variable erkl\u00e4rt wird. Es reicht von 0 bis 1, und kann in Prozent interpretiert werden. So kann ein Wert von 0,4 so interpretiert werden, dass 40 % der Variation der abh\u00e4ngigen Variablen durch die unabh\u00e4ngigen Variablen erkl\u00e4rt wird.\r\n\r\nF-Statistik: Die F-Statistik und ihr zugeh\u00f6riger p-Wert, der pr\u00fcft, ob das lineare Modell insgesamt signifikant ist.\r\n\r\nSignifikanz-Codes: Ein Code, der das Signifikanzniveau der Koeffizienten angibt. Ein Code von \u201c***\u201d bedeutet zum Beispiel, dass der Koeffizient auf dem Niveau von 0,001 signifikant ist.\r\n\r\nIn diesem Fall sehen wir, dass die Schuhgr\u00f6\u00dfe ein signifikanter Pr\u00e4diktor f\u00fcr die K\u00f6rpergr\u00f6\u00dfe ist (p &lt; .000). Ausserdem erhalten wir den Determinationskoeffizienten R2 von 0,51 (korrigierten Wert nehmen). Wir k\u00f6nnen also sagen, dass wir 51 % der Varianz in der K\u00f6rpergr\u00f6\u00dfe durch die Schuhgr\u00f6\u00dfe vorhersagen k\u00f6nnen. Des Weiteren erhalten wir einen F-Wert, hier 98 (1,90), den wir inhaltlich nicht interpretieren k\u00f6nnen (sollte jedoch gr\u00f6\u00dfer 1 sein).\r\n\r\nDie einzelnen Komponenten des lm-Objekts lassen sich auch einzeln auslesen:\r\n<div id=\"cb207\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb207-1\"><span class=\"fu\">coefficients<\/span>(lm1)  <span class=\"co\">#Modelkoeffizienten<\/span><\/span>\r\n<span id=\"cb207-2\"><span class=\"do\">##     (Intercept) F5_Schuhgroesse <\/span><\/span>\r\n<span id=\"cb207-3\"><span class=\"do\">##       93.425002        1.936493<\/span><\/span>\r\n<span id=\"cb207-4\"><span class=\"fu\">confint<\/span>(lm1, <span class=\"at\">level=<\/span><span class=\"fl\">0.95<\/span>)  <span class=\"co\">#Konfidenzintervalle<\/span><\/span>\r\n<span id=\"cb207-5\"><span class=\"do\">##                     2.5 %     97.5 %<\/span><\/span>\r\n<span id=\"cb207-6\"><span class=\"do\">## (Intercept)     78.057622 108.792382<\/span><\/span>\r\n<span id=\"cb207-7\"><span class=\"do\">## F5_Schuhgroesse  1.549008   2.323979<\/span><\/span>\r\n<span id=\"cb207-8\"><span class=\"fu\">residuals<\/span>(lm1)  <span class=\"co\">#Residuen<\/span><\/span>\r\n<span id=\"cb207-9\"><span class=\"do\">##            1            2            3            4            5 <\/span><\/span>\r\n<span id=\"cb207-10\"><span class=\"do\">##  -7.94824817   9.11525833  -1.01175467 -28.24967664   3.05175183 <\/span><\/span>\r\n<span id=\"cb207-11\"><span class=\"do\">##            6            7            8            9           10 <\/span><\/span>\r\n<span id=\"cb207-12\"><span class=\"do\">##   0.05175183   0.92473882   2.05175183  -5.07526118   5.11525833 <\/span><\/span>\r\n<span id=\"cb207-13\"><span class=\"do\">##           11           12           13           14           15 <\/span><\/span>\r\n<span id=\"cb207-14\"><span class=\"do\">##  -2.07526118  -1.94824817   5.17876484  -5.94824817   4.92473882 <\/span><\/span>\r\n<span id=\"cb207-15\"><span class=\"do\">##           16           17           18           19           20 <\/span><\/span>\r\n<span id=\"cb207-16\"><span class=\"do\">##  -3.13876768  -3.69422216   4.05175183  -7.01175467   0.49629735 <\/span><\/span>\r\n<span id=\"cb207-17\"><span class=\"do\">##           21           22           23           24           25 <\/span><\/span>\r\n<span id=\"cb207-18\"><span class=\"do\">##  -3.94824817  -1.07526118   7.05175183  -2.88474167   0.11525833 <\/span><\/span>\r\n<span id=\"cb207-19\"><span class=\"do\">##           26           27           28           29           31 <\/span><\/span>\r\n<span id=\"cb207-20\"><span class=\"do\">##  -3.01175467  -0.94824817   1.98824533   2.92473882   2.92473882 <\/span><\/span>\r\n<span id=\"cb207-21\"><span class=\"do\">##           32           33           34           35           36 <\/span><\/span>\r\n<span id=\"cb207-22\"><span class=\"do\">##   2.43279085  -8.07526118   0.11525833   6.05175183   3.92473882 <\/span><\/span>\r\n<span id=\"cb207-23\"><span class=\"do\">##           37           38           39           40           41 <\/span><\/span>\r\n<span id=\"cb207-24\"><span class=\"do\">##   1.98824533   2.49629735   8.30577784  -0.88474167   1.05175183 <\/span><\/span>\r\n<span id=\"cb207-25\"><span class=\"do\">##           42           43           44           45           46 <\/span><\/span>\r\n<span id=\"cb207-26\"><span class=\"do\">##  -1.82123516   0.17876484   4.49629735  -3.13876768  -3.13876768 <\/span><\/span>\r\n<span id=\"cb207-27\"><span class=\"do\">##           47           48           49           50           51 <\/span><\/span>\r\n<span id=\"cb207-28\"><span class=\"do\">##   1.86123232  -2.07526118   6.24227134   3.24227134  -1.01175467 <\/span><\/span>\r\n<span id=\"cb207-29\"><span class=\"do\">##           52           53           54           55           56 <\/span><\/span>\r\n<span id=\"cb207-30\"><span class=\"do\">##   6.11525833   1.92473882   0.30577784   5.11525833   6.05175183 <\/span><\/span>\r\n<span id=\"cb207-31\"><span class=\"do\">##           57           58           59           60           61 <\/span><\/span>\r\n<span id=\"cb207-32\"><span class=\"do\">##   1.36928434   5.30577784   5.05175183  -3.07526118  -0.94824817 <\/span><\/span>\r\n<span id=\"cb207-33\"><span class=\"do\">##           62           63           64           65           66 <\/span><\/span>\r\n<span id=\"cb207-34\"><span class=\"do\">##   1.11525833  -2.82123516  -0.56720915   2.43279085  -1.82123516 <\/span><\/span>\r\n<span id=\"cb207-35\"><span class=\"do\">##           67           68           69           70           71 <\/span><\/span>\r\n<span id=\"cb207-36\"><span class=\"do\">##  -3.13876768  -0.94824817  -1.07526118  -0.63071566   0.62331035 <\/span><\/span>\r\n<span id=\"cb207-37\"><span class=\"do\">##           72           73           74           75           76 <\/span><\/span>\r\n<span id=\"cb207-38\"><span class=\"do\">##  -1.94824817  -2.07526118   4.36928434  15.11525833  -1.01175467 <\/span><\/span>\r\n<span id=\"cb207-39\"><span class=\"do\">##           77           78           79           80           81 <\/span><\/span>\r\n<span id=\"cb207-40\"><span class=\"do\">##   7.11525833  -5.88474167   2.05175183  -7.01175467   3.92473882 <\/span><\/span>\r\n<span id=\"cb207-41\"><span class=\"do\">##           82           83           84           85           86 <\/span><\/span>\r\n<span id=\"cb207-42\"><span class=\"do\">##  -3.13876768  -4.01175467  -4.01175467  -8.07526118  -3.94824817 <\/span><\/span>\r\n<span id=\"cb207-43\"><span class=\"do\">##           87           88           89           90           91 <\/span><\/span>\r\n<span id=\"cb207-44\"><span class=\"do\">## -10.07526118  -3.88474167   2.98824533  -7.07526118   1.11525833 <\/span><\/span>\r\n<span id=\"cb207-45\"><span class=\"do\">##           92           93 <\/span><\/span>\r\n<span id=\"cb207-46\"><span class=\"do\">##   0.92473882   9.92473882<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<\/div>\r\n<div id=\"voraussetzung-pr\u00fcfen\" class=\"section level2 hasAnchor\">\r\n<h1>Voraussetzung pr\u00fcfen<\/h1>\r\nWas wir aber eigentlich vor der Regression machen sollten, ist die Voraussetzung f\u00fcr die Regression zu pr\u00fcfen.\r\n\r\nDie wesentlichen Voraussetzungen f\u00fcr die lineare Regression sind:\r\n<ol style=\"list-style-type: decimal;\">\r\n \t<li>Korrekte Spezifikation des Modells<\/li>\r\n \t<li>Normalverteilung der Residuen<\/li>\r\n \t<li>Homoskedastizit\u00e4t<\/li>\r\n \t<li>Ausrei\u00dfer und einflussreiche Datenpunkte<\/li>\r\n<\/ol>\r\nBei multipler Regression (also bei mehr als einem Pr\u00e4diktor) gelten zus\u00e4tzlich folgende Voraussetzungen:\r\n<ol style=\"list-style-type: decimal;\" start=\"5\">\r\n \t<li>Multikollinearit\u00e4t<\/li>\r\n \t<li>Unabh\u00e4ngigkeit der Residuen<\/li>\r\n<\/ol>\r\n\u00dcber Plots lassen sich die Voraussetzungen 1 bis 4 relativ einfach visuell pr\u00fcfen, hierzu wenden wir die Funktion <em>plot()<\/em> auf das Modell an. In diesem Fall werden uns vier Grafiken ausgegeben. Wenn Sie alle 4 Graphen auf einer Seite sehen wollen, k\u00f6nnen Sie mit <em>par(mfrow=c(2,2))<\/em> die Anzeige des Plot-Fensters auf vier Grafiken einstellen (2 nebeneinander, 2 \u00fcbereinander). Dies k\u00f6nnen Sie \u00fcber <em>dev.off()<\/em> wieder zur\u00fccksetzen.\r\n<div id=\"cb208\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb208-1\"><span class=\"fu\">par<\/span>(<span class=\"at\">mfrow=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">2<\/span>,<span class=\"dv\">2<\/span>)) <\/span>\r\n<span id=\"cb208-2\"><span class=\"fu\">plot<\/span>(lm1)<\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-242-1.png\" width=\"672\" \/>\r\n\r\nErkl\u00e4rung der Plots:\r\n- Residuals vs.\u00a0Fitted: Testet Voraussetzung 1 - Die Werte sollen unsystematisch verteilt und die rote (Lowess-Linie) m\u00f6glichst parallel zur x-Achse verlaufen\r\n- Normal-Q-Q: Testet Voraussetzung 2 - Normalverteilte Residuen sollten relativ nah auf der Diagonalen liegen\r\n- Scale-Location-Diagram: Testet Voraussetzung 3 - Homoskedastizit\u00e4t ist gegeben bei unsystematischer Verteilung der Residuen. Insbesondere sollten wir hier darauf achten, dass die Residuen nicht \u201ctrichterartig\u201d in die eine oder andere Richtung zunehmen.\r\n- Residuals vs.\u00a0Leverage: Testet Voraussetzung 4 - Diese Darstellung zeigt uns die Ausreiser, besonders kritisch sind dabei alle Werte, die ausserhalb von Cooks Distance liegen (gepunktete Linie). Die Ziffern neben den Punkten sind die Zeilennummern in den Daten. Wir sollten uns also die angezeigte Zeilennummer 4 in den Daten nochmal ansehen und den Wert ggf. aussschlie\u00dfen.\r\n\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/crNL5q3mMA0\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-16\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nWir haben uns entschlossen, den Outlier in Zeile 4 rauszunehmen. Rechnen Sie die Analysen nochmal ohne diesen Wert durch. Was hat sich ver\u00e4ndert?\r\n\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n\r\n<\/div>\r\n<div id=\"scatterplot-mit-regressionsgerade\" class=\"section level2 hasAnchor\">\r\n<h1>Scatterplot mit Regressionsgerade<\/h1>\r\nWir wollen zum Abschluss die Regression noch grafisch in einem Streudiagramm darstellen.\r\n<div id=\"cb209\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb209-1\"><span class=\"fu\">plot<\/span>(data_lm<span class=\"sc\">$<\/span>F5_Schuhgroesse,data_lm<span class=\"sc\">$<\/span>F4_Koerpergroesse,<\/span>\r\n<span id=\"cb209-2\">     <span class=\"at\">ylab=<\/span><span class=\"st\">\"K\u00f6rpergroesse\"<\/span>,<\/span>\r\n<span id=\"cb209-3\">     <span class=\"at\">xlab=<\/span><span class=\"st\">\"Schuhgroesse\"<\/span>)<\/span>\r\n<span id=\"cb209-4\"><span class=\"fu\">abline<\/span>(lm1)  <span class=\"co\">#Einzeichnen der Regressionsgerade<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\n<img src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-244-1.png\" width=\"672\" \/>\r\n\r\n<\/div>\r\n<div id=\"vorhersagen-erstellen\" class=\"section level2 hasAnchor\">\r\n<h1>Vorhersagen erstellen<\/h1>\r\nWir k\u00f6nnen nun mit einem beliebigen Wert f\u00fcr Schuhgroesse, die Koerpergroesse vorhersagen. Hierzu nutzen wir die <em>predict()<\/em> Funktion. Sie ben\u00f6tigt zwei Hauptargumente: den Namen des Modellobjekts und die neuen Daten, f\u00fcr die Sie Vorhersagen machen m\u00f6chten.\r\n\r\nDie grundlegende Syntax f\u00fcr die Funktion predict() lautet wie folgt:\r\n\r\npredict(modell, newdata)\r\n\r\nDabei ist model der Name des linearen Modellobjekts, das mit der Funktion lm() erstellt wurde, und newdata ist ein dataframe, der die neuen Werte der unabh\u00e4ngigen Variablen enth\u00e4lt, f\u00fcr die Sie Vorhersagen treffen wollen. Daher m\u00fcssen wir f\u00fcr newdata immer die <em>data.frame<\/em> Funktion nutzen, auch wenn wir, wie in diesem Beispiel, nur einen einzelnen Vorhersagewert haben.\r\n\r\nWir wollen die Koerpergroesse f\u00fcr eine Person mit Schuhgroesse 42 vorhersagen. Sie k\u00f6nnen den Wert 42 dabei gerne auf Ihre Schuhgroesse anpassen und sehen, welche Vorhersage das Modell f\u00fcr Sie treffen w\u00fcrde.\r\n<div id=\"cb210\" class=\"sourceCode\">\r\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb210-1\"><span class=\"fu\">predict<\/span>(lm1, <span class=\"fu\">data.frame<\/span>(<span class=\"at\">F5_Schuhgroesse=<\/span><span class=\"dv\">42<\/span>))<\/span>\r\n<span id=\"cb210-2\"><span class=\"do\">##        1 <\/span><\/span>\r\n<span id=\"cb210-3\"><span class=\"do\">## 174.7577<\/span><\/span><\/code><\/pre>\r\n<\/div>\r\nIn diesem Video zeige ich, wie das in R funktioniert:\r\n<div class=\"vembedr\" align=\"center\">\r\n<div><iframe src=\"https:\/\/www.youtube.com\/embed\/eYdpCD_NpTs\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\r\n<\/div>\r\n<\/div>\r\n<div id=\"\u00fcbung-17\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nWir nutzen das Data-Set \u201cPrestige\u201d aus dem Package car. Schauen Sie sich die Daten an und machen Sie sich damit vertraut (<em>?Prestige<\/em>)\r\n<ul>\r\n \t<li>K\u00f6nnen wir aufgrund der Bildung (Anzahl Jahre) das Einkommen ableiten?<\/li>\r\n \t<li>Wie lautet die Regressionsgerade? Wie interpretieren Sie den B-Koeffizient?<\/li>\r\n \t<li>Zeichnen Sie diese in den Scatterplot ein.<\/li>\r\n \t<li>Wie hoch ist, basierend auf Ihrem Modell, das vorhergesagte Einkommen bei 12 Jahren Bildung?<\/li>\r\n<\/ul>\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<a href=\"https:\/\/amzn.to\/3MLBUb8\"><img class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz1.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a>\r\n\r\n<\/div>\r\n<div id=\"\u00fcbung-18\" class=\"section level2 hasAnchor\">\r\n<h1>\u00dcbung<\/h1>\r\nWir nutzen das Data-Set \u201chappymoney\u201d. Hier sehen wir den Zusammenhang zwischen dem durchschnittlichen Verm\u00f6gen pro Einwohner verschiedener L\u00e4nder und dem Gl\u00fccksindex der Einwohner basierend auf dem World Happiness Report. (Quelle Global Wealth Book 2021 von Credit Suisse <a class=\"uri\" href=\"https:\/\/www.credit-suisse.com\/media\/assets\/corporate\/docs\/about-us\/research\/publications\/global-wealth-databook-2021.pdf\">https:\/\/www.credit-suisse.com\/media\/assets\/corporate\/docs\/about-us\/research\/publications\/global-wealth-databook-2021.pdf<\/a>)\r\n<ul>\r\n \t<li>K\u00f6nnen wir sagen, dass in L\u00e4ndern mit h\u00f6herem Pro-Kopf-Verm\u00f6gen auch die gl\u00fccklicheren Menschen wohnen? Stellen Sie den Zusammenhang in einem Streudiagramm dar und zeichnen Sie eine Regressionsgerade ein.<\/li>\r\n \t<li>Wieviel Euro h\u00f6heres Pro-Kopf-Verm\u00f6gen ist notwendig f\u00fcr eine Steigerung des Gl\u00fccksindex um 1 Punkt zu erreichen?<\/li>\r\n<\/ul>\r\nDie L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.\r\n\r\n<\/div>","rendered":"<h1>Einfache lineare Regression<\/h1>\n<p>Das Ziel der bivariaten linearen Regression ist es, die am besten passende Linie oder Regressionsgerade zu finden, die die Beziehung zwischen den beiden Variablen beschreibt. Die Regressionsgerade dient zur Vorhersage des Wertes einer Variablen auf der Grundlage des Wertes einer anderen Variablen. Hierbei werden die beiden Variablen als Pr\u00e4diktor bzw. unabh\u00e4ngige Variable und als Kriterium bzw. abh\u00e4ngige Variable bezeichnet.<\/p>\n<p>Die Gleichung f\u00fcr eine bivariate lineare Regressionsgerade ist<\/p>\n<p>y = b0 + b1 * x<\/p>\n<p>wobei y die abh\u00e4ngige Variable, x die unabh\u00e4ngige Variable, b0 der y-Achsenabschnitt und b1 die Steigung der Linie ist. Die Steigung b1 gibt die \u00c4nderung von y bei einer \u00c4nderung von x um eine Einheit an, w\u00e4hrend der y-Achsenabschnitt b0 den Wert von y darstellt, wenn x gleich Null ist.<\/p>\n<p>Um die beste Anpassungslinie (Regressionsgerade) zu ermitteln, wird die Methode der kleinsten Quadrate verwendet. Mit dieser Methode wird die Linie gefunden, die die Summe der quadrierten Differenzen zwischen den vorhergesagten Werten von y und den tats\u00e4chlichen Werten von y minimiert. Die Werte von b0 und b1, die diese Summe minimieren, gelten als die besten Sch\u00e4tzungen f\u00fcr die wahren Werte dieser Parameter. Anders ausgedr\u00fcckt ist dies auch die Linie, die den geringsten (quadrierten) Abstand zu allen Punkten im Streudiagramm hat.<\/p>\n<p>Sobald die beste Regressionsgerade bestimmt wurde, kann sie verwendet werden, um Vorhersagen \u00fcber die abh\u00e4ngige Variable auf der Grundlage neuer Werte der unabh\u00e4ngigen Variable zu treffen. Dazu setzt man den neuen Wert von x in die Gleichung f\u00fcr die Regressionsgerade ein und l\u00f6st f\u00fcr y auf. Die Bestimmung der Regressionsgerade als auch die Vorhersage \u00fcbernimmt nat\u00fcrlich R f\u00fcr uns.<\/p>\n<div id=\"vorbereitungen\" class=\"section level2 hasAnchor\">\n<h1>Vorbereitungen<\/h1>\n<p>Zun\u00e4chst laden wir die f\u00fcr dieses Kapitel notwendigen Pakete<\/p>\n<div id=\"cb200\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb200-1\"><span class=\"fu\">library<\/span>(psych)<\/span>\r\n<span id=\"cb200-2\"><span class=\"fu\">library<\/span>(Hmisc)<\/span>\r\n<span id=\"cb200-3\"><span class=\"fu\">library<\/span>(car)<\/span><\/code><\/pre>\n<\/div>\n<p>Wissenschaftliche Notation ausschalten (damit f\u00e4llt es uns leichter den Output zu interpretieren, da Nachkommastellen nicht umgewandelt werden).<\/p>\n<div id=\"cb201\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb201-1\"><span class=\"fu\">options<\/span>(<span class=\"at\">scipen =<\/span> <span class=\"dv\">999<\/span>)<\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"daten-vorbereiten\" class=\"section level2 hasAnchor\">\n<h1>Daten vorbereiten<\/h1>\n<p>Wir starten mit einem einfachen Beispiel: L\u00e4sst sich die Koerpergroesse aus der Schuhgroesse vorhersagen?<\/p>\n<p>Wir laden unseren WPStudis Datensatz und erstellen zun\u00e4chst ein Subset mit den relevanten Variablen und schlie\u00dfen NAs aus, da fehlende Werte (NAs) zu einer Fehlermeldung bei der Berechnung der Regressionsgerade f\u00fchren.<\/p>\n<div id=\"cb202\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb202-1\"><span class=\"fu\">load<\/span>(<span class=\"st\">\"WPStudis.Rdata\"<\/span>)<\/span>\r\n<span id=\"cb202-2\">data_lm <span class=\"ot\">&lt;-<\/span> <span class=\"fu\">na.omit<\/span>(WPStudis[<span class=\"fu\">c<\/span>(<span class=\"st\">\"F1_Nummer\"<\/span>, <span class=\"st\">\"F4_Koerpergroesse\"<\/span>,<span class=\"st\">\"F5_Schuhgroesse\"<\/span>,<span class=\"st\">\"F2_Alter\"<\/span>, <span class=\"st\">\"F3_Geschlecht\"<\/span>)])<\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"modell-erstellen\" class=\"section level2 hasAnchor\">\n<h1>Modell erstellen<\/h1>\n<p>In R kann eine bivariate lineare Regression mit der Funktion <em>lm()<\/em> durchgef\u00fchrt werden, was f\u00fcr \u201clineares Modell\u201d steht. Die grundlegende Syntax f\u00fcr diese Funktion lautet wie folgt:<\/p>\n<p>lm(y ~ x, Daten)<\/p>\n<p>wobei y der Name des Kriteriums bzw. der abh\u00e4ngigen Variable ist und x der Name des Pr\u00e4diktors bzw. der unabh\u00e4ngigen Variablen. Durch die Funktion wird ein lineares Modellobjekt namens erstellt, das die Koeffizienten und andere Informationen \u00fcber die Regression enth\u00e4lt. Dieses speichern wir unter einem neuen Objektnamen ab, den Sie nat\u00fcrlich frei w\u00e4hlen k\u00f6nnen. Wir nennen dieses nun \u201clm1\u201d, der Syntax sieht dann wie folgt aus:<\/p>\n<div id=\"cb203\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb203-1\">lm1<span class=\"ot\">&lt;-<\/span> <span class=\"fu\">lm<\/span>(F4_Koerpergroesse <span class=\"sc\">~<\/span> F5_Schuhgroesse, <span class=\"at\">data=<\/span>data_lm)  <\/span>\r\n<span id=\"cb203-2\">lm1<\/span>\r\n<span id=\"cb203-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb203-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb203-5\"><span class=\"do\">## lm(formula = F4_Koerpergroesse ~ F5_Schuhgroesse, data = data_lm)<\/span><\/span>\r\n<span id=\"cb203-6\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb203-7\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb203-8\"><span class=\"do\">##     (Intercept)  F5_Schuhgroesse  <\/span><\/span>\r\n<span id=\"cb203-9\"><span class=\"do\">##          93.425            1.936<\/span><\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"interpretation\" class=\"section level2 hasAnchor\">\n<h1>Interpretation<\/h1>\n<p>Aus den beiden Werten l\u00e4sst sich die Regressionsgleichung (also die Formel f\u00fcr eine Vorhersage) ableiten. Intercept entspricht b0, also der Konstante oder auch dem Punkt, an dem die Gerade die y-Achse schneidet. Der Wert unter \u201cF5_Schuhgroesse\u201d entspricht b1, also dem Regressionsgewicht oder auch der Steigung der Geraden.<\/p>\n<p>Die resultierende Regressionsgleichung ist nun also:<\/p>\n<p>y (K\u00f6rpergr\u00f6\u00dfe) = 93,43 + 1,94 * x (Schuhgr\u00f6\u00dfe).<\/p>\n<p>Testen Sie doch mal f\u00fcr Ihre Schuhgr\u00f6\u00dfe, wie gut diese Vorhersage funktioniert. Der Wert 1,94 ist die Steigung der Regressionsgerade und sagt uns daher, wie der Zusammenhang verl\u00e4uft. Da dieser Verlauf jedoch stark von der zugrundeliegeneden Skala abh\u00e4ngt, k\u00f6nnen wir diesen auch standardisieren. Die standardisierten Koeffizienten (= betas) k\u00f6nnen mit der <em>scale<\/em>-Funktion ausgegeben werden:<\/p>\n<div id=\"cb204\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb204-1\">lm2<span class=\"ot\">&lt;-<\/span> <span class=\"fu\">lm<\/span>(<span class=\"fu\">scale<\/span>(F4_Koerpergroesse) <span class=\"sc\">~<\/span> <span class=\"fu\">scale<\/span>(F5_Schuhgroesse), <span class=\"at\">data=<\/span>data_lm) <\/span>\r\n<span id=\"cb204-2\">lm2<\/span>\r\n<span id=\"cb204-3\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb204-4\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb204-5\"><span class=\"do\">## lm(formula = scale(F4_Koerpergroesse) ~ scale(F5_Schuhgroesse), <\/span><\/span>\r\n<span id=\"cb204-6\"><span class=\"do\">##     data = data_lm)<\/span><\/span>\r\n<span id=\"cb204-7\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb204-8\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb204-9\"><span class=\"do\">##            (Intercept)  scale(F5_Schuhgroesse)  <\/span><\/span>\r\n<span id=\"cb204-10\"><span class=\"do\">## -0.0000000000000005575   0.7230085486694098895<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Was bedeutet der standardisierte Koeffizient \/ beta Wert bei der bivariaten Regression?<br \/>\nGrunds\u00e4tzlich helfen standardisierte Koeffizienten (beta Werte) bei der Interpretation, da sie unabh\u00e4ngig von der zugrunde liegenden Skala interpretierbar sind. Bei der bivariaten Regression entspricht der Wert dem Korrelationskoeffizienten und sagt uns daher, wie stark der Zusammenhang ist (unabh\u00e4ngig von der Skala).<\/p>\n<p>Zum Vergleich k\u00f6nnen wir die Korrelation der beiden Variablen berechnen.<\/p>\n<div id=\"cb205\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb205-1\"> <span class=\"fu\">cor<\/span>(data_lm<span class=\"sc\">$<\/span>F4_Koerpergroesse,data_lm<span class=\"sc\">$<\/span>F5_Schuhgroesse)<\/span>\r\n<span id=\"cb205-2\"><span class=\"do\">## [1] 0.7230085<\/span><\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"signifikanztests-und-g\u00fctema\u00dfe\" class=\"section level2 hasAnchor\">\n<h1>Signifikanztests und G\u00fctema\u00dfe<\/h1>\n<p>Wie gut ist die Vorhersage f\u00fcr Ihre pers\u00f6nliche K\u00f6rpergr\u00f6\u00dfe? Um diese Frage zu beantworten, ben\u00f6tigen wir Signifikanztests f\u00fcr die Regressionskoeffizienten und G\u00fctema\u00dfe f\u00fcr das Regressionsmodell.<\/p>\n<p>Die Funktion <em>summary()<\/em> liefert eine detaillierte Zusammenfassung des linearen Modellobjekts, das mit der Funktion <em>lm()<\/em> erstellt wurde.<\/p>\n<div id=\"cb206\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb206-1\"><span class=\"fu\">summary<\/span>(lm1)<\/span>\r\n<span id=\"cb206-2\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb206-3\"><span class=\"do\">## Call:<\/span><\/span>\r\n<span id=\"cb206-4\"><span class=\"do\">## lm(formula = F4_Koerpergroesse ~ F5_Schuhgroesse, data = data_lm)<\/span><\/span>\r\n<span id=\"cb206-5\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb206-6\"><span class=\"do\">## Residuals:<\/span><\/span>\r\n<span id=\"cb206-7\"><span class=\"do\">##      Min       1Q   Median       3Q      Max <\/span><\/span>\r\n<span id=\"cb206-8\"><span class=\"do\">## -28.2497  -3.0276   0.1153   3.0041  15.1153 <\/span><\/span>\r\n<span id=\"cb206-9\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb206-10\"><span class=\"do\">## Coefficients:<\/span><\/span>\r\n<span id=\"cb206-11\"><span class=\"do\">##                 Estimate Std. Error t value             Pr(&gt;|t|)<\/span><\/span>\r\n<span id=\"cb206-12\"><span class=\"do\">## (Intercept)       93.425      7.735  12.078 &lt; 0.0000000000000002<\/span><\/span>\r\n<span id=\"cb206-13\"><span class=\"do\">## F5_Schuhgroesse    1.937      0.195   9.929 0.000000000000000402<\/span><\/span>\r\n<span id=\"cb206-14\"><span class=\"do\">##                    <\/span><\/span>\r\n<span id=\"cb206-15\"><span class=\"do\">## (Intercept)     ***<\/span><\/span>\r\n<span id=\"cb206-16\"><span class=\"do\">## F5_Schuhgroesse ***<\/span><\/span>\r\n<span id=\"cb206-17\"><span class=\"do\">## ---<\/span><\/span>\r\n<span id=\"cb206-18\"><span class=\"do\">## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1<\/span><\/span>\r\n<span id=\"cb206-19\"><span class=\"do\">## <\/span><\/span>\r\n<span id=\"cb206-20\"><span class=\"do\">## Residual standard error: 5.394 on 90 degrees of freedom<\/span><\/span>\r\n<span id=\"cb206-21\"><span class=\"do\">## Multiple R-squared:  0.5227, Adjusted R-squared:  0.5174 <\/span><\/span>\r\n<span id=\"cb206-22\"><span class=\"do\">## F-statistic: 98.58 on 1 and 90 DF,  p-value: 0.000000000000000402<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>Die Zusammenfassung enth\u00e4lt in der Regel die folgenden Informationen:<\/p>\n<p>Call: Gibt das Modell an, das verwendet wurde, einschlie\u00dflich des Namens der abh\u00e4ngigen Variable, der unabh\u00e4ngigen Variable(n) und der verwendeten Daten.<\/p>\n<p>Residuen: Die Residuen des Modells, d.\u00a0h. die Differenzen zwischen den beobachteten Werten der abh\u00e4ngigen Variablen und den vorhergesagten Werten der abh\u00e4ngigen Variablen. Die Zusammenfassung enth\u00e4lt die Standardabweichung der Residuen, die ein Ma\u00df f\u00fcr die Streuung der Residuen um den Mittelwert ist, sowie die minimalen und maximalen Residuenwerte.<\/p>\n<p>Koeffizienten: Die Koeffizienten des Modells, d.\u00a0h. die Sch\u00e4tzungen der Parameter der Regressionsgeraden. Die Tabelle enth\u00e4lt die Sch\u00e4tzungen der Koeffizienten, ihre Standardfehler, t-Werte und p-Werte.<\/p>\n<p>R-Quadrat: Das Bestimmtheitsma\u00df (auch Determinationskoeffizient) ist ein Ma\u00df f\u00fcr den Anteil der Variation in der abh\u00e4ngigen Variable, der durch die unabh\u00e4ngige Variable erkl\u00e4rt wird. Es reicht von 0 bis 1, und kann in Prozent interpretiert werden. So kann ein Wert von 0,4 so interpretiert werden, dass 40 % der Variation der abh\u00e4ngigen Variablen durch die unabh\u00e4ngigen Variablen erkl\u00e4rt wird.<\/p>\n<p>F-Statistik: Die F-Statistik und ihr zugeh\u00f6riger p-Wert, der pr\u00fcft, ob das lineare Modell insgesamt signifikant ist.<\/p>\n<p>Signifikanz-Codes: Ein Code, der das Signifikanzniveau der Koeffizienten angibt. Ein Code von \u201c***\u201d bedeutet zum Beispiel, dass der Koeffizient auf dem Niveau von 0,001 signifikant ist.<\/p>\n<p>In diesem Fall sehen wir, dass die Schuhgr\u00f6\u00dfe ein signifikanter Pr\u00e4diktor f\u00fcr die K\u00f6rpergr\u00f6\u00dfe ist (p &lt; .000). Ausserdem erhalten wir den Determinationskoeffizienten R2 von 0,51 (korrigierten Wert nehmen). Wir k\u00f6nnen also sagen, dass wir 51 % der Varianz in der K\u00f6rpergr\u00f6\u00dfe durch die Schuhgr\u00f6\u00dfe vorhersagen k\u00f6nnen. Des Weiteren erhalten wir einen F-Wert, hier 98 (1,90), den wir inhaltlich nicht interpretieren k\u00f6nnen (sollte jedoch gr\u00f6\u00dfer 1 sein).<\/p>\n<p>Die einzelnen Komponenten des lm-Objekts lassen sich auch einzeln auslesen:<\/p>\n<div id=\"cb207\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb207-1\"><span class=\"fu\">coefficients<\/span>(lm1)  <span class=\"co\">#Modelkoeffizienten<\/span><\/span>\r\n<span id=\"cb207-2\"><span class=\"do\">##     (Intercept) F5_Schuhgroesse <\/span><\/span>\r\n<span id=\"cb207-3\"><span class=\"do\">##       93.425002        1.936493<\/span><\/span>\r\n<span id=\"cb207-4\"><span class=\"fu\">confint<\/span>(lm1, <span class=\"at\">level=<\/span><span class=\"fl\">0.95<\/span>)  <span class=\"co\">#Konfidenzintervalle<\/span><\/span>\r\n<span id=\"cb207-5\"><span class=\"do\">##                     2.5 %     97.5 %<\/span><\/span>\r\n<span id=\"cb207-6\"><span class=\"do\">## (Intercept)     78.057622 108.792382<\/span><\/span>\r\n<span id=\"cb207-7\"><span class=\"do\">## F5_Schuhgroesse  1.549008   2.323979<\/span><\/span>\r\n<span id=\"cb207-8\"><span class=\"fu\">residuals<\/span>(lm1)  <span class=\"co\">#Residuen<\/span><\/span>\r\n<span id=\"cb207-9\"><span class=\"do\">##            1            2            3            4            5 <\/span><\/span>\r\n<span id=\"cb207-10\"><span class=\"do\">##  -7.94824817   9.11525833  -1.01175467 -28.24967664   3.05175183 <\/span><\/span>\r\n<span id=\"cb207-11\"><span class=\"do\">##            6            7            8            9           10 <\/span><\/span>\r\n<span id=\"cb207-12\"><span class=\"do\">##   0.05175183   0.92473882   2.05175183  -5.07526118   5.11525833 <\/span><\/span>\r\n<span id=\"cb207-13\"><span class=\"do\">##           11           12           13           14           15 <\/span><\/span>\r\n<span id=\"cb207-14\"><span class=\"do\">##  -2.07526118  -1.94824817   5.17876484  -5.94824817   4.92473882 <\/span><\/span>\r\n<span id=\"cb207-15\"><span class=\"do\">##           16           17           18           19           20 <\/span><\/span>\r\n<span id=\"cb207-16\"><span class=\"do\">##  -3.13876768  -3.69422216   4.05175183  -7.01175467   0.49629735 <\/span><\/span>\r\n<span id=\"cb207-17\"><span class=\"do\">##           21           22           23           24           25 <\/span><\/span>\r\n<span id=\"cb207-18\"><span class=\"do\">##  -3.94824817  -1.07526118   7.05175183  -2.88474167   0.11525833 <\/span><\/span>\r\n<span id=\"cb207-19\"><span class=\"do\">##           26           27           28           29           31 <\/span><\/span>\r\n<span id=\"cb207-20\"><span class=\"do\">##  -3.01175467  -0.94824817   1.98824533   2.92473882   2.92473882 <\/span><\/span>\r\n<span id=\"cb207-21\"><span class=\"do\">##           32           33           34           35           36 <\/span><\/span>\r\n<span id=\"cb207-22\"><span class=\"do\">##   2.43279085  -8.07526118   0.11525833   6.05175183   3.92473882 <\/span><\/span>\r\n<span id=\"cb207-23\"><span class=\"do\">##           37           38           39           40           41 <\/span><\/span>\r\n<span id=\"cb207-24\"><span class=\"do\">##   1.98824533   2.49629735   8.30577784  -0.88474167   1.05175183 <\/span><\/span>\r\n<span id=\"cb207-25\"><span class=\"do\">##           42           43           44           45           46 <\/span><\/span>\r\n<span id=\"cb207-26\"><span class=\"do\">##  -1.82123516   0.17876484   4.49629735  -3.13876768  -3.13876768 <\/span><\/span>\r\n<span id=\"cb207-27\"><span class=\"do\">##           47           48           49           50           51 <\/span><\/span>\r\n<span id=\"cb207-28\"><span class=\"do\">##   1.86123232  -2.07526118   6.24227134   3.24227134  -1.01175467 <\/span><\/span>\r\n<span id=\"cb207-29\"><span class=\"do\">##           52           53           54           55           56 <\/span><\/span>\r\n<span id=\"cb207-30\"><span class=\"do\">##   6.11525833   1.92473882   0.30577784   5.11525833   6.05175183 <\/span><\/span>\r\n<span id=\"cb207-31\"><span class=\"do\">##           57           58           59           60           61 <\/span><\/span>\r\n<span id=\"cb207-32\"><span class=\"do\">##   1.36928434   5.30577784   5.05175183  -3.07526118  -0.94824817 <\/span><\/span>\r\n<span id=\"cb207-33\"><span class=\"do\">##           62           63           64           65           66 <\/span><\/span>\r\n<span id=\"cb207-34\"><span class=\"do\">##   1.11525833  -2.82123516  -0.56720915   2.43279085  -1.82123516 <\/span><\/span>\r\n<span id=\"cb207-35\"><span class=\"do\">##           67           68           69           70           71 <\/span><\/span>\r\n<span id=\"cb207-36\"><span class=\"do\">##  -3.13876768  -0.94824817  -1.07526118  -0.63071566   0.62331035 <\/span><\/span>\r\n<span id=\"cb207-37\"><span class=\"do\">##           72           73           74           75           76 <\/span><\/span>\r\n<span id=\"cb207-38\"><span class=\"do\">##  -1.94824817  -2.07526118   4.36928434  15.11525833  -1.01175467 <\/span><\/span>\r\n<span id=\"cb207-39\"><span class=\"do\">##           77           78           79           80           81 <\/span><\/span>\r\n<span id=\"cb207-40\"><span class=\"do\">##   7.11525833  -5.88474167   2.05175183  -7.01175467   3.92473882 <\/span><\/span>\r\n<span id=\"cb207-41\"><span class=\"do\">##           82           83           84           85           86 <\/span><\/span>\r\n<span id=\"cb207-42\"><span class=\"do\">##  -3.13876768  -4.01175467  -4.01175467  -8.07526118  -3.94824817 <\/span><\/span>\r\n<span id=\"cb207-43\"><span class=\"do\">##           87           88           89           90           91 <\/span><\/span>\r\n<span id=\"cb207-44\"><span class=\"do\">## -10.07526118  -3.88474167   2.98824533  -7.07526118   1.11525833 <\/span><\/span>\r\n<span id=\"cb207-45\"><span class=\"do\">##           92           93 <\/span><\/span>\r\n<span id=\"cb207-46\"><span class=\"do\">##   0.92473882   9.92473882<\/span><\/span><\/code><\/pre>\n<\/div>\n<\/div>\n<div id=\"voraussetzung-pr\u00fcfen\" class=\"section level2 hasAnchor\">\n<h1>Voraussetzung pr\u00fcfen<\/h1>\n<p>Was wir aber eigentlich vor der Regression machen sollten, ist die Voraussetzung f\u00fcr die Regression zu pr\u00fcfen.<\/p>\n<p>Die wesentlichen Voraussetzungen f\u00fcr die lineare Regression sind:<\/p>\n<ol style=\"list-style-type: decimal;\">\n<li>Korrekte Spezifikation des Modells<\/li>\n<li>Normalverteilung der Residuen<\/li>\n<li>Homoskedastizit\u00e4t<\/li>\n<li>Ausrei\u00dfer und einflussreiche Datenpunkte<\/li>\n<\/ol>\n<p>Bei multipler Regression (also bei mehr als einem Pr\u00e4diktor) gelten zus\u00e4tzlich folgende Voraussetzungen:<\/p>\n<ol style=\"list-style-type: decimal;\" start=\"5\">\n<li>Multikollinearit\u00e4t<\/li>\n<li>Unabh\u00e4ngigkeit der Residuen<\/li>\n<\/ol>\n<p>\u00dcber Plots lassen sich die Voraussetzungen 1 bis 4 relativ einfach visuell pr\u00fcfen, hierzu wenden wir die Funktion <em>plot()<\/em> auf das Modell an. In diesem Fall werden uns vier Grafiken ausgegeben. Wenn Sie alle 4 Graphen auf einer Seite sehen wollen, k\u00f6nnen Sie mit <em>par(mfrow=c(2,2))<\/em> die Anzeige des Plot-Fensters auf vier Grafiken einstellen (2 nebeneinander, 2 \u00fcbereinander). Dies k\u00f6nnen Sie \u00fcber <em>dev.off()<\/em> wieder zur\u00fccksetzen.<\/p>\n<div id=\"cb208\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb208-1\"><span class=\"fu\">par<\/span>(<span class=\"at\">mfrow=<\/span><span class=\"fu\">c<\/span>(<span class=\"dv\">2<\/span>,<span class=\"dv\">2<\/span>)) <\/span>\r\n<span id=\"cb208-2\"><span class=\"fu\">plot<\/span>(lm1)<\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-242-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<p>Erkl\u00e4rung der Plots:<br \/>\n&#8211; Residuals vs.\u00a0Fitted: Testet Voraussetzung 1 &#8211; Die Werte sollen unsystematisch verteilt und die rote (Lowess-Linie) m\u00f6glichst parallel zur x-Achse verlaufen<br \/>\n&#8211; Normal-Q-Q: Testet Voraussetzung 2 &#8211; Normalverteilte Residuen sollten relativ nah auf der Diagonalen liegen<br \/>\n&#8211; Scale-Location-Diagram: Testet Voraussetzung 3 &#8211; Homoskedastizit\u00e4t ist gegeben bei unsystematischer Verteilung der Residuen. Insbesondere sollten wir hier darauf achten, dass die Residuen nicht \u201ctrichterartig\u201d in die eine oder andere Richtung zunehmen.<br \/>\n&#8211; Residuals vs.\u00a0Leverage: Testet Voraussetzung 4 &#8211; Diese Darstellung zeigt uns die Ausreiser, besonders kritisch sind dabei alle Werte, die ausserhalb von Cooks Distance liegen (gepunktete Linie). Die Ziffern neben den Punkten sind die Zeilennummern in den Daten. Wir sollten uns also die angezeigte Zeilennummer 4 in den Daten nochmal ansehen und den Wert ggf. aussschlie\u00dfen.<\/p>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/crNL5q3mMA0\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-16\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Wir haben uns entschlossen, den Outlier in Zeile 4 rauszunehmen. Rechnen Sie die Analysen nochmal ohne diesen Wert durch. Was hat sich ver\u00e4ndert?<\/p>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png\" alt=\"\" width=\"900\" height=\"577\" srcset=\"https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3.png 900w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-300x192.png 300w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-768x492.png 768w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-65x42.png 65w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-225x144.png 225w, https:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz3-350x224.png 350w\" sizes=\"(max-width: 900px) 100vw, 900px\" \/><\/a><\/p>\n<\/div>\n<div id=\"scatterplot-mit-regressionsgerade\" class=\"section level2 hasAnchor\">\n<h1>Scatterplot mit Regressionsgerade<\/h1>\n<p>Wir wollen zum Abschluss die Regression noch grafisch in einem Streudiagramm darstellen.<\/p>\n<div id=\"cb209\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb209-1\"><span class=\"fu\">plot<\/span>(data_lm<span class=\"sc\">$<\/span>F5_Schuhgroesse,data_lm<span class=\"sc\">$<\/span>F4_Koerpergroesse,<\/span>\r\n<span id=\"cb209-2\">     <span class=\"at\">ylab=<\/span><span class=\"st\">\"K\u00f6rpergroesse\"<\/span>,<\/span>\r\n<span id=\"cb209-3\">     <span class=\"at\">xlab=<\/span><span class=\"st\">\"Schuhgroesse\"<\/span>)<\/span>\r\n<span id=\"cb209-4\"><span class=\"fu\">abline<\/span>(lm1)  <span class=\"co\">#Einzeichnen der Regressionsgerade<\/span><\/span><\/code><\/pre>\n<\/div>\n<p><img decoding=\"async\" src=\"http:\/\/statistikgrundlagen.de\/_main_files\/figure-html\/unnamed-chunk-244-1.png\" width=\"672\" alt=\"image\" \/><\/p>\n<\/div>\n<div id=\"vorhersagen-erstellen\" class=\"section level2 hasAnchor\">\n<h1>Vorhersagen erstellen<\/h1>\n<p>Wir k\u00f6nnen nun mit einem beliebigen Wert f\u00fcr Schuhgroesse, die Koerpergroesse vorhersagen. Hierzu nutzen wir die <em>predict()<\/em> Funktion. Sie ben\u00f6tigt zwei Hauptargumente: den Namen des Modellobjekts und die neuen Daten, f\u00fcr die Sie Vorhersagen machen m\u00f6chten.<\/p>\n<p>Die grundlegende Syntax f\u00fcr die Funktion predict() lautet wie folgt:<\/p>\n<p>predict(modell, newdata)<\/p>\n<p>Dabei ist model der Name des linearen Modellobjekts, das mit der Funktion lm() erstellt wurde, und newdata ist ein dataframe, der die neuen Werte der unabh\u00e4ngigen Variablen enth\u00e4lt, f\u00fcr die Sie Vorhersagen treffen wollen. Daher m\u00fcssen wir f\u00fcr newdata immer die <em>data.frame<\/em> Funktion nutzen, auch wenn wir, wie in diesem Beispiel, nur einen einzelnen Vorhersagewert haben.<\/p>\n<p>Wir wollen die Koerpergroesse f\u00fcr eine Person mit Schuhgroesse 42 vorhersagen. Sie k\u00f6nnen den Wert 42 dabei gerne auf Ihre Schuhgroesse anpassen und sehen, welche Vorhersage das Modell f\u00fcr Sie treffen w\u00fcrde.<\/p>\n<div id=\"cb210\" class=\"sourceCode\">\n<pre class=\"sourceCode r\"><code class=\"sourceCode r\"><span id=\"cb210-1\"><span class=\"fu\">predict<\/span>(lm1, <span class=\"fu\">data.frame<\/span>(<span class=\"at\">F5_Schuhgroesse=<\/span><span class=\"dv\">42<\/span>))<\/span>\r\n<span id=\"cb210-2\"><span class=\"do\">##        1 <\/span><\/span>\r\n<span id=\"cb210-3\"><span class=\"do\">## 174.7577<\/span><\/span><\/code><\/pre>\n<\/div>\n<p>In diesem Video zeige ich, wie das in R funktioniert:<\/p>\n<div class=\"vembedr\" style=\"margin: auto;\">\n<div><iframe loading=\"lazy\" src=\"https:\/\/www.youtube.com\/embed\/eYdpCD_NpTs\" width=\"533\" height=\"300\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\" data-external=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<div id=\"\u00fcbung-17\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Wir nutzen das Data-Set \u201cPrestige\u201d aus dem Package car. Schauen Sie sich die Daten an und machen Sie sich damit vertraut (<em>?Prestige<\/em>)<\/p>\n<ul>\n<li>K\u00f6nnen wir aufgrund der Bildung (Anzahl Jahre) das Einkommen ableiten?<\/li>\n<li>Wie lautet die Regressionsgerade? Wie interpretieren Sie den B-Koeffizient?<\/li>\n<li>Zeichnen Sie diese in den Scatterplot ein.<\/li>\n<li>Wie hoch ist, basierend auf Ihrem Modell, das vorhergesagte Einkommen bei 12 Jahren Bildung?<\/li>\n<\/ul>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<p><a href=\"https:\/\/amzn.to\/3MLBUb8\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1822\" src=\"http:\/\/statistikgrundlagen.de\/ebook\/wp-content\/uploads\/sites\/2\/2023\/04\/rbuch_amz1.png\" alt=\"\" width=\"900\" height=\"577\" \/><\/a><\/p>\n<\/div>\n<div id=\"\u00fcbung-18\" class=\"section level2 hasAnchor\">\n<h1>\u00dcbung<\/h1>\n<p>Wir nutzen das Data-Set \u201chappymoney\u201d. Hier sehen wir den Zusammenhang zwischen dem durchschnittlichen Verm\u00f6gen pro Einwohner verschiedener L\u00e4nder und dem Gl\u00fccksindex der Einwohner basierend auf dem World Happiness Report. (Quelle Global Wealth Book 2021 von Credit Suisse <a class=\"uri\" href=\"https:\/\/www.credit-suisse.com\/media\/assets\/corporate\/docs\/about-us\/research\/publications\/global-wealth-databook-2021.pdf\">https:\/\/www.credit-suisse.com\/media\/assets\/corporate\/docs\/about-us\/research\/publications\/global-wealth-databook-2021.pdf<\/a>)<\/p>\n<ul>\n<li>K\u00f6nnen wir sagen, dass in L\u00e4ndern mit h\u00f6herem Pro-Kopf-Verm\u00f6gen auch die gl\u00fccklicheren Menschen wohnen? Stellen Sie den Zusammenhang in einem Streudiagramm dar und zeichnen Sie eine Regressionsgerade ein.<\/li>\n<li>Wieviel Euro h\u00f6heres Pro-Kopf-Verm\u00f6gen ist notwendig f\u00fcr eine Steigerung des Gl\u00fccksindex um 1 Punkt zu erreichen?<\/li>\n<\/ul>\n<p>Die L\u00f6sung zu dieser \u00dcbungsaufgabe gibt es im neuen Buch<a href=\"https:\/\/amzn.to\/3MLBUb8\"> Statistik mit R &amp; RStudio<\/a>.<\/p>\n<\/div>\n","protected":false},"author":1,"menu_order":10,"template":"","meta":{"pb_show_title":"on","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":1725,"_links":{"self":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1772"}],"collection":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":4,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1772\/revisions"}],"predecessor-version":[{"id":1832,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1772\/revisions\/1832"}],"part":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/parts\/1725"}],"metadata":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapters\/1772\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/media?parent=1772"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/pressbooks\/v2\/chapter-type?post=1772"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/contributor?post=1772"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/statistikgrundlagen.de\/ebook\/wp-json\/wp\/v2\/license?post=1772"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}