https://novustat.com/statistik-blog/klassiker-lineare-regression-einfach-erklaert.html
Woche 1-2: Das einfache lineare Regressionsmodell
Ziel
Verständnis der Grundlagen des einfachen linearen Regressionsmodells, Anwendung und Interpretation der Ergebnisse.
Inhalte
Einführung in die Regression
Die Regression ist eine statistische Methode zur Untersuchung von Beziehungen zwischen Variablen. Das einfache lineare Regressionsmodell beschreibt die Beziehung zwischen einer abhängigen Variable (Zielvariable) und einer unabhängigen Variable (Prädiktor) durch eine lineare Funktion.
Allgemeine Form des einfachen linearen Regressionsmodells
- : abhängige Variable
- : unabhängige Variable
- : Achsenabschnitt
- : Steigungskoeffizient
- : Fehlerterm
Annahmen des einfachen linearen Regressionsmodells
- Linearität: Die Beziehung zwischen und ist linear.
- Unabhängigkeit: Die Residuen sind voneinander unabhängig.
- Homoskedastizität: Die Varianz der Residuen ist konstant für alle Werte von .
- Normalverteilung der Residuen: Die Residuen sind normalverteilt.
Schätzung der Regressionsparameter
Die Regressionsparameter und werden durch die Methode der kleinsten Quadrate geschätzt, die die Summe der quadrierten Abweichungen der beobachteten Werte von den vorhergesagten Werten minimiert.
Formel zur Schätzung der Parameter
Bestimmung der Güte des Modells
Bestimmtheitsmaß ()
- gibt den Anteil der Variation der abhängigen Variable an, der durch das Modell erklärt wird.
Adjusted
Das adjustierte berücksichtigt die Anzahl der Prädiktoren im Modell und wird wie folgt berechnet:
- : Anzahl der Beobachtungen
- : Anzahl der Prädiktoren
Hypothesentests (t-Tests und F-Tests)
t-Test für die Regressionskoeffizienten
Der t-Test prüft, ob ein Regressionskoeffizient signifikant von Null verschieden ist:
- : geschätzter Regressionskoeffizient
- : Standardfehler des geschätzten Regressionskoeffizienten
F-Test für das Gesamtmodell
Der F-Test prüft, ob das Modell insgesamt signifikant ist:
- : Mittlere Quadratsumme der Regression
- : Mittlere Quadratsumme des Fehlers
Konfidenz- und Vorhersageintervalle
Konfidenzintervalle für die Regressionskoeffizienten
Ein Konfidenzintervall gibt den Bereich an, in dem der wahre Wert des Regressionskoeffizienten mit einer bestimmten Wahrscheinlichkeit liegt.
Vorhersageintervalle für neue Beobachtungen
Ein Vorhersageintervall gibt den Bereich an, in dem eine neue Beobachtung mit einer bestimmten Wahrscheinlichkeit liegt.
Anwendung in R oder Python
Beispiel in R
# Daten laden und visualisieren
data <- read.csv("data.csv")
plot(data$X, data$Y)
# Einfache lineare Regression durchführen
model <- lm(Y ~ X, data = data)
summary(model)
# Residualanalyse
plot(model$residuals)
Beispiel in Python
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
# Daten laden und visualisieren
data = pd.read_csv("data.csv")
plt.scatter(data['X'], data['Y'])
plt.show()
# Einfache lineare Regression durchführen
X = sm.add_constant(data['X'])
model = sm.OLS(data['Y'], X).fit()
print(model.summary())
# Residualanalyse
plt.plot(model.resid)
plt.show()
Übungen
-
Datensätze laden und visualisieren
- Laden Sie einen Datensatz und visualisieren Sie die Beziehung zwischen der abhängigen und der unabhängigen Variable.
-
Einfache lineare Regression durchführen und interpretieren
- Führen Sie eine einfache lineare Regression durch und interpretieren Sie die geschätzten Parameter, das Bestimmtheitsmaß und die Ergebnisse der Hypothesentests.
-
Residualanalyse
- Analysieren Sie die Residuen des Modells, um die Modellannahmen zu überprüfen.
Praktische Übung in R
# 1. Datensätze laden und visualisieren
data <- read.csv("data.csv")
plot(data$X, data$Y, main="Scatterplot von X und Y", xlab="X", ylab="Y")
# 2. Einfache lineare Regression durchführen und interpretieren
model <- lm(Y ~ X, data = data)
summary(model)
# Interpretation der Ergebnisse
cat("Achsenabschnitt:", coef(model)[1], "\n")
cat("Steigung:", coef(model)[2], "\n")
cat("R²:", summary(model)$r.squared, "\n")
cat("Adjusted R²:", summary(model)$adj.r.squared, "\n")
# 3. Residualanalyse
par(mfrow=c(2,2))
plot(model)
Praktische Übung in Python
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
# 1. Datensätze laden und visualisieren
data = pd.read_csv("data.csv")
plt.scatter(data['X'], data['Y'])
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Scatterplot von X und Y')
plt.show()
# 2. Einfache lineare Regression durchführen und interpretieren
X = sm.add_constant(data['X'])
model = sm.OLS(data['Y'], X).fit()
print(model.summary())
# Interpretation der Ergebnisse
params = model.params
print(f'Achsenabschnitt: {params[0]}')
print(f'Steigung: {params[1]}')
print(f'R²: {model.rsquared}')
print(f'Adjusted R²: {model.rsquared_adj}')
# 3. Residualanalyse
fig, ax = plt.subplots(2, 2, figsize=(12, 8))
sm.graphics.plot_regress_exog(model, 'X', fig=fig)
plt.show()
Dieses Skript gibt Ihnen eine umfassende Einführung in das einfache lineare Regressionsmodell, inklusive theoretischer Grundlagen, praktischer Beispiele und Übungen zur Vertiefung Ihres Wissens und Ihrer Fähigkeiten in der Anwendung und Interpretation der Ergebnisse.