https://novustat.com/statistik-blog/klassiker-lineare-regression-einfach-erklaert.html

Woche 1-2: Das einfache lineare Regressionsmodell

Ziel

Verständnis der Grundlagen des einfachen linearen Regressionsmodells, Anwendung und Interpretation der Ergebnisse.

Inhalte

Einführung in die Regression

Die Regression ist eine statistische Methode zur Untersuchung von Beziehungen zwischen Variablen. Das einfache lineare Regressionsmodell beschreibt die Beziehung zwischen einer abhängigen Variable (Zielvariable) und einer unabhängigen Variable (Prädiktor) durch eine lineare Funktion.

Allgemeine Form des einfachen linearen Regressionsmodells

  • : abhängige Variable
  • : unabhängige Variable
  • : Achsenabschnitt
  • : Steigungskoeffizient
  • : Fehlerterm

Annahmen des einfachen linearen Regressionsmodells

  1. Linearität: Die Beziehung zwischen und ist linear.
  2. Unabhängigkeit: Die Residuen sind voneinander unabhängig.
  3. Homoskedastizität: Die Varianz der Residuen ist konstant für alle Werte von .
  4. Normalverteilung der Residuen: Die Residuen sind normalverteilt.

Schätzung der Regressionsparameter

Die Regressionsparameter und werden durch die Methode der kleinsten Quadrate geschätzt, die die Summe der quadrierten Abweichungen der beobachteten Werte von den vorhergesagten Werten minimiert.

Formel zur Schätzung der Parameter

Bestimmung der Güte des Modells

Bestimmtheitsmaß ()

  • gibt den Anteil der Variation der abhängigen Variable an, der durch das Modell erklärt wird.

Adjusted

Das adjustierte berücksichtigt die Anzahl der Prädiktoren im Modell und wird wie folgt berechnet:

  • : Anzahl der Beobachtungen
  • : Anzahl der Prädiktoren

Hypothesentests (t-Tests und F-Tests)

t-Test für die Regressionskoeffizienten

Der t-Test prüft, ob ein Regressionskoeffizient signifikant von Null verschieden ist:

  • : geschätzter Regressionskoeffizient
  • : Standardfehler des geschätzten Regressionskoeffizienten

F-Test für das Gesamtmodell

Der F-Test prüft, ob das Modell insgesamt signifikant ist:

  • : Mittlere Quadratsumme der Regression
  • : Mittlere Quadratsumme des Fehlers

Konfidenz- und Vorhersageintervalle

Konfidenzintervalle für die Regressionskoeffizienten

Ein Konfidenzintervall gibt den Bereich an, in dem der wahre Wert des Regressionskoeffizienten mit einer bestimmten Wahrscheinlichkeit liegt.

Vorhersageintervalle für neue Beobachtungen

Ein Vorhersageintervall gibt den Bereich an, in dem eine neue Beobachtung mit einer bestimmten Wahrscheinlichkeit liegt.

Anwendung in R oder Python

Beispiel in R

# Daten laden und visualisieren
data <- read.csv("data.csv")
plot(data$X, data$Y)
 
# Einfache lineare Regression durchführen
model <- lm(Y ~ X, data = data)
summary(model)
 
# Residualanalyse
plot(model$residuals)

Beispiel in Python

import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
 
# Daten laden und visualisieren
data = pd.read_csv("data.csv")
plt.scatter(data['X'], data['Y'])
plt.show()
 
# Einfache lineare Regression durchführen
X = sm.add_constant(data['X'])
model = sm.OLS(data['Y'], X).fit()
print(model.summary())
 
# Residualanalyse
plt.plot(model.resid)
plt.show()

Übungen

  1. Datensätze laden und visualisieren

    • Laden Sie einen Datensatz und visualisieren Sie die Beziehung zwischen der abhängigen und der unabhängigen Variable.
  2. Einfache lineare Regression durchführen und interpretieren

    • Führen Sie eine einfache lineare Regression durch und interpretieren Sie die geschätzten Parameter, das Bestimmtheitsmaß und die Ergebnisse der Hypothesentests.
  3. Residualanalyse

    • Analysieren Sie die Residuen des Modells, um die Modellannahmen zu überprüfen.

Praktische Übung in R

# 1. Datensätze laden und visualisieren
data <- read.csv("data.csv")
plot(data$X, data$Y, main="Scatterplot von X und Y", xlab="X", ylab="Y")
 
# 2. Einfache lineare Regression durchführen und interpretieren
model <- lm(Y ~ X, data = data)
summary(model)
 
# Interpretation der Ergebnisse
cat("Achsenabschnitt:", coef(model)[1], "\n")
cat("Steigung:", coef(model)[2], "\n")
cat("R²:", summary(model)$r.squared, "\n")
cat("Adjusted R²:", summary(model)$adj.r.squared, "\n")
 
# 3. Residualanalyse
par(mfrow=c(2,2))
plot(model)

Praktische Übung in Python

import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
 
# 1. Datensätze laden und visualisieren
data = pd.read_csv("data.csv")
plt.scatter(data['X'], data['Y'])
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Scatterplot von X und Y')
plt.show()
 
# 2. Einfache lineare Regression durchführen und interpretieren
X = sm.add_constant(data['X'])
model = sm.OLS(data['Y'], X).fit()
print(model.summary())
 
# Interpretation der Ergebnisse
params = model.params
print(f'Achsenabschnitt: {params[0]}')
print(f'Steigung: {params[1]}')
print(f'R²: {model.rsquared}')
print(f'Adjusted R²: {model.rsquared_adj}')
 
# 3. Residualanalyse
fig, ax = plt.subplots(2, 2, figsize=(12, 8))
sm.graphics.plot_regress_exog(model, 'X', fig=fig)
plt.show()

Dieses Skript gibt Ihnen eine umfassende Einführung in das einfache lineare Regressionsmodell, inklusive theoretischer Grundlagen, praktischer Beispiele und Übungen zur Vertiefung Ihres Wissens und Ihrer Fähigkeiten in der Anwendung und Interpretation der Ergebnisse.