Referenz: Die Kleinste-Quadrate-Schätzung (KQ-Schätzung) und ihre asymptotischen Eigenschaften

Gewichtete Kleinste-Quadrate (WLS) vs. Normale Kleinste-Quadrate (OLS)

Einleitung

Die Methode der Kleinste-Quadrate-Schätzung (OLS) ist weit verbreitet und wird häufig verwendet, um die Parameter von Regressionsmodellen zu schätzen. Es gibt jedoch Situationen, in denen die Annahmen der OLS-Schätzung nicht erfüllt sind, insbesondere wenn die Fehlerterme heteroskedastisch sind. In solchen Fällen kann die Methode der gewichteten Kleinste-Quadrate (WLS) eine bessere Alternative darstellen. In diesem Dokument werden wir die Unterschiede zwischen OLS und WLS untersuchen, ihre mathematischen Grundlagen erklären und ihre jeweiligen Anwendungsbereiche und Vorteile darstellen.

Grundlagen der normalen Kleinste-Quadrate (OLS)

Definition und mathematische Grundlagen

Die OLS-Methode schätzt die Parameter eines linearen Regressionsmodells, indem sie die Summe der quadrierten Residuen minimiert. Das Modell wird durch die folgende Gleichung beschrieben:

wobei:

  • der Vektor der abhängigen Variablen ist,
  • die Designmatrix der unabhängigen Variablen ist,
  • der Vektor der Regressionskoeffizienten ist,
  • der Vektor der Fehlerterme ist.

Die OLS-Schätzer werden berechnet durch:

Annahmen der OLS-Methode

Die OLS-Schätzung basiert auf folgenden Annahmen:

  1. Linearität: Die Beziehung zwischen den unabhängigen und abhängigen Variablen ist linear.
  2. Unabhängigkeit: Die Fehlerterme sind unkorreliert.
  3. Homoskedastizität: Die Varianz der Fehlerterme ist konstant (keine Heteroskedastizität).
  4. Normalverteilung: Die Fehlerterme sind normalverteilt (für Inferenzzwecke).

Probleme bei Heteroskedastizität

Heteroskedastizität und ihre Auswirkungen

Heteroskedastizität liegt vor, wenn die Varianz der Fehlerterme nicht konstant ist. Dies kann die Effizienz der OLS-Schätzer beeinträchtigen und zu verzerrten Standardfehlern führen, was wiederum die Inferenz (z.B. Hypothesentests) unzuverlässig macht.

Erkennung von Heteroskedastizität

Heteroskedastizität kann durch grafische Methoden wie Residuenplots oder durch statistische Tests wie den Breusch-Pagan-Test oder den White-Test erkannt werden.

Gewichtete Kleinste-Quadrate (WLS)

Definition und mathematische Grundlagen

Die WLS-Methode modifiziert die OLS-Methode, indem sie Gewichtungen verwendet, um die Heteroskedastizität zu berücksichtigen. Das Modell wird durch die folgende Gleichung beschrieben:

wobei die Varianz der Fehlerterme proportional zu einer bekannten Funktion ist:

Die WLS-Schätzer werden berechnet durch:

wobei eine Diagonalmatrix der Gewichte ist:

Vorteile der WLS-Methode

Die WLS-Methode hat mehrere Vorteile gegenüber der OLS-Methode, insbesondere wenn Heteroskedastizität vorliegt:

  1. Effizienz: WLS-Schätzer sind effizienter als OLS-Schätzer bei heteroskedastischen Fehlertermen.
  2. Unverzerrtheit: WLS-Schätzer sind unverzerrt, sofern die Gewichtungen korrekt spezifiziert sind.
  3. Korrekte Inferenz: WLS ermöglicht korrekte Standardfehler, Konfidenzintervalle und Hypothesentests.

Vergleich von OLS und WLS

Beispiel einer einfachen linearen Regression

Angenommen, wir haben die folgenden Daten:

import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
 
# Generieren von Daten mit Heteroskedastizität
np.random.seed(0)
X = np.random.rand(100, 1)
X = sm.add_constant(X)
beta = np.array([2, 3])
sigma = np.linspace(1, 2, 100)
epsilon = np.random.normal(0, sigma)
Y = X @ beta + epsilon
 
# OLS-Schätzung
model_ols = sm.OLS(Y, X).fit()
print(model_ols.summary())
 
# Gewichtungen für WLS
w = 1 / sigma**2
model_wls = sm.WLS(Y, X, weights=w).fit()
print(model_wls.summary())
 
# Residuenplot für OLS
plt.scatter(X[:, 1], model_ols.resid)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('X')
plt.ylabel('Residuen')
plt.title('Residuenplot OLS')
plt.show()
 
# Residuenplot für WLS
plt.scatter(X[:, 1], model_wls.resid)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('X')
plt.ylabel('Residuen')
plt.title('Residuenplot WLS')
plt.show()

Interpretation der Ergebnisse

  • OLS-Schätzung: Die OLS-Schätzung liefert die Koeffizienten, berücksichtigt jedoch nicht die Heteroskedastizität. Dies kann zu ineffizienten Schätzungen und verzerrten Standardfehlern führen.
  • WLS-Schätzung: Die WLS-Schätzung berücksichtigt die Heteroskedastizität durch Gewichtung der Beobachtungen. Die resultierenden Koeffizienten sind effizienter und die Standardfehler sind korrekt.

Praktische Anwendung von WLS

Schritte zur Durchführung einer WLS-Schätzung

  1. Erkennen von Heteroskedastizität: Verwenden Sie grafische Methoden oder statistische Tests, um Heteroskedastizität zu erkennen.
  2. Bestimmung der Gewichtungen: Schätzen Sie die Funktion der Varianz der Fehlerterme und berechnen Sie die Gewichtungen.
  3. Durchführung der WLS-Schätzung: Führen Sie die WLS-Schätzung unter Verwendung der Gewichtungen durch.
  4. Überprüfung der Modellgüte: Überprüfen Sie die Residuen und die Modellgüte, um sicherzustellen, dass die Heteroskedastizität korrekt behandelt wurde.

Beispiel einer WLS-Schätzung in der Praxis

Angenommen, wir haben Daten über den Einfluss des Einkommens und des Bildungsniveaus auf die Gesundheit. Wir vermuten, dass die Varianz der Fehlerterme mit dem Einkommensniveau variiert.

# Generieren von Daten mit Heteroskedastizität
np.random.seed(0)
income = np.random.rand(100, 1) * 100
education = np.random.rand(100, 1) * 20
X = np.hstack((income, education))
X = sm.add_constant(X)
beta = np.array([5, 0.1, 0.05])
sigma = 0.01 * income.flatten()
epsilon = np.random.normal(0, sigma)
health = X @ beta + epsilon
 
# OLS-Schätzung
model_ols = sm.OLS(health, X).fit()
print(model_ols.summary())
 
# Gewichtungen für WLS
w = 1 / sigma**2
model_wls = sm.WLS(health, X, weights=w).fit()
print(model_wls.summary())

In diesem Beispiel zeigt die WLS-Schätzung, wie die Heteroskedastizität durch Gewichtung der Beobachtungen berücksichtigt wird, was zu effizienteren Schätzungen und korrekten Standardfehlern führt.

Fazit

Die Methode der gewichteten Kleinste-Quadrate (WLS) bietet eine leistungsfähige Alternative zur normalen Kleinste-Quadrate-Schätzung (OLS), insbesondere wenn die Annahmen der OLS-Methode verletzt sind, wie im Falle von Heteroskedastizität. Während OLS-Schätzer unter den Annahmen der Homoskedastizität effizient und unverzerrt sind, bietet WLS eine bessere Anpassung und korrektere Inferenz, wenn die Varianz der Fehlerterme nicht konstant ist. Die Wahl zwischen OLS und WLS hängt von den spezifischen Eigenschaften der Daten und den zugrunde liegenden Annahmen des Regressionsmodells ab.