Woche 7-8: Diskrete Einflussgrößen

Ziel

Integration und Interpretation diskreter Einflussgrößen in Regressionsmodellen.

Inhalte

Dummy-Variablen und ihre Anwendung

Diskrete Einflussgrößen, insbesondere nominale und ordinale Variablen, müssen in eine numerische Form umgewandelt werden, damit sie in Regressionsmodellen verwendet werden können. Dies geschieht oft durch die Erstellung von Dummy-Variablen.

Dummy-Variablen

Eine Dummy-Variable ist eine binäre Variable, die Werte von 0 und 1 annimmt und zur Kodierung kategorialer Daten verwendet wird.

Beispiel

Angenommen, wir haben eine kategoriale Variable “Geschlecht” mit den Kategorien “männlich” und “weiblich”. Wir können eine Dummy-Variable “Geschlecht” wie folgt erstellen:

  • “männlich” = 0
  • ”weiblich” = 1

Anwendung

Dummy-Variablen werden in das Regressionsmodell aufgenommen, um die Auswirkungen der verschiedenen Kategorien zu untersuchen.

Interpretation von Dummy-Variablen-Koeffizienten

Die Koeffizienten der Dummy-Variablen in einem Regressionsmodell repräsentieren die durchschnittliche Änderung der abhängigen Variable im Vergleich zur Referenzkategorie.

Beispiel

Wenn “männlich” die Referenzkategorie ist, gibt der Koeffizient der Dummy-Variable “weiblich” () die durchschnittliche Änderung der abhängigen Variable für “weiblich” im Vergleich zu “männlich” an.

Interpretation

  • > 0: “weiblich” hat einen positiven Einfluss auf im Vergleich zu “männlich”.
  • < 0: “weiblich” hat einen negativen Einfluss auf im Vergleich zu “männlich”.

Umgang mit nominalen und ordinalen Variablen

Nominale und ordinale Variablen können unterschiedlich behandelt werden, abhängig von der Art der Variable und der Analyse.

Nominale Variablen

Nominale Variablen haben keine natürliche Reihenfolge und werden vollständig durch Dummy-Variablen repräsentiert.

Beispiel

Eine Variable “Farbe” mit den Kategorien “rot”, “grün” und “blau” könnte durch zwei Dummy-Variablen dargestellt werden:

  • “grün” = 0, “rot” = 1, “blau” = 0 (Referenzkategorie)
  • “grün” = 1, “rot” = 0, “blau” = 0

Ordinale Variablen

Ordinale Variablen haben eine natürliche Reihenfolge, und es kann sinnvoll sein, sie entweder als kontinuierliche Variablen zu behandeln oder Dummy-Variablen zu verwenden.

Beispiel

Eine Variable “Bildungsniveau” mit den Kategorien “niedrig”, “mittel” und “hoch” könnte entweder durch Dummy-Variablen oder durch eine numerische Skala (z.B. 1, 2, 3) repräsentiert werden.

Interaktion von diskreten und kontinuierlichen Variablen

Interaktionseffekte treten auf, wenn der Effekt einer unabhängigen Variable auf die abhängige Variable von einer anderen unabhängigen Variable abhängt. Bei diskreten und kontinuierlichen Variablen kann dies durch Interaktionsterme modelliert werden.

Beispiel

Angenommen, wir haben eine kontinuierliche Variable “Alter” und eine Dummy-Variable “Geschlecht”. Der Interaktionseffekt könnte wie folgt modelliert werden:

Interpretation

Der Koeffizient des Interaktionsterms () gibt an, wie sich der Effekt des Alters auf je nach Geschlecht unterscheidet.

Übungen

Erstellung und Verwendung von Dummy-Variablen

Beispiel in R

# Daten laden
data <- read.csv("data.csv")
 
# Dummy-Variablen erstellen
data$Geschlecht <- ifelse(data$Geschlecht == "weiblich", 1, 0)
 
# Regressionsmodell mit Dummy-Variablen
model <- lm(Y ~ Geschlecht + Alter + Einkommen, data = data)
summary(model)

Beispiel in Python

import pandas as pd
import statsmodels.api as sm
 
# Daten laden
data = pd.read_csv("data.csv")
 
# Dummy-Variablen erstellen
data['Geschlecht'] = data['Geschlecht'].apply(lambda x: 1 if x == 'weiblich' else 0)
 
# Regressionsmodell mit Dummy-Variablen
X = data[['Geschlecht', 'Alter', 'Einkommen']]
X = sm.add_constant(X)
model = sm.OLS(data['Y'], X).fit()
print(model.summary())

Untersuchung und Interpretation von Interaktionseffekten

Beispiel in R

# Interaktionsterm erstellen
data$Alter_Geschlecht <- data$Alter * data$Geschlecht
 
# Regressionsmodell mit Interaktionseffekten
interaction_model <- lm(Y ~ Alter * Geschlecht, data = data)
summary(interaction_model)

Beispiel in Python

# Interaktionsterm erstellen
data['Alter_Geschlecht'] = data['Alter'] * data['Geschlecht']
 
# Regressionsmodell mit Interaktionseffekten
X_interaction = data[['Alter', 'Geschlecht', 'Alter_Geschlecht']]
X_interaction = sm.add_constant(X_interaction)
interaction_model = sm.OLS(data['Y'], X_interaction).fit()
print(interaction_model.summary())

Umgang mit nominalen und ordinalen Variablen

Beispiel in R

# Nominale Variable "Farbe" in Dummy-Variablen umwandeln
data <- within(data, {
  Farbe_rot <- ifelse(Farbe == "rot", 1, 0)
  Farbe_grün <- ifelse(Farbe == "grün", 1, 0)
})
 
# Regressionsmodell mit Dummy-Variablen für Farbe
model_farbe <- lm(Y ~ Farbe_rot + Farbe_grün + Alter, data = data)
summary(model_farbe)
 
# Ordinale Variable "Bildungsniveau" numerisch kodieren
data$Bildungsniveau <- factor(data$Bildungsniveau, levels = c("niedrig", "mittel", "hoch"), ordered = TRUE)
data$Bildungsniveau <- as.numeric(data$Bildungsniveau)
 
# Regressionsmodell mit ordinaler Variable
model_bildung <- lm(Y ~ Bildungsniveau + Alter, data = data)
summary(model_bildung)

Beispiel in Python

# Nominale Variable "Farbe" in Dummy-Variablen umwandeln
data = pd.get_dummies(data, columns=['Farbe'], drop_first=True)
 
# Regressionsmodell mit Dummy-Variablen für Farbe
X_farbe = data[['Farbe_rot', 'Farbe_grün', 'Alter']]
X_farbe = sm.add_constant(X_farbe)
model_farbe = sm.OLS(data['Y'], X_farbe).fit()
print(model_farbe.summary())
 
# Ordinale Variable "Bildungsniveau" numerisch kodieren
data['Bildungsniveau'] = data['Bildungsniveau'].map({'niedrig': 1, 'mittel': 2, 'hoch': 3})
 
# Regressionsmodell mit ordinaler Variable
X_bildung = data[['Bildungsniveau', 'Alter']]
X_bildung = sm.add_constant(X_bildung)
model_bildung = sm.OLS(data['Y'], X_bildung).fit()
print(model_bildung.summary())

Dieses Skript bietet eine umfassende Einführung in die Integration und Interpretation diskreter Einflussgrößen in Regressionsmodellen, ergänzt durch praktische Beispiele und Übungen zur Vertiefung des Verständnisses und der Fähigkeiten in der Anwendung und Interpretation der Ergebnisse.