Woche 7-8: Diskrete Einflussgrößen
Ziel
Integration und Interpretation diskreter Einflussgrößen in Regressionsmodellen.
Inhalte
Dummy-Variablen und ihre Anwendung
Diskrete Einflussgrößen, insbesondere nominale und ordinale Variablen, müssen in eine numerische Form umgewandelt werden, damit sie in Regressionsmodellen verwendet werden können. Dies geschieht oft durch die Erstellung von Dummy-Variablen.
Dummy-Variablen
Eine Dummy-Variable ist eine binäre Variable, die Werte von 0 und 1 annimmt und zur Kodierung kategorialer Daten verwendet wird.
Beispiel
Angenommen, wir haben eine kategoriale Variable “Geschlecht” mit den Kategorien “männlich” und “weiblich”. Wir können eine Dummy-Variable “Geschlecht” wie folgt erstellen:
- “männlich” = 0
- ”weiblich” = 1
Anwendung
Dummy-Variablen werden in das Regressionsmodell aufgenommen, um die Auswirkungen der verschiedenen Kategorien zu untersuchen.
Interpretation von Dummy-Variablen-Koeffizienten
Die Koeffizienten der Dummy-Variablen in einem Regressionsmodell repräsentieren die durchschnittliche Änderung der abhängigen Variable im Vergleich zur Referenzkategorie.
Beispiel
Wenn “männlich” die Referenzkategorie ist, gibt der Koeffizient der Dummy-Variable “weiblich” () die durchschnittliche Änderung der abhängigen Variable für “weiblich” im Vergleich zu “männlich” an.
Interpretation
- > 0: “weiblich” hat einen positiven Einfluss auf im Vergleich zu “männlich”.
- < 0: “weiblich” hat einen negativen Einfluss auf im Vergleich zu “männlich”.
Umgang mit nominalen und ordinalen Variablen
Nominale und ordinale Variablen können unterschiedlich behandelt werden, abhängig von der Art der Variable und der Analyse.
Nominale Variablen
Nominale Variablen haben keine natürliche Reihenfolge und werden vollständig durch Dummy-Variablen repräsentiert.
Beispiel
Eine Variable “Farbe” mit den Kategorien “rot”, “grün” und “blau” könnte durch zwei Dummy-Variablen dargestellt werden:
- “grün” = 0, “rot” = 1, “blau” = 0 (Referenzkategorie)
- “grün” = 1, “rot” = 0, “blau” = 0
Ordinale Variablen
Ordinale Variablen haben eine natürliche Reihenfolge, und es kann sinnvoll sein, sie entweder als kontinuierliche Variablen zu behandeln oder Dummy-Variablen zu verwenden.
Beispiel
Eine Variable “Bildungsniveau” mit den Kategorien “niedrig”, “mittel” und “hoch” könnte entweder durch Dummy-Variablen oder durch eine numerische Skala (z.B. 1, 2, 3) repräsentiert werden.
Interaktion von diskreten und kontinuierlichen Variablen
Interaktionseffekte treten auf, wenn der Effekt einer unabhängigen Variable auf die abhängige Variable von einer anderen unabhängigen Variable abhängt. Bei diskreten und kontinuierlichen Variablen kann dies durch Interaktionsterme modelliert werden.
Beispiel
Angenommen, wir haben eine kontinuierliche Variable “Alter” und eine Dummy-Variable “Geschlecht”. Der Interaktionseffekt könnte wie folgt modelliert werden:
Interpretation
Der Koeffizient des Interaktionsterms () gibt an, wie sich der Effekt des Alters auf je nach Geschlecht unterscheidet.
Übungen
Erstellung und Verwendung von Dummy-Variablen
Beispiel in R
Beispiel in Python
Untersuchung und Interpretation von Interaktionseffekten
Beispiel in R
Beispiel in Python
Umgang mit nominalen und ordinalen Variablen
Beispiel in R
Beispiel in Python
Dieses Skript bietet eine umfassende Einführung in die Integration und Interpretation diskreter Einflussgrößen in Regressionsmodellen, ergänzt durch praktische Beispiele und Übungen zur Vertiefung des Verständnisses und der Fähigkeiten in der Anwendung und Interpretation der Ergebnisse.