Is in List with Statistic courses
- Open Book Klausur
- Keine Bonuspunkte
Worum es geht:
- Regressionen mit jeweils verschiedenen Einflussfaktoren Was wir gemacht haben in der ersten VL:
- Beispiele zu verschiedenen Beispielen wo regression gebraucht wird
Zusammenfassung
- Wir wollen einen Zusammenhang zwischen einer Zielgröße Y und Einflussgrößen x modellieren
- Ziele sind Verstehen, Nachweisen, Prognostizieren
- Supervised learning: Wir lernen aus den Daten den Zusammenhang zwischen x und Y
- Zusammenhänge können sehr komplex sein. Daher sind die Methods auch komplex.
Inhalt der Vorlesung (1)
- Einführung und Beispiele
- Das einfache lineare Regressionsmodell
- Das multiple lineare Regressionsmodell
- Quadratsummenzerlegung und statistische Inferenz im multiplen linearen Regressionsmodell
- Discrete Einflußgrößen: Dummy- und Effektkodierung, Mehrfaktorielle Varianzanalyse
- Metrische Einflußgrößen: Interaktionen, Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen.
- Modelldiagnose
- Das allgemeine lineare Model: Gewichtete KQ-Methode, Autokorrelierte und heteroskedastische Störterme
- Das gemischte lineare Regressionsmodell („Linear mixed Model“)
- Das logistische Regressionsmodell
Kapitel 2:
Das einfache lineare Regressionsmodell
Annahmen
- : Zielgröße (Zufallsgröße), abhängige Variable
- : feste bekannte Einflussgröße, unabhängige Variable
- : Zufallsfehler
- : unbekannte Parameter ( oftmals nicht relevant)
- : Anzahl der Beobachtungen
Erklärung der Annahmen
Die oben aufgeführten Gleichungen stellen die Grundannahmen des einfachen linearen Regressionsmodells dar. Jede Annahme spielt eine wichtige Rolle für die theoretische Fundierung und Interpretation des Modells:
-
Lineare Beziehung: Die Beziehung zwischen der abhängigen Variable und der unabhängigen Variable wird also linear angenommen, wobei den Achsenabschnitt (Intercept) und die Steigung (Slope) darstellen. Diese Annahme ermöglicht die Vorhersage der Zielgröße durch eine lineare Function.
-
Erwartungswert des Fehlers: Der Erwartungswert des Fehlerterms wird also null angenommen. Das bedeutet, dass die Modellvorhersagen im Durchschnitt korrekt sind, und dass alle systematischen Fehler im Model berücksichtigt sind.
-
Homoskedastizität: Die Varianz von wird also constant über alle Beobachtungen hinweg angenommen (). Dies impliziert, dass die Streuung der Beobachtungen um die Regressionslinie für alle Werte von gleich ist, eine Eigenschaft, die also Homoskedastizität bekannt ist.
-
Unabhängigkeit: Die Fehlerterme sind stochastisch unabhängig. Dies bedeutet, dass die Beobachtung eines Fehlerterms keine Informationen über einen anderen liefert, was für die Gültigkeit vieler statistischer Tests entscheidend ist.
-
Normalverteilung der Fehler: Der Fehlerterm folgt einer Normalverteilung mit einem Mittelwert von null und einer konstanten Varianz . Diese Annahme ermöglicht die Nutzung der Inferenzstatistik, da under anderem die Schätzer der kleinsten Quadrate (KQ-Schätzer) in diesem Fall die besten, linear und unverzerrten Schätzer sind (BLUE-Eigenschaft).
Diese Annahmen sind fundamental für die Schätzung der Parameter und sowie für die Durchführung von Hypothesentests und das Erstellen von Konfidenzintervallen innerhalb des Modells. Die Überprüfung dieser Annahmen ist ein wichtiger Teil der Modell-Diagnostik, nachdem eine Anpassung durchgeführt wurde.
Letze Seite: 20