Aufgabe 1

Aufgabenstellung

Der Datensatz babyboom.dat enthält die Geburtszeiten (Minuten ab Mitternacht) von Kindern, die am 18. Dezember 1997 in Brisbane, Australien auf die Welt kamen. Für die Zeiten zwischen den Geburten, d.h.

wird eine Exponentialverteilung mit unbekanntem Parameter angenommen.

(a) Wie lautet die Likelihoodfunktion von bezüglich der iid Stichprobe ? Bestimmen Sie den ML-Schätzer von zunächst allgemein und anschließend für den babyboom-Datensatz.

GPT

Die Aufgabe besteht darin, die Likelihood-Funktion für den Parameter einer Exponentialverteilung zu formulieren und den Maximum-Likelihood-Schätzer (ML-Schätzer) für zu finden.

Likelihood-Funktion

Die Wahrscheinlichkeitsdichte einer Exponentialverteilung für eine Beobachtung (x) ist gegeben durch:

Für eine Stichprobe , die aus unabhängigen und identisch verteilten (iid) Beobachtungen besteht, ist die Likelihood-Funktion das Produkt der einzelnen Dichten:

Maximum-Likelihood-Schätzung von

Zur Bestimmung des ML-Schätzers für maximieren wir die Likelihood-Funktion, wobei es oft einfacher ist, die Log-Likelihood-Funktion zu maximieren:

Durch Ableiten der Log-Likelihood nach und Nullsetzen der Ableitung erhalten wir:

Lösen dieser Gleichung ergibt den ML-Schätzer:

Das bedeutet, ist der Kehrwert des Stichprobenmittels der , also der durchschnittlichen Zeit zwischen den Geburten.

Spezifische Berechnung für den babyboom-Datensatz

Für die konkrete Berechnung mit dem babyboom-Datensatz müssen die Differenzen mit berechnet werden, und dann kann als oben angegeben bestimmt werden.

Berechnung

Lassen Sie uns die Berechnung des Maximum-Likelihood-Schätzers für den Parameter der Exponentialverteilung anhand der gegebenen Geburtszeiten durchführen. Hier die Schritte:

  1. Berechnen der Zeitintervalle : Wir subtrahieren jede Geburtszeit von der vorherigen, um die Intervalle zwischen den Geburten zu bestimmen.
  2. Summieren der : Die Summe dieser Intervalle wird benötigt, um zu berechnen.
  3. Anwenden der Formel für : Der ML-Schätzer ist der Kehrwert des Durchschnitts dieser Intervalle, also , wobei .

Hier die konkrete Berechnung:

import numpy as np
 
# Geburtszeiten in Minuten ab Mitternacht
birth_times = np.array([5, 64, 78, 115, 177, 245, 247, 262, 271, 428, 455, 492, 494, 549, 635, 649, 653, 693, 729, 776, 785, 846, 847, 873, 886, 914, 991, 1017, 1062, 1087, 1105, 1134, 1149, 1187, 1189, 1191, 1210, 1237, 1251, 1264, 1283, 1337, 1407, 1435])
 
# Berechnung der Zeitintervalle zwischen den Geburten
time_intervals = np.diff(birth_times, prepend=birth_times[0])
 
# Summe der Zeitintervalle
total_time = np.sum(time_intervals)
 
# Anzahl der Geburten
n = len(birth_times)
 
# Berechnung des ML-Schätzers für lambda
lambda_hat = n / total_time
 
print(lambda_hat)

Die letzte Zeile gibt den Schätzwert für zurück, welcher die erwartete Anzahl von Geburten pro Minute angibt, basierend auf den beobachteten Intervallen.

Der berechnete Maximum-Likelihood-Schätzer für den Parameter der Exponentialverteilung, basierend auf den gegebenen Geburtszeiten, beträgt etwa 0.0307. Dieser Wert repräsentiert die geschätzte Rate der Geburten pro Minute, d.h., es wird im Durchschnitt alle Minuten eine Geburt erwartet.

## (b) Zeigen Sie, dass die Familie der Gamma-Verteilungen >

\mathcal{F} = \left{ f(x) = \frac{b^a}{\Gamma(a)} x^{a-1} \exp(-bx) : a, b > 0 \right}

konjugiert ist zur $\text{Exp}(\lambda)$-Verteilung und bestimmen Sie die Posteriori $p(\lambda|x)$.

GPT

Um zu zeigen, dass die Familie der Gamma-Verteilungen konjugiert zur Exponentialverteilung ist, gehen wir schrittweise vor. Die Exponentialverteilung und die Gamma-Verteilung sind wichtige Mitglieder in der Familie der Exponentialfamilien, und ihre konjugierte Beziehung ist nützlich für Bayesianische Inferenz.

Voraussetzungen und Definitionen

Die Exponentialverteilung hat die Wahrscheinlichkeitsdichte:

wo der Rate-Parameter ist. Die Gamma-Verteilung hat die Wahrscheinlichkeitsdichte:

wobei der Formparameter (manchmal auch “shape parameter” genannt) und der Ratenparameter ist.

Konjugierte Priori für die Exponentialverteilung

Eine Priori-Verteilung wird als konjugiert zur Likelihood-Funktion einer bestimmten Verteilung betrachtet, wenn das Posterior die gleiche Form wie der Prior hat. Für die Exponentialverteilung zeigt sich, dass die Gamma-Verteilung eine konjugierte Priori ist.

Wenn wir als zufällige Variable betrachten und annehmen, dass gamma-verteilt ist, können wir dies wie folgt formulieren:

Likelihood-Funktion

Gegeben eine Stichprobe von unabhängigen und identisch verteilten Exponentialverteilungen, ist die gemeinsame Likelihood-Funktion gegeben durch:

Berechnung des Posterior

Die Posterior-Verteilung von nach Beobachtung von wird unter der Annahme eines Gamma-Prior berechnet. Das Bayes-Theorem besagt, dass das Posterior proportional zum Produkt aus Prior und Likelihood ist:

Einsetzen der entsprechenden Dichten ergibt:

Vereinfachen führt zu:

Die resultierende Form ist wieder eine Gamma-Verteilung, und wir können die neuen Parameter identifizieren:

Zusammenfassung

Die Posterior-Verteilung für , nachdem die Daten beobachtet wurden, wenn ursprünglich eine Gamma-Verteilung folgte, ist somit:

Dies zeigt, dass die Familie der Gamma-Verteilungen konjugiert zur Exponentialverteilung ist, weil das Posterior dieselbe Form wie der Prior hat, lediglich mit aktualisierten Parametern.

(c) Berechnen Sie den Theoretischen Posteriori-Erwartungswert] und den Posteriori-Modus . Vergleichen Sie die Bayesianischen Schätzer mit dem ML-Schätzer.

(d) Zeichnen Sie die Posteriori für den babyboom Datensatz, wenn als Priori-Parameter gewählt werden. Visualisieren Sie die drei Schätzer aus Aufgabe c).

(e) Ziehen Sie Realisierungen aus der Posteriori. Visualisieren Sie die Schätzung der Posteriori-Dichte. Bestimmen Sie aus den Ziehungen den Posteriori-Erwartungswert, -Median und -Modus empirisch. Hinweis: Verwenden Sie für den Modus den Befehl density.

(f) Berechnen Sie die Priori-Variant für sowie die Posteriori-Varianz für . Vergleichen Sie für verschiedene Werte von und Priori- und Posteriori-Varianz. Zeichnen Sie jeweils die Posteriori-Dichte. Welche Auswirkung hat hohe Priori-Varianz auf die Posteriori? Was passiert im Spezialfall ?

Hinweis: Die strukturierte Änderung von Priori-Parametern bezeichnet man als Sensitivitätsanalyse.

(g) Bestimmen Sie die prädiktive Posteriori für eine neue Zwischenzeit .