Der Datensatz babyboom.dat enthält die Geburtszeiten t1,…,tn (Minuten ab Mitternacht) von n=44 Kindern, die am 18. Dezember 1997 in Brisbane, Australien auf die Welt kamen. Für die Zeiten xi zwischen den Geburten, d.h.
xi=ti−ti−1,t0=0
wird eine Exponentialverteilung mit unbekanntem Parameter λ>0 angenommen.
(a) Wie lautet die Likelihoodfunktion von λ bezüglich der iid Stichprobe x=(x1,…,xn)T? Bestimmen Sie den ML-Schätzer von λ zunächst allgemein und anschließend für den babyboom-Datensatz.
GPT
Die Aufgabe besteht darin, die Likelihood-Funktion für den Parameter λ einer Exponentialverteilung zu formulieren und den Maximum-Likelihood-Schätzer (ML-Schätzer) für λ zu finden.
Likelihood-Funktion
Die Wahrscheinlichkeitsdichte einer Exponentialverteilung für eine Beobachtung (x) ist gegeben durch:
f(x;λ)=λe−λx
Für eine Stichprobe x1,…,xn, die aus unabhängigen und identisch verteilten (iid) Beobachtungen besteht, ist die Likelihood-Funktion L(λ) das Produkt der einzelnen Dichten:
L(λ;x1,…,xn)=i=1∏nλe−λxi=λne−λ∑i=1nxiλ=x1
Maximum-Likelihood-Schätzung von λ
Zur Bestimmung des ML-Schätzers für λ maximieren wir die Likelihood-Funktion, wobei es oft einfacher ist, die Log-Likelihood-Funktion zu maximieren:
logL(λ)=nlog(λ)−λi=1∑nxi
Durch Ableiten der Log-Likelihood nach λ und Nullsetzen der Ableitung erhalten wir:
dλdlogL(λ)=λn−i=1∑nxi=0
Lösen dieser Gleichung ergibt den ML-Schätzer:
λ^=∑i=1nxin
Das bedeutet, λ^ ist der Kehrwert des Stichprobenmittels der xi, also der durchschnittlichen Zeit zwischen den Geburten.
Spezifische Berechnung für den babyboom-Datensatz
Für die konkrete Berechnung mit dem babyboom-Datensatz müssen die Differenzen xi=ti−ti−1 mit t0=0 berechnet werden, und dann kann λ^ als oben angegeben bestimmt werden.
Berechnung
Lassen Sie uns die Berechnung des Maximum-Likelihood-Schätzers λ^ für den Parameter λ der Exponentialverteilung anhand der gegebenen Geburtszeiten durchführen. Hier die Schritte:
Berechnen der Zeitintervalle xi: Wir subtrahieren jede Geburtszeit von der vorherigen, um die Intervalle zwischen den Geburten zu bestimmen.
Summieren der xi: Die Summe dieser Intervalle wird benötigt, um λ^ zu berechnen.
Anwenden der Formel für λ^: Der ML-Schätzer λ^ ist der Kehrwert des Durchschnitts dieser Intervalle, also λ^=∑i=1nxin, wobei n=44.
Hier die konkrete Berechnung:
import numpy as np# Geburtszeiten in Minuten ab Mitternachtbirth_times = np.array([5, 64, 78, 115, 177, 245, 247, 262, 271, 428, 455, 492, 494, 549, 635, 649, 653, 693, 729, 776, 785, 846, 847, 873, 886, 914, 991, 1017, 1062, 1087, 1105, 1134, 1149, 1187, 1189, 1191, 1210, 1237, 1251, 1264, 1283, 1337, 1407, 1435])# Berechnung der Zeitintervalle zwischen den Geburtentime_intervals = np.diff(birth_times, prepend=birth_times[0])# Summe der Zeitintervalletotal_time = np.sum(time_intervals)# Anzahl der Geburtenn = len(birth_times)# Berechnung des ML-Schätzers für lambdalambda_hat = n / total_timeprint(lambda_hat)
Die letzte Zeile gibt den Schätzwert für λ zurück, welcher die erwartete Anzahl von Geburten pro Minute angibt, basierend auf den beobachteten Intervallen.
Der berechnete Maximum-Likelihood-Schätzer λ^ für den Parameter λ der Exponentialverteilung, basierend auf den gegebenen Geburtszeiten, beträgt etwa 0.0307. Dieser Wert repräsentiert die geschätzte Rate der Geburten pro Minute, d.h., es wird im Durchschnitt alle 0.03071≈32.6 Minuten eine Geburt erwartet.
λ^ML=Σxi1
## (b) Zeigen Sie, dass die Familie der Gamma-Verteilungen
>
\mathcal{F} = \left{ f(x) = \frac{b^a}{\Gamma(a)} x^{a-1} \exp(-bx) : a, b > 0 \right}
konjugiert ist zur $\text{Exp}(\lambda)$-Verteilung und bestimmen Sie die Posteriori $p(\lambda|x)$.
GPT
Um zu zeigen, dass die Familie der Gamma-Verteilungen konjugiert zur Exponentialverteilung ist, gehen wir schrittweise vor. Die Exponentialverteilung und die Gamma-Verteilung sind wichtige Mitglieder in der Familie der Exponentialfamilien, und ihre konjugierte Beziehung ist nützlich für Bayesianische Inferenz.
Voraussetzungen und Definitionen
Die Exponentialverteilung hat die Wahrscheinlichkeitsdichte:
Exp(λ)(x)=λe−λxfu¨r x≥0
wo λ>0 der Rate-Parameter ist. Die Gamma-Verteilung hat die Wahrscheinlichkeitsdichte:
Gamma(a,b)(x)=Γ(a)baxa−1e−bxfu¨r x≥0
wobei a>0 der Formparameter (manchmal auch “shape parameter” genannt) und b>0 der Ratenparameter ist.
Konjugierte Priori für die Exponentialverteilung
Eine Priori-Verteilung wird als konjugiert zur Likelihood-Funktion einer bestimmten Verteilung betrachtet, wenn das Posterior die gleiche Form wie der Prior hat. Für die Exponentialverteilung zeigt sich, dass die Gamma-Verteilung eine konjugierte Priori ist.
Wenn wir λ als zufällige Variable betrachten und annehmen, dass λ gamma-verteilt ist, können wir dies wie folgt formulieren:
λ∼Gamma(a,b)
Likelihood-Funktion
Gegeben eine Stichprobe x=(x1,x2,…,xn) von unabhängigen und identisch verteilten Exponentialverteilungen, ist die gemeinsame Likelihood-Funktion gegeben durch:
L(λ∣x)=λne−λ∑i=1nxi
Berechnung des Posterior
Die Posterior-Verteilung von λ nach Beobachtung von x wird unter der Annahme eines Gamma-Prior Gamma(a,b) berechnet. Das Bayes-Theorem besagt, dass das Posterior proportional zum Produkt aus Prior und Likelihood ist:
p(λ∣x)∝p(λ)⋅L(λ∣x)
Einsetzen der entsprechenden Dichten ergibt:
p(λ∣x)∝Γ(a)baλa−1e−bλ⋅λne−λ∑i=1nxi
Vereinfachen führt zu:
p(λ∣x)∝λa−1+ne−λ(b+∑i=1nxi)
Die resultierende Form ist wieder eine Gamma-Verteilung, und wir können die neuen Parameter identifizieren:
λ∣x∼Gamma(a+n,b+i=1∑nxi)
Zusammenfassung
Die Posterior-Verteilung für λ, nachdem die Daten x beobachtet wurden, wenn λ ursprünglich eine Gamma-Verteilung Gamma(a,b) folgte, ist somit:
p(λ∣x)=Gamma(a+n,b+i=1∑nxi)
Dies zeigt, dass die Familie der Gamma-Verteilungen konjugiert zur Exponentialverteilung ist, weil das Posterior dieselbe Form wie der Prior hat, lediglich mit aktualisierten Parametern.
λ^ML=Σxin
(c) Berechnen Sie den Theoretischen Posteriori-Erwartungswert] E(λ∣x) und den Posteriori-Modus argmaxλp(λ∣x). Vergleichen Sie die Bayesianischen Schätzer mit dem ML-Schätzer.
(d) Zeichnen Sie die Posteriori für den babyboom Datensatz, wenn als Priori-Parameter a=b=10−3 gewählt werden. Visualisieren Sie die drei Schätzer aus Aufgabe c).
(e) Ziehen Sie N=200 Realisierungen aus der Posteriori. Visualisieren Sie die Schätzung der Posteriori-Dichte. Bestimmen Sie aus den Ziehungen den Posteriori-Erwartungswert, -Median und -Modus empirisch. Hinweis: Verwenden Sie für den Modus den Befehl density.
(f) Berechnen Sie die Priori-Variant für λ∼Ga(a,b) sowie die Posteriori-Varianz für λ∣x. Vergleichen Sie für verschiedene Werte von a und b Priori- und Posteriori-Varianz. Zeichnen Sie jeweils die Posteriori-Dichte. Welche Auswirkung hat hohe Priori-Varianz auf die Posteriori? Was passiert im Spezialfall b=0?
Hinweis: Die strukturierte Änderung von Priori-Parametern bezeichnet man als Sensitivitätsanalyse.
(g) Bestimmen Sie die prädiktive Posteriori für eine neue Zwischenzeit x~.
×
MyUniNotes is a free, non-profit project to make education accessible for everyone.
If it has helped you, consider giving back! Even a small donation makes a difference.
These are my personal notes. While I strive for accuracy, I’m still a student myself. Thanks for being part of this journey!