TODO:
- [[BaySta-Blatt-1#Aufgabe 2#(e) Wie hoch ist die Wahrscheinlichkeit, dass eine Person bei der bei diesem Vorgehen der PCR-Test positiv ist, tatsächlich Corona-infiziert ist?|BaySta-1-2e nochmal machen]] [completion:: 2024-07-15]
- BaySta 1-3 checken [completion:: 2024-07-15]
Aufgabe 1
Aufgabenstellung
Eine Schokoladenfabrik stellt Pralinen her, die jeweils eine Kirsche enthalten. Die benötigten Kirschen werden an zwei Maschinen entkernt. Maschine A liefert 70 % dieser Kirschen, wobei 8 % der von A gelieferten Kirschen den Kern noch enthalten. Maschine B produziert 30 % der benötigten Kirschen, wobei 5 % der von B gelieferten Kirschen den Kern noch enthalten. Bei einer abschließenden Gewichtskontrolle werden 95 % der Pralinen, in denen ein Kirschkern enthalten ist, aussortiert, aber auch 2 % der Pralinen ohne Kern.
(a) Modellieren Sie diesen mehrstufigen Vorgang geeignet. Wie groß ist die Wahrscheinlichkeit, dass eine Praline mit Kirschkern in den Verkauf gelangt?
- Maschine A liefert 70% der Kirschen mit Fehlerquote von 8%
- Maschine B liefert 30% der Kirsche mit Fehlerquote von 5%
- Endkontrolle:
- 95% der Pralinen mit Kern werden korrekt aussortiert
- 2% der Pralinen ohne Kern werden fälschlicherweise aussortiert
Gefragt ist nach: Praline mit Kirschkern wird nicht aussortiert
(b) Ein Kunde kauft eine Packung mit 100 Pralinen. Wie groß ist die Wahrscheinlichkeit, dass nur gute Pralinen, also Pralinen ohne Kirschkern, in der Packung sind?
Muss noch aussgebessert werden vergleiche ML
Aufgabe 2
Aufgabenstellung
Nehmen wir an, die Prävalenz von Corona an einem gewissen Tag liege bei 20 ansteckenden Personen bei 100.000 Einwohnern.
Die Spezifität (Wahrscheinlichkeit, dass der Test einer gesunden Person negativ ausfällt) eines Antigen-Tests liege bei 98%. Die Sensitivität (Wahrscheinlichkeit, dass der Test bei einer erkrankten Person positiv ausfällt) des Antigen-Tests liege bei 90%.
Die Spezifität eines PCR-Tests liege bei 99%. Die Sensitivität des PCR-Tests liege bei 98%.
Es sei folgendes Vorgehen üblich: Es wird erst ein Antigen-Test durchgeführt. Fällt er positiv aus, so wird ein PCR-Test ausgeführt.
(a) Formulieren Sie die hier dargestellten Ereignisse und Wahrscheinlichkeiten.
Antigen-Test:
PCR-Test:
(b) Wie hoch ist die Wahrscheinlichkeit, dass eine Person, bei der auch der PCR-Test positiv ist, tatsächlich Corona-infiziert ist?
Um die Wahrscheinlichkeit zu bestimmen, dass eine Person tatsächlich Corona-infiziert ist, nachdem sowohl der Antigen-Test als auch der PCR-Test positiv ausgefallen sind, können wir den Satz von Bayes verwenden. Wir formulieren die erforderlichen Wahrscheinlichkeiten und wenden die Gesetze der Wahrscheinlichkeit an:
Gegeben:
Berechnung der Wahrscheinlichkeiten:
-
Wahrscheinlichkeit, dass beide Tests positiv sind, wenn die Person krank ist:
-
Wahrscheinlichkeit, dass beide Tests positiv sind, wenn die Person nicht krank ist:
-
Gesamtwahrscheinlichkeit, dass beide Tests positiv sind:
Anwendung der Bayes-Formel:
Antwort:
Die Wahrscheinlichkeit, dass eine Person tatsächlich Corona-infiziert ist, nachdem sowohl der Antigen-Test als auch der PCR-Test positiv ausgefallen sind, beträgt ungefähr .
(c) Wie hoch ist die Wahrscheinlichkeit, dass eine infizierte Person nicht erkannt wird?
Aufgepasst!
Es ist wichtig, den Unterschied zu verstehen: gibt die Wahrscheinlichkeit an, dass der Test negativ ist, obwohl die Person infiziert ist. Dies ist relevant, um die Zuverlässigkeit des Tests zu bewerten. Hingegen bedeutet , dass eine Person tatsächlich infiziert ist, obwohl ihr Test negativ ausgefallen ist. Diese Wahrscheinlichkeit ist wichtig, um das Risiko einer unerkannten Infektion bei einem negativen Testergebnis einzuschätzen.
Die Wahrscheinlichkeit, dass der Antigen-Test negativ ist, obwohl die Person infiziert ist (Fehlalarmrate oder Fehler 2. Art), ist das Komplement der Sensitivität des Tests:
Der Fall Antigen positiv PCR negativ fehlt und muss ergänzt werden
Spezifität benutzen nicht Sensitivität
Diese Wahrscheinlichkeit gibt an, dass 10 % der tatsächlich infizierten Personen durch den Antigen-Test nicht erkannt werden. Der PCR-Test ist nicht nötig, da dieser bei einem negativen Antigen-test nicht ausgeführt wird.
Aufgabenstellung
Alternativ ist folgendes Vorgehen üblich: Es werden nur Personen mit starken Symptomen getestet. Das betrifft etwa 2% der Personen. Wir können annehmen, dass unter diesen etwa 1% der Personen infiziert sind.
Es ändert sich nur die Prävalenz auf 0.01 ist einfach mies formuliert in der Aufgabenstellung
(d) Formulieren Sie die hier dargestellten Ereignisse und Wahrscheinlichkeiten.
(e) Wie hoch ist die Wahrscheinlichkeit, dass eine Person bei der bei diesem Vorgehen der PCR-Test positiv ist, tatsächlich Corona-infiziert ist?
Saß zu lange an dieser Aufgabe, hab aufgegeben (easily 1.5h+ input) 🪦
- Welche Schritte wie das ganze angehen?
- Meine probierte Lösung ist unter dem Trennstrich
- Es fehlt bzw
Gesucht
Die Wahrscheinlichkeit , dass eine Person, die einen positiven PCR-Test hat, tatsächlich mit Corona infiziert ist, nachdem zuvor ein positiver Antigen-Test vorliegt.
Gegeben
- (Wahrscheinlichkeit, dass eine Person krank ist, gegeben dass sie starke Symptome zeigt)
- (Wahrscheinlichkeit, dass eine Person starke Symptome zeigt)
- (Sensitivität des PCR-Tests)
- (Spezifität des PCR-Tests)
- (Sensitivität des Antigen-Tests)
- (Wahrscheinlichkeit eines falsch positiven Antigen-Tests, abgeleitet aus der Spezifität von 98%)
Berechnung
Die Gesamtwahrscheinlichkeit eines positiven PCR-Tests unter Personen mit einem vorherigen positiven Antigen-Test ist:
Die Wahrscheinlichkeit, dass eine Person, die einen positiven PCR-Test hat, tatsächlich mit Corona infiziert ist, gegeben dass zuvor ein Antigen-Test positiv war, beträgt:
Dies berücksichtigt das Vorgehen, bei dem nur Personen mit einem vorherigen positiven Antigen-Test anschließend einen PCR-Test erhalten.
Gesucht:
Bekannt:
(f) Wie hoch ist die Wahrscheinlichkeit, dass eine infizierte Person nicht erkannt wird?
Frage::Frage Ist das nicht gleich zur Teilaufgabe davor?
Gesucht:
Aufgabe 3
Unterschied zwischen Stetigkeit und Diskretheit
Aufgabenstellung
Wir betrachten ein Binomial-Experiment. Sei . Wir betrachten im Folgenden zwei Ansätze:
- ist stetig
- sei diskret und nehme Werte auf einem Gitter an.
(a) Ausgehend von Laplace’ Prinzip vom unzureichenden Grund: Wie sieht in beiden Fällen die Priori von aus?
Priori Verteilung bedeutet, dass eine stetige Gleichverteilung ist, die als dargestellt wird
1.Fall:
- ist stetig
- Da und
- Das bedeutet, dass die Wahrscheinlichkeit für jeden Wert von innerhalb dieses Bereichs gleich ist, und die kumulative Verteilungsfunktion (CDF) ist: Fall 2:
- ist diskret und nimmt Werte auf einem Gitter an
Erklärung
Das obige zeigt eine Aufgabenstellung zur Bayes-Statistik mit Bezug auf das Laplace’sche Prinzip des unzureichenden Grundes. Wir betrachten ein Binomial-Experiment, bei dem die Wahrscheinlichkeit eine unbekannte Größe ist, und es wird eine Priori-Verteilung für auf Basis dieses Prinzips gesucht. Hier wird zwischen zwei Fällen unterschieden: einer stetigen und einer diskreten Verteilung von .
Stetige Gleichverteilung (Fall 1)
In einer stetigen Gleichverteilung hat jedes Element im Intervall die gleiche Wahrscheinlichkeit. Die Dichte wird als konstant für alle im Intervall angenommen, da die Fläche unter der Dichtefunktion 1 sein muss (was die Gesamtwahrscheinlichkeit repräsentiert). Für und (wie es im Fall der Binomialverteilung für eine Wahrscheinlichkeit sinnvoll ist), ist die Dichte einfach . Dies bedeutet, dass jedes im Intervall gleich wahrscheinlich ist. Die kumulative Verteilungsfunktion (CDF) gibt die Wahrscheinlichkeit an, dass die Zufallsvariable kleiner oder gleich einem bestimmten Wert ist. Für eine stetige Gleichverteilung ist die CDF einfach , weil sie linear von 0 bis 1 ansteigt.
Diskrete Gleichverteilung (Fall 2)
Für eine diskrete Gleichverteilung, bei der die Zufallsvariable nur bestimmte Werte annehmen kann (hier ein Gitter von 0 bis 1 in Schritten von 0.01), wird jedem dieser Punkte die gleiche Wahrscheinlichkeit zugeordnet. Da es 101 solche Punkte gibt, ist die Wahrscheinlichkeit für jeden Punkt . In beiden Fällen geht man davon aus, dass man keine Informationen über hat, außer dass es zwischen 0 und 1 liegt. Daher behandelt man alle möglichen Werte von als gleich wahrscheinlich. In der Bayes-Statistik werden diese Priori-Verteilungen genutzt, um sie mit den Daten zu kombinieren und so eine Posteriori-Verteilung zu erhalten. Diese reflektiert dann sowohl das Vorwissen (die Priori-Verteilung) als auch die Informationen aus den Daten.
(b) Leiten Sie jeweils die Posteriori für her. [[Erstellung der Posteriori-Verteilung im Bayes’schen Kontext|(Erstellung der Posteriori-Verteilung im Bayes’schen Kontext)
k auswechseln mit x
Lösung
Die Posteriori-Wahrscheinlichkeit ist die Wahrscheinlichkeit für den Parameter gegeben die beobachteten Daten . Um diese zu berechnen, verwenden wir das Bayes’sche Theorem:
Schritte zur Herleitung der Posteriori-Verteilung
Bestimmung der Likelihood :
Die Likelihood-Funktion für ein Binomial-Experiment mit Versuchen und Erfolgen ist gegeben durch die Binomialverteilung:Bestimmung der Priori-Verteilung :
Wenn keine vorherige Information über vorliegt, nehmen wir an, dass gleichverteilt ist. Das bedeutet:
Für eine stetige Gleichverteilung:
Für eine diskrete Gleichverteilung auf einem Gitter von 0 bis 1 in Schritten von 0.01:
Bestimmung der Marginal Likelihood :
Die Marginal Likelihood ist die Wahrscheinlichkeit der beobachteten Daten über alle möglichen Werte von . Dies ist die Summe (im diskreten Fall) oder das Integral (im stetigen Fall) der Likelihood multipliziert mit der Priori-Verteilung.
Für eine stetige Gleichverteilung:
Für eine diskrete Gleichverteilung:
Berechnung der Posteriori-Verteilung
Mit der Likelihood, der Priori-Verteilung und der Marginal Likelihood können wir nun die Posteriori-Verteilung berechnen. Diese gibt uns die aktualisierte Wahrscheinlichkeit für nach dem Beobachten der Daten .
Für eine stetige Gleichverteilung:
Für eine diskrete Gleichverteilung:
Step by Step Merkhilfe
Schritt 1: Verstehen des Bayes’schen Theorems
Starten Sie mit dem Bayes’schen Theorem:
Schritt 2: Likelihood-Funktion definieren
Die Likelihood für ein Binomial-Experiment ist:
Hierbei steht für die Gesamtzahl der Versuche, für die Anzahl der Erfolge und für die Erfolgswahrscheinlichkeit.
Schritt 3: Priori-Verteilung wählen
Entscheiden Sie sich für eine angemessene Priori-Verteilung . Für eine uniforme Priori:
- Stetig: für in .
- Diskret: für in .
Schritt 4: Marginal Likelihood bestimmen
Berechnen Sie die Marginal Likelihood :
- Stetig: .
- Diskret: .
Schritt 5: Posteriori-Verteilung berechnen
Setzen Sie die Likelihood und die Priori in das Bayes’sche Theorem ein, um die Posteriori-Verteilung zu ermitteln:
- Stetig:
- Diskret:
Schritt 6: Posteriori-Verteilung interpretieren
Verwenden Sie die Posteriori-Verteilung, um aktualisierte Wahrscheinlichkeiten für zu erhalten, basierend auf den beobachteten Daten .
(c) Berechnen Sie jeweils den Posteriori-Erwartungswert und den Posteriori-Median für folgende Daten:
Lösung
Posteriori-Erwartungswert und -Median für Binomialdaten
Um den Posteriori-Erwartungswert und den Posteriori-Median für die gegebenen Daten unter Verwendung der zwei unterschiedlichen Priori-Annahmen zu berechnen, müssen wir zuerst das Bayesianische Update für die Wahrscheinlichkeit durchführen, gegeben die Daten , wobei und . Die Beobachtungen folgen einer Binomialverteilung.
Fall 1: Stetige Gleichverteilung von ()
Priori
Die Priori-Verteilung von ist , was bedeutet, dass sie eine Beta-Verteilung mit Parametern und ist: .
Likelihood
Die Likelihood-Funktion für die Beobachtungen aus einer Binomialverteilung mit den gegebenen Parametern ist proportional zu:
Posteriori
Die Posteriori-Verteilung ist das Produkt von Priori und Likelihood, das ebenfalls eine Beta-Verteilung ergibt:
Berechnungen
Der Posteriori-Erwartungswert für eine Beta-Verteilung ist:
Der Posteriori-Median kann näherungsweise durch numerische Methoden berechnet werden, da für die Beta-Verteilung keine einfache analytische Lösung für den Median existiert. Der Median liegt jedoch nahe dem Erwartungswert.
Fall 2: Diskrete Gleichverteilung von
Priori
In diesem Fall ist diskret verteilt auf dem Gitter , und jeder Wert ist gleich wahrscheinlich.
Likelihood
Wie oben.
Posteriori
Für jede diskrete Stelle in berechnen wir das Posteriori proportional zu:
Anschließend normalisieren wir diese Wahrscheinlichkeiten, damit sie sich zu 1 summieren. Die Positionen des höchsten Wertes geben uns den Modus, und wir können die kumulativen Wahrscheinlichkeiten berechnen, um den Median zu finden.
Berechnungen
Der Posteriori-Erwartungswert für dieses Gitter kann näherungsweise berechnet werden als:
Der Posteriori-Median wird identifiziert, indem die kumulativen Wahrscheinlichkeiten berechnet werden, bis sie 0.5 erreichen.
Für präzisere numerische Berechnungen, besonders im diskreten Fall, sind Softwaretools wie Python oder R hilfreich, um die Wahrscheinlichkeiten zu berechnen und zu normalisieren.
Lösung
Posteriori-Erwartungswert und -Median für Binomialdaten
Um den Posteriori-Erwartungswert und den Posteriori-Median für die gegebenen Daten unter Verwendung der zwei unterschiedlichen Priori-Annahmen zu berechnen, müssen wir zuerst das Bayesianische Update für die Wahrscheinlichkeit durchführen, gegeben die Daten , wobei und . Die Beobachtungen folgen einer Binomialverteilung.
Fall 1: Stetige Gleichverteilung von ()
Priori
Die Priori-Verteilung von ist , was bedeutet, dass sie eine Beta-Verteilung mit Parametern und ist: .
Likelihood
Die Likelihood-Funktion für die Beobachtungen aus einer Binomialverteilung mit den gegebenen Parametern ist proportional zu:
Posteriori
Die Posteriori-Verteilung ist das Produkt von Priori und Likelihood, das ebenfalls eine Beta-Verteilung ergibt:
Berechnungen
Der Posteriori-Erwartungswert für eine Beta-Verteilung ist:
Der Posteriori-Median kann näherungsweise durch numerische Methoden berechnet werden, da für die Beta-Verteilung keine einfache analytische Lösung für den Median existiert. Der Median wird jedoch in der Nähe des Erwartungswertes liegen, leicht niedriger aufgrund der Schiefe der Verteilung.
Fall 2: Diskrete Gleichverteilung von
Priori
In diesem Fall ist diskret verteilt auf dem Gitter , und jeder Wert ist gleich wahrscheinlich.
Likelihood
Wie oben.
Posteriori
Für jede diskrete Stelle in berechnen wir das Posteriori proportional zu:
Anschließend normalisieren wir diese Wahrscheinlichkeiten, damit sie sich zu 1 summieren. Die Positionen des höchsten Wertes geben uns den Modus, und wir können die kumulativen Wahrscheinlichkeiten berechnen, um den Median zu finden.
Berechnungen
Der Posteriori-Erwartungswert für dieses Gitter kann näherungsweise berechnet werden als:
Der Posteriori-Median wird identifiziert, indem die kumulativen Wahrscheinlichkeiten berechnet werden, bis sie 0.5 erreichen.
Für präzisere numerische Berechnungen, besonders im diskreten Fall, sind Softwaretools wie Python oder R hilfreich, um die Wahrscheinlichkeiten zu berechnen und zu normalisieren.
, und
Fall 1: stetige Gleichverteilung von ( )
Priori
4
Likelihood
Posteriori
Posteriori-Erwartungswert
Posteriori-Median
Fall 2: Diskrete Gleichverteilung von
Priori
Likelihood
Posteriori
Posteriori-Erwartungswert
R-Code zur Berechnung
Frage gibt es einen anderen Weg zur Berechnung?
Posteriori-Median
Hierbei repräsentiert den Wert der diskreten Zufallsvariablen an der Stelle auf dem Gitter, und sind die Posteriori-Wahrscheinlichkeiten, kumuliert bis zum Punkt, wo die Summe zum ersten Mal übersteigt, was den Median definiert.
R-Code zur Berechnung
Frage gibt es einen anderen Weg zur Berechnung?
(d) Vergleichen Sie die Posteriori-Erwartungswerte und -Mediane mit beiden Ansätzen.
Zusammenfassung der Lösung
Vergleich von Posteriori-Erwartungswerten und Medianen
Die Analyse für und ergibt sowohl im stetigen als auch im diskreten Fall ähnliche Posteriori-Erwartungswerte, mit einem geringfügig höheren Wert im stetigen Fall () verglichen mit dem diskreten Fall (). Der Posteriori-Median im diskreten Fall () fällt niedriger aus, was typisch ist, da Mediane durch Extremwerte weniger beeinflusst werden. Im stetigen Fall wurde der Median nicht direkt berechnet, würde aber ähnlich liegen und leicht unter dem Erwartungswert, aufgrund der Schiefe der Beta-Verteilung.
Diese Ergebnisse illustrieren die Konsistenz der Bayesschen Methodik, da beide Ansätze trotz ihrer Unterschiede in Stetigkeit und Diskretheit zu vergleichbaren Schlüssen führen. Die Wahl des Ansatzes sollte auf den spezifischen Kontext der verfügbaren Daten und den gewünschten Detaillierungsgrad der Analyse abgestimmt werden.
Ausführliche Lösung
Stetige Gleichverteilung (Fall 1)
Für den stetigen Fall haben wir eine Beta-Verteilung als Priori genommen und aufgrund der beobachteten Daten die Parameter aktualisiert. Wir hatten dabei angenommen, dass und . Die Posteriori-Verteilung wäre dementsprechend eine -Verteilung.
- Posteriori-Erwartungswert:
- Posteriori-Median: Für Beta-Verteilungen ist eine geschlossene Form für den Median nicht einfach zu berechnen, aber der Median einer -Verteilung liegt nahe am Erwartungswert und ist wegen der Schiefe der Verteilung etwas niedriger als der Erwartungswert.
Diskrete Gleichverteilung (Fall 2)
Im diskreten Fall haben wir ein Gitter von möglichen Werten für betrachtet und für jeden dieser Werte die Posteriori-Wahrscheinlichkeiten berechnet.
- Posteriori-Erwartungswert:
- Posteriori-Median:
Vergleich der Ansätze
- Erwartungswerte: Die Posteriori-Erwartungswerte sind sehr ähnlich, aber nicht identisch, was auf die diskrete Natur des zweiten Ansatzes zurückzuführen ist.
- Mediane: Der Median im diskreten Fall ist explizit angegeben und etwas niedriger als der Erwartungswert. Im stetigen Fall haben wir den genauen Median nicht berechnet, aber aufgrund der Schiefe der Beta-Verteilung können wir erwarten, dass er ebenfalls etwas niedriger als der Erwartungswert ist.
Interpretation
In beiden Fällen spiegeln die Posteriori-Erwartungswerte und -Mediane die aktualisierte Überzeugung über die Erfolgswahrscheinlichkeit nach Berücksichtigung der beobachteten Daten wider. Der Erwartungswert gibt dabei einen zentralen Tendenzpunkt an, während der Median eine alternative punktuelle Schätzung ist, die von Extremwerten weniger beeinflusst wird.
Die Nähe der Ergebnisse zeigt, dass beide Ansätze zu ähnlichen Schlussfolgerungen führen, was die Robustheit der Bayesschen Analyse unterstreicht. In der Praxis würde die Wahl zwischen den Ansätzen von der Art der verfügbaren Informationen und der gewünschten Feinheit der Analyse abhängen.
(e) Welchen Ansatz würden Sie eher bevorzugen?
Aufgabe 4
Aufgabenstellung
Betrachten Sie das Poisson-Modell, d.h. und für den Parameter wird eine -Priori-Verteilung angenommen.
(a) Berechnen sie die Posteriori-Verteilung explizit, d.h. inklusive Normierungskonstante.
Hinweis
.
Die Posteriori-Verteilung ergibt sich aus dem Produkt der Likelihood-Funktion des Poisson-Modells und der Gamma-Priori-Verteilung. Für eine gegebene Anzahl von Ereignissen ist die Likelihood . Die Priori-Verteilung ist gegeben durch die Dichtefunktion der Gamma-Verteilung .
Das Produkt aus Likelihood und Priori ergibt die nicht normierte Posteriori-Verteilung:
Um die Normierungskonstante zu bestimmen, nutzen wir die Definition der Gamma-Funktion:
Die Posteriori-Verteilung, inklusive der Normierungskonstante, ist daher eine Gamma-Verteilung :
(b) Warum genügt es, die Posteriori nur bis auf eine multiplikative Konstante zu bestimmen?
Es genügt, die Posteriori nur bis auf eine multiplikative Konstante zu bestimmen, weil wir meistens an den relativen Wahrscheinlichkeiten von interessiert sind und nicht an den absoluten Wahrscheinlichkeiten. Für die meisten bayesianischen Inferenzprobleme, wie die Berechnung von Erwartungswerten oder die Bestimmung von Konfidenzintervallen, kürzt sich die Konstante heraus. Außerdem kann die Konstante oft komplex sein und ihre explizite Berechnung kann unnötig aufwändig sein, insbesondere wenn nur der Posteriori-Modus oder -Median und nicht die vollständige Posteriori-Verteilung von Interesse ist.
Aufgabe 4
Aufgabenstellung
Betrachten Sie das Poisson-Modell, d.h. und für den Parameter wird eine -Priori-Verteilung angenommen.
(a) Berechnen sie die Posteriori-Verteilung explizit, d.h. inklusive Normierungskonstante.
Hinweis
.