Grundlagen
In diesem Kapitel betrachten wir das Beispiel, das auf Thomas Bayes zurückgeht. Die Lernziele dieses Kapitels sind:
- Allgemeine Bayes-Formel für diskrete und stetige Dichten
- Wie man Informationen als Verteilung darstellt
- Was Vorinformation (a priori) ist
- Was die Posteriori-Verteilung ist und wie man sie verwendet
Beschreibung des Beispiels und der Daten
Der zentrale Begriff der Bayes-Statistik ist das Vorwissen oder a priori-Wissen. Wir werden untersuchen, wie wir Vorwissen bei Bayes’ Billiardkugeln ausdrücken können. Nachdem wir das a priori spezifiziert haben, können wir die Posteriori mit der allgemeinen Form des Satzes von Bayes berechnen.
Was bringt uns die Posteriori?
Die Posteriori ermöglicht es uns, unsere Annahmen basierend auf neuen Daten zu aktualisieren und genauere Schlussfolgerungen zu ziehen.
Überprüfen Sie Ihren Lernerfolg im Quiz
Testen Sie Ihr Verständnis der Bayes-Statistik durch das Quiz am Ende dieses Kapitels.
Geschichte der Bayes-Statistik
Etwas zur Geschichte der Bayes-Statistik wird abschließend beleuchtet.
Bayes’ Billardkugeln Teil 1
Die Billardkugeln
Das folgende Beispiel geht auf Thomas Bayes zurück und wird in An Essay towards solving a Problem in the Doctrine of Chance beschrieben (der Artikel wurde posthum zwei Jahre nach Bayes’ Tod von Richard Price veröffentlicht).
Eine weiße Billardkugel wird auf eine Gerade der Länge 1 gerollt.
Eine rote Kugel wird unter denselben Bedingungen n-mal gerollt. Sei die Zahl der Versuche, in denen die rote Kugel links von der ersten Kugel, also links von zu liegen kommt.
Welche Information über erhalten wir aus der Beobachtung ?
Visualisierung
Beispiel: Zuerst wird die weiße Kugel gerollt, sie kommt bei zu liegen. Danach wird die rote Kugel dreimal gerollt: zweimal kommt sie links von der weißen Kugel zu liegen, einmal rechts.
Schließlich wird die weiße Kugel entfernt. Können wir trotzdem etwas darüber aussagen, wo die weiße Kugel lag?
Kommen viele rote Kugeln links von der weißen zu liegen, können wir wohl vermuten, dass eher in der Nähe von 1 als in der Nähe von 0 ist.
Diese Vermutung gilt es jetzt zu quantifizieren.
Statistisch ausgedrückt
Wir bezeichnen mit
- die Zufallsvariable “Punkt an der die weiße Kugel zu liegen kommt”
- eine Ausprägung der Zufallsvariable , also das Ergebnis des Experiments
- sie die Zufallsvariable “Anzahl der roten Kugeln, die links von der weißen Kugeln zu liegen kommen”
- eine Ausprägung der Zufallsvariable , also das konkrete Ergebnis des Experiments
- die Anzahl der roten Kugeln, die insgesamt gerollt werden.
In obigem Beispiel wäre also und . dagegen kennen wir nicht.
Das Experiment lässt sich also wie folgt darstellen:
- Gegeben sei eine Folge von unabhängigen 0/1-Experimenten (Bernoulli-Experimenten) – jeweils das Rollen der roten Kugeln, die entweder links oder rechts von der weißen zu liegen kommen
- Die Erfolgswahrscheinlichkeit (der Parameter) ist erstmal unbekannt, sie ist die Realisation der Zufallsgröße und ergibt sich aus dem Rollen der weißen Kugel.
- Die Experimente (Rollen der roten Kugeln) sind nicht unabhängig, da sie alle von der Zufallszahl abhängen
- Gegeben dem Ergebnis der weißen Kugel (also bedingt auf ) sind die einzelnen Experimente “Rollen der roten Kugeln” aber unabhängig
Was erfahren wir über , wenn wir die Ergebnisse der 0/1-Experimente kennen, oder anders ausgedrückt: Wie lautet die Verteilung von ?
Datenmodell
Wir beginnen damit, uns die Wahrscheinlichkeitsverteilung der Beobachtungen oder Daten anzusehen.
Nehmen wir dafür erstmal an, die weiße Kugel sei bereits gerollt und liege auf dem Punkt . Wir rollen eine rote Kugel. Dann ist die Wahrscheinlichkeit, dass die rote Kugel links von der weißen zu liegen kommt gleich . Es handelt sich um ein Bernoulli-Experiment.
Rollen wir Kugeln (oder n-mal die selbe rote Kugel), so handelt es sich um ein Binomialexperiment mit Erfolgswahrscheinlichkeit .
Wahrscheinlichkeit der Beobachtung
Für , also einmaliges Rollen der roten Kugel ist die Wahrscheinlichkeit dafür, dass , also die rote Kugel links von der weißen zu liegen kommt gleich ; für ist die Wahrscheinlichkeit . Zusammenfassend lässt sich schreiben:
Gegeben ist also die (bedingte) Wahrscheinlichkeit für beim n-maligen Rollen
wobei der Binomialkoeffizient ist (auf wie viele verschiedene Arten man Erfolge bei Versuchen erhalten).
Wahrscheinlichkeitsdichte
-
Für diskrete Zufallsvariablen - also Zufallsvariablen, die nur abzählbar viele Werte annehmen können - bezeichnet man die Wahrscheinlichkeit auch als Wahrscheinlichkeitsdichte.
-
In diesem Fall ist die Wahrscheinlichkeitsdichte unserer Beobachtungen bzw. Daten. Wir nennen sie daher Datendichte
-
Auch der Begriff Likelihood (zu deutsch etwa Plausibilität) wird für die Datendichte benutzt. Hintergrund: Bei der Likelihood-Inferenz benutzt man als Funktion in (und nicht als Wahrscheinlichkeit von ).
-
Die Datendichte bzw. Likelihood beschreibt uns allgemein den Zusammenhang zwischen Daten und dem unbekannten Wert (Parameter) .
-
Zur Vereinfachung schreiben wir statt : als Zeichen dafür, dass es sich um eine Dichte handelt; die Zufallszahlen und lassen wir weg, weil wir wissen, dass und Realisationen der Zufallsgrößen und sind.
Bayes’ Billardkugeln Teil 2
Vorwissen
Um nun mit dem Satz von Bayes eine Aussage über gegeben zu machen, brauchen wir eine Wahrscheinlichkeitsaussage für . Was wissen wir über vor der Beobachtung?
Zur Erinnerung: ist eine Zufallsvariable, deren Realisation. Lassen Sie sich nicht dadurch verwirren, dass wir hier den Buchstaben für eine Zufallsvariable verwenden, statt wie üblich oder .
Wir nehmen an, dass die weiße Kugel keinen Ort bevorzugt, d.h., jeder Wert für ist gleich wahrscheinlich.
Diskrete Gleichverteilung
Lassen wir für z.B. nur die Werte 0, 0.01, 0.02,…, 0.99, 1 zu, dann wäre unsere Vorannahme, dass jeder dieser Werte gleich wahrscheinlich ist. Wir haben diesen Ansatz bereits als Laplace-Wahrscheinlichkeit kennengelernt.
Unter dieser Annahme …
… ist die Wahrscheinlichkeit, dass
\pi
gleich 0.5 ist gleich…
- ½
- 1/100
- 1/101
Lösung
1/101
Wir sagen, ist diskret gleichverteilt oder auch Laplace-verteilt.
Allgemein ist die Laplace-Wahrscheinlichkeit:
Nun kann man mit Recht aber sagen, dass auch Werte zwischen z.B. 0.01 und 0.02 annehmen kann. Im Prinzip kann beliebige reelle Werte zwischen 0 und 1 annehmen, also im Intervall [0,1].
Berechnen wir dann die Laplace-Wahrscheinlichkeit für das Eintreten eines reellen Wertes zwischen 0 und 1:
Da es aber (überabzählbar) unendlich viele mögliche reelle Werte zwischen 0 und 1 gibt, ist !
Diese Aussage ist korrekt; für stetige Zufallsvariablen tritt jeder Wert mit Wahrscheinlichkeit 0 ein. Aber wir können diese Wahrscheinlichkeit natürlich nicht sinnvoll in den Satz von Bayes einsetzen.
Wenn
P(B|A)=0
ist, dann gilt nach dem Satz von Bayes automatisch:
- lässt sich nicht berechnen
Lösung
P(A|B)
= 0
Dichte
Wir brauchen daher den Begriff der stetigen Dichte für stetige Zufallsvariablen, also Zufallsvariablen mit überabzählbar vielen möglichen Ergebnissen.
Sei eine stetige Zufallsvariable. Dann nennen wir die Funktion
die Verteilungsfunktion von (gleich der Wahrscheinlichkeit, dass kleiner als ist)
die stetige Dichte von (gleich der Ableitung der Verteilungsfunktion).
Es gilt für ein Intervall
Beispiel für eine stetige Verteilung
Ein Beispiel für eine stetige Verteilung ist die Beta-Verteilung. Diese hat zwei Parameter (a) und (b), die die Form ihrer Dichte bestimmen. Eine Zufallsvariable
kann Werte zwischen 0 und 1 annehmen.
- Parameter
- Parameter
Diskrete und stetige Dichten
Es existiert eine mathematische Theorie, die diskrete und stetige Verteilungen einheitlich definiert. Aus dieser Theorie heraus können wir diskrete (Wahrscheinlichkeits-)Dichten und stetige Dichten analog verwenden.
Das gilt auch für bedingte Wahrscheinlichkeit, für die sich entsprechend bedingte Dichten definieren lassen:
Eigentlich sollte man hier schreiben, zur Übersichtlichkeit verwenden wir die Kurzschreibweise für die bedingte Dichte von gegeben .
Satz von Bayes mit Dichten
Der Satz von Bayes lässt sich entsprechend auch mit Dichten schreiben:
Für rein diskrete Probleme werden die Dichten durch Wahrscheinlichkeiten ersetzt und wir sind wieder bei der ursprünglichen Form. Oft ersetzt man die Schreibweise durch , um klar zu machen, dass hier die Posteriori-Dichte berechnet wird. Analog wird auch für die Priori-Dichte statt benutzt:
Normalisierungskonstante
Die Berechnung des Terms (die sogenannte Normalisierungskonstante, den Grund dafür sehen wir später) hängt davon ab, ob diskret oder stetig ist:
-
Ist diskret, dann gilt (wie zuvor Satz von der totalen Wahrscheinlichkeit).
-
Ist stetig, dann gilt (wir “integrieren raus”).
Vorwissen über
Kommen wir zurück zur Frage: Wie können wir vor dem Experiment Aussagen über die Zufallsvariable (“Punkt an der die weiße Kugel zu liegen kommt”) machen.
-
Wir nehmen an, dass die weiße Kugel keinen Ort bevorzugt (zumindest wissen wir nichts anderes).
-
Für stetige Zufallsvariablen heißt das, die Dichte ist überall gleich!
-
Statistisch gesehen nehmen wir die stetige Gleichverteilung für auf dem Intervall [0, 1] an (). Die Priori-Dichte von ist dann also
Für Werte von oder ist die Dichte 0 - der Fall kann nicht eintreten!
Nebenbemerkung: Für jedes Intervall mit gilt dann:
Vorwissen oder: Die Priori
Diese Angabe ist die Vorinformation über vor (lateinisch a priori) Beobachtung der roten Kugeln, die sogenannte Priori-Verteilung von . Information liegt uns in Form einer Verteilung vor. Das ist ganz allgemein in der Bayes-Statistik der Fall: Verteilung entspricht Information.
Nebenbemerkung: Die Schreibweise für eine Dichte erscheint Ihnen eventuell erstmal ungewohnt. In der Bayesschen Statistik nennen wir aber nicht nur Verteilungen für die Daten an, sondern auch für viele Parameter (hier ). Der Umgang mit Dichten von Parametern unterscheidet sich nicht von dem mit Dichten von Daten, sowohl Daten als auch Parameter sind Bayessche gesehen Zufallsgrößen!
Vorwissen als Priori-Dichte: π liegt irgendwo zwischen 0 und 1
Bayes’ Billardkugeln Teil 3
Die Bayes-Formel
Nun können wir Datendichte und Priori(-dichte) kombinieren. Der Satz von Bayes lautet ja:
-
ist die Dichte der Verteilung von gegeben . Also genau das was wir suchen: Information über nach (lateinisch: a posteriori) unserer Beobachtung . Information stellen wir – wie bei der Priori – als Verteilung dar. Wir nennen diese bedingte Verteilung die Posteriori-Verteilung.
-
Die Verteilung wird durch ihre Dichte festgelegt. Entsprechend bezeichnen wir als Posteriori-Dichte.
-
In der Praxis unterscheidet man sprachlich kaum zwischen Posteriori-Verteilung und Posteriori-Dichte (auch wenn es unterschiedliche Konzepte sind), sondern spricht nur von der Posteriori. Damit lässt sich die Bayes-Formel auch so darstellen:
-
Wichtig: Im Beispiel ist eine stetige Dichte; eine diskrete Wahrscheinlichkeitsdichte. Für den Satz von Bayes ist es aber egal, ob wir diskrete oder stetige Dichten verwenden.
-
Beachten Sie, dass wir in der Formel und unterdrücken – vergessen Sie aber nicht, dass und Realisationen von Zufallszahlen sind. Formal richtig müssten wir schreiben:
-
für die Dichte von
-
für die Dichte von gegeben
-
Normalisierungskonstante
-
Die Bayes-Formel kombiniert also Datenmodell (Likelihood) und Priori zur Posteriori.
-
Zusätzlich brauchen wir . Die Funktion hängt nicht von ab, also bezüglich der Dichte von eine Konstante. Wir nennen Normalisierungskonstante, weil sie sicherstellt, dass gilt (für diskretes : ).
-
Wir können im Satz von Bayes auch das Zeichen "" (sprich: proportional zu) benutzen. Das Zeichen bedeutet, dass sich linke und rechte Seite bis auf eine Konstante entsprechen:
oder informell:
- Wichtig dabei: “Konstant” in der Normalisierungskonstante bezieht sich auf . Die Normalisierungskonstante ist eine Funktion in , also der Beobachtung. Alle Aussagen gehen aber immer davon aus, dass wir die Beobachtung gemacht haben, also bekannt und damit fest ist.
Die Posteriori
In unserem Billard-Beispiel ergibt sich (für ):
oder wieder mit dem Proportionalitätszeichen:
Wir nennen den Teil der Dichte ohne Konstanten den Kern der Dichte. Da eine Dichte ist, muss gelten. Die
Dichte (und damit die Verteilung) ist also durch den Kern festgelegt, da gilt:
Die Posteriori im Billard-Beispiel
Schauen wir uns den Kern genauer an. Vorsichtig, es handelt sich um eine Funktion in bei festem (gegebenem, da beobachtetem) !
Der Kern der Dichte dieser Posterioriverteilung ist der Kern einer Beta-Verteilung. Allgemein ist die Dichte einer Beta-Verteilung mit Parametern und definiert als:
für . Dabei ist die Beta-Funktion, die uns hier nicht weiter interessiert. Setzen wir also , und , ist die Posteriori-Dichte identisch mit der Dichte einer Beta()-Verteilung.
Priori und der Posteriori
Beispiel: mal Rollen der roten Kugeln, kommt sie links von der weißen Kugel zu liegen. Die Posteriori-Verteilung ist also die Beta(16,6)-Verteilung.
Für Werte von zwischen (etwa) 0.55 und 0.9 ist die Posteriori-Dichte höher als die Priori-Dichte. “Wahrscheinlich” liegt also in diesem Intervall. Für Werte von kleiner 0.4 und größer 0.95 ist die Posteriori-Dichte dagegen praktisch gleich Null, sprich: diese Werte können wir, gegeben der Beobachtung , ziemlich sicher ausschließen. Werte von kleiner als 0 und größer als 1 sind komplett ausgeschlossen, hier sind Priori- und Posteriori-Dichte jeweils gleich 0.
Bemerkung zur Priori
Übrigens lässt sich auch unsere Priori, also die Gleichverteilung auf [0, 1], als Spezialfall der Beta-Verteilung interpretieren. Für und ist
Es gilt also a priori !
Konjugiertheit
Den Kern der Posterioridichte ist wie gesagt eine Funktion in bei gegebenem . Würde man dagegen festhalten und liesse variieren, sieht der Kern nach einer Binomialverteilung aus, siehe Datenmodell.
- Das ist natürlich kein Zufall: der Posteriori entsteht ja genau aus Datendichte und Priori.
- In unserem Beispiel passen Datendichte (Binomialverteilung) und Prioridichte (Bateverteilung) genau zusammen.
- Die Posterioridichte hat daher die Form der Prioridichte, nur mit anderen Parametern. Bei beiden handelt es sich um Betaverteilungen.
- Wir nennen dies Konjugiertheit bzw. sprechen von der konjugierten Priori.
Nicht immer werden wir eine konjugierte Priori verwenden können oder wollen. Zur Wahl der Priori später mehr.
Bayes’ Billardkugeln Teil 4
Information einer Verteilung
Wir haben nach Beobachtung der Daten (a posteriori) mehr Information als vor der Beobachtung (a priori). Das lässt sich an der Dichte erkennen: In unserem Beispiel war die Priori-Dichte sehr flach, kein Punkt war bevorzugt. Das heißt, wir hatten a priori praktisch keine Information über . Wir sprechen auch von einer flachen oder nicht-informativen Verteilung. Nach der Beobachtung hat sich die Masse der Dichte auf einen Bereich konzentriert: wir haben Information darüber, dass wahrscheinlich in diesem Bereich liegt. Um so höher die Dichte, um so mehr Information haben wir.
Posterioris für verschiedene Beobachtungen
Sehen wir uns die Posteriori-Dichte mit verschiedenen bzw. an.
Wie oft wurde die rote Kugel gerollt?
Wie oft bliebt sie links liegen?
(Beispiel mit Histogrammen für unterschiedliche und )
Information einer Verteilung
Wir sehen:
- Mehr Beobachtungen geben uns mehr Information (das ist trivial). Wir sehen das daran, dass die Posteriori-Dichte an einer Stelle höher wird.
- Im Vergleich dazu hat die Priori-Dichte keine Information, sie ist überall gleich.
Bei gleichem wird die Dichte höher, wenn eher klein oder sehr nahe an ist. Ist nahe , dann wird die Dichte (bei gleichem ) am niedrigsten – der Fall gibt uns am wenigsten Information.
- Das hängt mit der Varianz der Bernoulliverteilung zusammen. Diese ist , damit für am höchsten.
- Große Varianz heißt also große Unsicherheit bzw. wenig Information.
- Viel Information heißt wenig Unsicherheit heißt geringe Varianz.
Schlüsse aus der Posteriori
Die Posteriori-Verteilung enthält alle Information über unseren Parameter ; in ihr sind Vorinformation und Information aus der Beobachtung vereint. Alle weiteren Schlüsse ziehen wir nur aus der Posteriori.
Posteriori-Wahrscheinlichkeit
(Beispiel mit einer Beta-Verteilungskurve)
Als erstes stellen wir uns die Frage: wie wahrscheinlich ist es a posteriori, also nach Beobachtung, dass zwischen 0.5 und 0.9 liegt? Dazu berechnen wir ganz normal die Wahrscheinlichkeit aus der Dichte der Posteriori-Verteilung :
wobei hier die Verteilungsfunktion der Beta-Verteilung (also der Posteriori-Verteilung) ist. Hier also
Wir sind uns also zu 97.2 % sicher, dass zwischen 0.5 und 0.9 liegt.
Punktschätzer
Nun stellen wir uns die Frage, welchen Wert für wir denn gegenüber unserer Beobachtung erwarten. Wir können dafür den Erwartungswert der Posteriori oder Posteriori-Erwartungswert nutzen. Dieser dient hier als Punktschätzer.
Allgemein ist der Erwartungswert der Beta-Verteilung , also gilt hier für den Posteriori-Erwartungswert
Nebenbemerkung: Andere Punktschätzer sind möglich, zum Beispiel kann man den wahrscheinlichsten Wert von bestimmen (Posteriori-Modus) – dazu später mehr.
Zusammenfassung
- Wir hatten in diesem Abschnitt ein Binomialexperiment mit unbekanntem Parameter ().
- Für den Parameter haben wir eine Priori-Verteilung, die unser Vorwissen ausdrückt: Wir wissen “nichts” über , außer dass zwischen 0 und 1 liegen muss.
- Durch Beobachtung () erhalten wir mehr Information über den Parameter , ausgedrückt durch die Posteriori-Verteilung.
- Die Posteriori-Verteilung erhalten wir über die Bayes-Formel.
- Mit der allgemeinen Bayes-Formel lassen sich beliebig diskrete und stetige Verteilungen kombinieren.
Im weiteren Verlauf des Kurses werden wir folgende Themen vertiefen:
- Welche Datenmodelle kann man verwenden (z.B. mit mehr Parametern, eventuell sehr vielen).
- Wie kann ich allgemein eine Priori definieren bzw. begründen?
- Wie berechne ich die Posteriori? (Stichwort: Normalisierungskonstante)
- Welche Schlüsse ziehe ich aus der Posteriori?
Quiz zu Bayes’ Billardkugeln
Eine flache Dichte …
- lässt keine Aussage über die Information ihrer Verteilung zu.
- deutet auf wenig Information hin.
- deutet auf viel Information hin.
Lösung
deutet auf wenig Information hin.
Für die Bayes-Formel braucht man…
- eine Massen-Dichte
- eine Daten-Dichte
- eine Priori-Dichte
- eine Kanten-Dichte
Lösung
eine Daten-Dichte und eine Priori-Dichte
Das Zeichen
\propto
bedeutet…
- approximativ gleich
- proportional gleich
- in etwa gleich
Lösung
proportional gleich
In der Bayes-Statistik kann ein Parameter einer Datenverteilung…
- eine Zufallszahl sein.
- unbekannt sein.
- gegeben sein.
Lösung
unbekannt sein.
Wie lautet die Bayes-Formel?
Lösung
\text{Posteriori} = \frac{\text{Likelihood} \cdot \text{Priori}}{\text{Normalisierungskonstante}}