Entropien und gegenseitige Information bei Wartezeitproblemen
Die Entropie einer Zufallsvariable, die gemeinsame Entropie zweier Zufallsvariablen und die gegenseitige Information werden am Beispiel der Wartezeitprobleme beim Ziehen ohne Zurücklegen veranschaulicht. Dazu werden als Zufallsvariablen die Wartezeit bis zum ersten Treffer und die Wartezeit vom ersten bis zum zweiten Treffer verwendet.
- Einordnung des Artikels
- Einführung
- Bezeichnungen
- Wartezeitproblem beim Ziehen ohne Zurücklegen
- Bezeichnungen für Entropien
- Die Fragestellungen
- Die Berechnung der gemeinsamen Wahrscheinlichkeiten der Wartezeiten bis zum nächsten Treffer
- Der allgemeine Fall
- Beispiel
- Berechnung der Entropien und der gegenseitigen Information
- Fortsetzung des Beispiels mit variabler Treffer- und Nietenanzahl
- Vereinbarungen
- Entropie der Wartezeit Y1
- Die gemeinsame Entropie der Wartezeiten H(Z1, Z2)
- Die gegenseitige Information I(Z1; Z2)
- Aufgaben
Einordnung des Artikels
- Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
- Spezielle Wahrscheinlichkeitsverteilungen
- Die Entropie
- Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele
- Die gegenseitige Information
- Entropien und gegenseitige Information bei Wartezeitproblemen
- Wahrscheinlichkeitsrechnung
Hier werden die Bezeichnungen aus Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele verwendet. Ebenso werden die dort behandelten Beispiele fortgeführt.
Die hier diskutierten Wartezeitprobleme werden in Wartezeitprobleme beim Ziehen mit Zurücklegen und Ziehen ohne Zurücklegen und Interpretation der Zufallsexperimente Ziehen mit Zurücklegen und Ziehen ohne Zurücklegen durch Pfade auf einem Gitter diskutiert.
Einführung
In Die gegenseitige Information wurde die gegenseitige Information I(X; Y) eingeführt, die sich als neue Größe aufdrängt, wenn man die gemeinsame Entropie H(X, Y) und die bedingten Entropien H(X|Y) und H(Y|X) einführt. Die gegenseitige Information I(X; Y) beschreibt dann so etwas wie die Information, die in einer Zufallsvariable X über eine andere Zufallsvariable Y enthalten ist. Sind zwei Zufallsvariablen X und Y unabhängig, so ist die gegenseitige Information gleich null: aus der Kenntnis des Wertes einer Zufallsvariable kann nicht auf den Wert der anderen Zufallsvariable geschlossen werden.
In Die gegenseitige Information wurden nur sehr einfache Beispiele gezeigt, die die Eigenschaften der gegenseitigen Information zeigen. Hier soll ein komplexeres Beispiel untersucht werden. Dazu verwendet man das Wartezeitproblem, das sich beim Ziehen ohne Zurücklegen ergibt, wenn man die Wartezeit bis zum ersten Treffer Z1 und die Wartezeit vom ersten bis zum zweiten Treffer Z2 betrachtet. (Die Wartezeitprobleme "Warten bis zum r-ten Treffer" wurden in Wartezeitprobleme beim Ziehen mit Zurücklegen und Ziehen ohne Zurücklegen ausführlich untersucht.)
Hier werden alle relevanten Wahrscheinlichkeitsverteilungen und Entropien sowie die gegenseitige Information zu den Zufallsvariablen Z1 und Z2 berechnet. Zusätzlich werden in Simulationen untersucht, wie sich diese Größen verändern, wenn man die Urne "anders bestückt". Damit ist gemeint, dass für die erste Ziehung aus der Urne die Trefferwahrscheinlichkeit p vorgegeben wird, dann aber die Anzahl der Treffer und Nieten in der Urne verändert wird – aber so, dass p unverändert bleibt.
Bezeichnungen
Hier werden nochmals die Bezeichnungen für Wartezeitprobleme und Entropien kurz erklärt, die verwendet werden wie in Interpretation der Zufallsexperimente Ziehen mit Zurücklegen und Ziehen ohne Zurücklegen durch Pfade auf einem Gitter und Die gegenseitige Information; genauere Erläuterungen können dort nachgelesen werden.
Wartezeitproblem beim Ziehen ohne Zurücklegen
Zur Formulierung der Wartezeitprobleme benötigt man folgende Bezeichnungen:
- Eine Urne enthalte M = K + L Lose, von denen K Nieten und L Treffer sind.
- Mit p, q werden die Treffer– und Nieten–Wahrscheinlichkeit bei der ersten Ziehung bezeichnet: p = L/M, q = K/M. Diese Wahrscheinlichkeiten ändern sich natürlich im Lauf der weiteren Ziehungen.
- Werden die Ziehungen als Pfade im Gitter dargestellt, so wird ein Treffer als Schritt entlang der y–Achse eingetragen. Daher entspricht ein Treffer dem Symbol ↑, eine Niete dem Symbol →.
Betrachtet man das entsprechende Zufallsexperiment beim "Ziehen mit Zurücklegen", so bleiben die Treffer- und Nieten–Wahrscheinlichkeit p und q im Lauf der Ziehungen konstant und es können beliebig viele Lose gezogen werden.
Das Wartezeitproblem "Anzahl der Ziehungen bis zum r-ten Treffer" wird durch die folgenden Zufallsvariablen beschrieben:
- Beim "Ziehen mit Zurücklegen" durch Wr.
- Beim "Ziehen ohne Zurücklegen" durch Yr. (Hier werden die Indizes, die die Anfangskonfiguration der Urne beschrieben unterdrückt.)
Abbildung 1 zeigt die Veranschaulichung der Zufallsvariablen im Bild der Pfade auf einem Gitter und die Formeln für die Wahrscheinlichkeiten P(Wr = n) beziehungsweise P(Yr = n). Das Ereignis "nach n Ziehungen tritt der r-te Treffer ein" definiert eine Menge von Pfaden; durch Abzählen dieser Pfade kann man die Wahrscheinlichkeit des Ereignisses berechnen.
Bezeichnungen für Entropien
Abbildung 2 und 3 zeigen die Bezeichnungen für die Entropien und die gegenseitige Information, die in den Artikeln Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele und Die gegenseitige Information eingeführt und erläutert wurden.
Die Fragestellungen
Zum Wartezeitproblem beim Ziehen ohne Zurücklegen werden neue Zufallsvariablen definiert. Beschreibt Yr die Wartezeit bis zum r-ten Treffer, so sollen nun die Zufallsvariablen
Z1, Z2, ..., Zr
die Wartezeiten vom (r-1)-ten bis zum r-ten Treffer beschreiben. Es ist also:
Z1 = Y1, Z2 = Y2 - Y2, ..., Zr = Yr - Yr-1.
Man kann die Zufallsvariablen Z1, Z2, ..., Zr dann auch so lesen, dass sie die Zuwächse in den Wartezeiten Y1, Y2, ..., Yr beschreiben.
Speziell die Zufallsvariablen Z1 und Z2 sollen näher betrachtet werden. Qualitativ ist klar, dass sie schwach miteinander korreliert sind. Denn:
- Ist Z1 eine sehr große Zahl (soll heißen deutlich größer als der Erwartungswert), so sind nach dem Eintreten des ersten Treffers in der Urne weniger Nieten enthalten als zu Beginn der Ziehungen. Und daher wird Z2 mit hoher Wahrscheinlichkeit eine kleine Zahl sein.
- Ist dagegen Z1 eine sehr kleine Zahl, so hat sich das Verhältnis p/q von Treffern zu Nieten in der Urne kaum verändert. Daher wird Z2 eine ähnliche Verteilung wie Z1 besitzen.
Für diese beiden Zufallsvariablen Z1 und Z2 sollen folgende Größen berechnet werden:
- Die Entropien H(Z1) und H(Z2),
- die gemeinsame Entropie H(Z1, Z2),
- die gegenseitige Information I(Z1; Z2).
Ferner wird untersucht, inwieweit diese Größen
- von der Trefferwahrscheinlichkeit p (zu Beginn der Ziehungen) oder
- von den absoluten Zahlen L und K der Treffer und Nieten in der Urne abhängen.
Qualitativ kann man das Ergebnis bereits vorwegnehmen:
- Verkleinert man die Trefferwahrscheinlichkeit, so wird die Verteilung der Wartezeiten breiter und ihre Entropie nimmt zu.
- Die oben beschriebene schwache Korrelation zwischen Z1 und Z2 sollte verschwinden, wenn die Anzahl der Treffer und Nieten in der Urne sehr groß ist. Denn mit zunehmenden Anzahlen L und K (bei konstant gehaltenem p) verhält sich das Zufallsexperiment immer mehr wie Ziehen mit Zurücklegen. Aber hier sind die Zufallsvariablen Z1 und Z2 unabhängig voneinander.
Und dieses "Verschwinden der Korrelation" hat natürlich Auswirkungen auf die Größen H(Z1), H(Z2), H(Z1, Z2) und I(Z1; Z2). Auch dies soll untersucht werden.
Um die oben genannten Größen berechnen zu können, benötigt man die (bereits bekannte) Verteilung von Z1, sowie die gemeinsame Verteilung von Z1 und Z2:
- Da Z1 mit Y1 übereinstimmt, kann P(Z1 = n) aus Abbildung 1 abgelesen werden (rechts unten).
- Die gemeinsamen Wahrscheinlichkeiten P(Z1 = n, Z2 = m) werden mit ähnlichen Überlegungen wie in Abbildung 1 berechnet.
Die Berechnung der gemeinsamen Wahrscheinlichkeiten der Wartezeiten bis zum nächsten Treffer
Der allgemeine Fall
Abbildung 4 veranschaulicht die Berechnung der gemeinsamen Wahrscheinlichkeiten P(Z1 = n, Z2 = m) der Zufallsvariablen Z1 und Z2 im Bild der Pfade auf dem Gitter.
Gegeben ist die Konfiguration der Urne, also die Anzahlen L und K der Treffer und Nieten. Sind n und m gegeben, so muss man sich überlegen, welche Pfade zum Ereignis "Z1 = n und zugleich Z2 = m" gehören.
Das Ereignis "Z1 = n und zugleich Z2 = m" entsteht bei folgenden Ziehungen:
- Zuerst werden n-1 Nieten gezogen (n-1 Schritte nach rechts).
- Dann ein Treffer (ein Schritt nach oben).
- Es folgen m-1 Nieten (m-1 Schritte nach rechts).
- Dann ein Treffer (ein Schritt nach oben).
- Für die weiteren Ziehungen bestehen keine Einschränkungen: erlaubt sind jetzt alle Pfade, die den Endpunkt (K, L) erreichen.
Übersetzt man dies in Pfade auf dem Gitter, erhält man die Menge von Pfaden, die in Abbildung 4 in Gleichung (1) beschrieben werden. Durch Abzählen der Pfade kann man die gesuchte Wahrscheinlichkeit berechnen, siehe Gleichung (2) bis (4).
Aufgabe:
Welche Bedingungen müssen für K, L, n, m erfüllt sein, damit man die gemeinsame Wahrscheinlichkeit P(Z1 = n, Z2 = m) nach Gleichung (4) in Abbildung 4 berechnen darf?
♦ ♦ ♦
Man erkennt an Gleichung (4) in Abbildung sofort, dass n und m nur als Summe n+m in der gemeinsamen Wahrscheinlichkeit P(Z1 = n, Z2 = m) auftreten, daher gilt die Symmetrie-Eigenschaft:
P(Z1 = n, Z2 = m) = P(Z1 = m, Z2 = n).
Und weiter folgt daraus, dass die Marginalverteilungen, also die Verteilungen der Zufallsvariablen Z1 und Z2 identisch sein müssen.
Beispiel
Das folgende Beispiel soll die gemeinsamen Wahrscheinlichkeiten veranschaulichen. Dazu wählt man
K = L = 4.
Somit gilt zu Beginn der Ziehungen
p = q = 1/2.
Abbildung 5 zeigt die gemeinsamen Wahrscheinlichkeiten P(Z1 = n, Z2 = m), die nach Gleichung (4) in Abbildung 4 berechnet werden.
Die Marginalverteilungen, also die Wahrscheinlichkeiten
P(Z1 = n) und P(Z2 = m),
können mit Hilfe der Tabelle leicht berechnet werden, indem man die Zeilen- beziehungsweise Spaltensummen bildet. Sie sind in der Tabelle in Abbildung 4 in der letzten Spalte beziehungsweise letzten Zeile gezeigt. Und man überprüft leicht, dass die Summe dieser Wahrscheinlichkeiten jeweils 1 ergibt.
Abbildung 6 zeigt das Histogramm der gemeinsamen Wahrscheinlichkeiten P(Z1 = n, Z2 = m).
Abbildungen 7 zeigt das Histogramm der (identischen) Marginalverteilungen, also der Verteilungen von Z1 beziehungsweise Z2.
Für die Berechnung der gemeinsamen Information benötigt man später das Produkt der beiden Marginalverteilungen, also die Wahrscheinlichkeiten
P(Z1 = n)·P(Z2 = m).
In den Abbildungen 8 und 9 werden diese Produkte tabellarisch dargestellt und in das Histogramm aus Abbildung 6 eingetragen. In der unteren Tabelle von Abbildung 8 werden nochmals die gemeinsamen Wahrscheinlichkeiten P(Z1 = n, Z2 = m) gezeigt, jetzt aber mit dem Nenner 4900, um sie besser mit den Produktwahrscheinlichkeiten vergleichen zu können.
Berechnung der Entropien und der gegenseitigen Information
Nachdem alle relevanten Wahrscheinlichkeiten berechnet wurden, kann man jetzt folgende Größen berechnen:
- Die Entropie der Wartezeit Y1. Da die Zufallsvariablen Y1, Z1 und Z2 die identische Verteilung besitzen, hat man damit auch die Entropie der Zufallsvariablen Z1 und Z2 berechnet.
- Die gemeinsame Entropie H(Z1, Z2).
- Die gegenseitige Information I(Z1; Z2).
- Die bedingten Entropien H(Z1 | Z2) und H(Z2 | Z1), die hier identisch sind.
Abbildung 10 zeigt die Ergebnisse; die Werte wurden numerisch berechnet und geeignet gerundet. Verwendet wurden die Formeln aus Abbildung 2 und 3.
Interpretation der Ergebnisse:
- Die Zufallsvariablen Y1 und Z1 sind identisch, haben somit auch identische Entropien.
- Die Zufallsvariablen Z1 und Z2 sind identisch verteilt, daher sind auch ihre Entropien identisch.
- Die gemeinsame Entropie von Z1 und Z2, also H(Z1, Z2), ist etwas kleiner als die Summe der Entropien H(Z1) + H(Z2). Wären die Zufallsvariablen Z1 und Z2 unabhängig voneinander, würde hier Gleichheit bestehen. Wie oben beschrieben wurde, sind Z1 und Z2 aber schwach korreliert.
- Man erkennt dies auch an den bedingten Entropien: Bei Unabhängigkeit von Z1 und Z2 wäre H(Z1|Z2) = H(Z1). Die bedingte Entropie H(Z1|Z2) ist aber ein wenig kleiner als H(Z1).
- Und dieser kleine Differenzbetrag ist gerade die gegenseitige Information von Z1 und Z2. Mit anderen Worten: Die Zufallsvariable Z1 beinhaltet nur wenig Information über die Zufallsvariable Z2.
- Die letzten beiden Punkte bleiben richtig, wenn man jeweils die Indizes 1 und 2 vertauscht.
Um die zuletzt berechneten Zahlenwerte besser zu verstehen, wird im nächsten Abschnitt die folgende Simulation durchgeführt:
- Die Anzahlen L und K der anfangs in der Urne enthaltenen Treffer und Nieten werden variiert.
- Die Anzahlen K und L werden aber so variiert, dass die Trefferwahrscheinlichkeit p anfangs immer gleich ist.
- Für die derart konfigurierte Urne werden die Größen wie in Abbildung 10 berechnet.
Fortsetzung des Beispiels mit variabler Treffer- und Nietenanzahl
Vereinbarungen
In den folgenden Simulation wird stets K = L gewählt, so dass für die Trefferwahrscheinlichkeit zu Beginn der Ziehungen gilt p = q = 1/2. Variation der Anzahl der Nieten und Treffer bedeutet dann, dass Folgen von K- und L-Werten gewählt werden, so dass jeweils p konstant bleibt. Im einfachsten Fall wählt man dann K = 1, 2, ... und L = 1, 2, ...
Die Simulationen werden zeigen, dass es nicht nötig ist "sehr große" Werte für K und L zu wählen, um das asymptotische Verhalten zu sehen; hier wird K = L = 1, 2, ..., 200 verwendet.
Entropie der Wartezeit Y1
Die Verteilung der Wartezeiten Yr wurde oben gezeigt, siehe Abbildung 1 rechts unten. Zunächst soll die Wartezeit Y1 bis zum ersten Treffer betrachtet werden. Die Zufallsvariable Y1 kann die Werte 1, 2, ..., K + 1 annehmen. Da die Urne K Treffer enthält, muss irgendwann ein Treffer eintreten – beim "Ziehen mit Zurücklegen" kann es unendlich lange dauern bis der erste Treffer eintritt.
Das qualitative Verhalten der Entropie H(Y1) bei Variation von L wie oben vereinbart (p = q = 1/2) lässt sich leicht beschreiben:
- Nimmt L (Anzahl der Treffer in der Urne) zu, so kann die Wartezeit Y1 immer mehr Werte annehmen. Die Verteilung wird immer breiter und somit muss ihre Entropie mit L zunehmen.
- Sogar den Grenzwert der Entropie H(Y1) für L → ∞ kann man qualitativ angeben. Es muss sich um die Entropie der geometrischen Verteilung mit Parameter p handeln.
Begründung für den Grenzwert von H(Y1) für L → ∞:
Die Verteilungen der Wartezeiten beim "Ziehen mit Zurücklegen" beziehungsweise "Ziehen ohne Zurücklegen" (siehe Abbildung 1) sind unterschiedlich, da sich beim "Ziehen ohne Zurücklegen" die Trefferwahrscheinlichkeit mit jedem Zug verändert. Und irgendwann sind keine Treffer beziehungsweise Nieten mehr in der Urne, so dass die Trefferwahrscheinlichkeit die Werte 0 oder 1 annehmen kann. Dagegen bleibt die Trefferwahrscheinlichkeit p beim "Ziehen mit Zurücklegen" immer konstant. Dies führt zur geometrischen Verteilung für die Wartezeit W1 bis zum ersten Treffer.
Wählt man jetzt "L und K sehr groß", so ist die Veränderung der Trefferwahrscheinlichkeit irgendwann irrelevant und die Verteilung der Wartezeit Y1 wird sich immer mehr der Verteilung von W1 annähern. Hier bedeutet "L und K sehr groß", dass sie deutlich größer sind als mittlere Anzahl von Nieten, die bis zum ersten Treffer gezogen werden – dann kann man p auch als konstant annehmen.
Die Entropie H(Y1) wird sich somit der Entropie H(W1) annähern, wenn L und K gegen unendlich gehen..
Abbildung 11 zeigt:
- Auf der x-Achse wird die Anzahl der Treffer L in der Urne zu Beginn der Ziehungen aufgetragen.
- Als rote Punkte sind die Entropien von Y1 in Abhängigkeit von L eingetragen.
- Die blaue Gerade entspricht der Entropie der geometrischen Verteilung mit Parameter p, also H(W1).
- In der Bildüberschrift ist eingetragen:
- Die Trefferwahrscheinlichkeit p,
- die maximale Anzahl N, die für L gewählt wurde,
- die Entropie H(W1) und
- die maximale Entropie H(Y1), die für L = 200 angenommen wird.
Aufgabe:
Berechnen Sie die Entropie H(W1) der geometrischen Verteilung mit Parameter p.
Ergebnis: H(W1) = - ln p - q ln q / p = - (p ln p - q ln q ) / p.
Die gemeinsame Entropie der Wartezeiten H(Z1, Z2)
Kennt man das Verhalten der Entropie H(Y1) bei Variation der Trefferzahl L (bei konstantem p), so ist es nicht schwer das Verhalten der gemeinsamen Entropie H(Z1. Z2) vorherzusagen:
Da für große L und K die Wartezeiten Z1 und Z2 unabhängig voneinander werden, nähert sich H(Z1, Z2) immer mehr H(Z1) + H(Z2) an. Und da Z1 und Z2 identische Verteilungen besitzen, gilt für den Grenzwert:
H(Z1, Z2) → 2·H(W1) für L → ∞,
also das Doppelte der Entropie der geometrischen Verteilung mit Parameter p.
Abbildung 12 zeigt die zu Abbildung 11 analoge Simulation; die dargestellten Größen können aus der Beschriftung des Diagramms abgelesen werden. Die blaue Asymptote ist jetzt 2·H(W1).
Die gegenseitige Information I(Z1; Z2)
Wie oben diskutiert wurde, enthält die Zufallsvariable Z1 nur wenig Information über die Zufallsvariable Z2 (und umgekehrt). Und wenn nun die Anzahl der Treffer L in der Urne zunimmt, so muss diese Information abnehmen, da das Zufallsexperiment immer mehr dem "Ziehen mit Zurücklegen" ähnelt.
Abbildung 13 zeigt die gegenseitige Information in Abhängigkeit von L bei der oben beschriebenen Simulation. Man erkennt, dass sie sehr schnell gegen null geht.
Um besser nachzuvollziehen, wie schnell die gegenseitige Information gegen null geht, werden einige Werte tabelliert.
L | 5 | 10 | 20 | 50 | 100 | 200 |
I(Z1; Z2) | 2.992e-02 | 5.905e-03 | 1.352e-03 | 2.062e-04 | 5.076e-05 | 1.259e-05 |
Aufgaben
- Begründen Sie, warum die bedingten Entropien H(Z1 | Z2) und H(Z2 | Z1) identisch sind.
- Diskutieren Sie, wie der Plot der bedingten Entropien H(Z1 | Z2) und H(Z2 | Z1) bei obiger Simulation qualitativ aussieht (also mit L = 2, 3, ..., 200 und Trefferwahrscheinlichkeit p = 1/2).
- Diskutieren Sie welche Unterschiede sich für die Größen aus den Abbildungen 11 - 13 ergeben, wenn man als Trefferwahrscheinlichkeit p = 1/6 wählt. Die Abbildungen 14 bis 16 zeigen die Ergebnisse der Simulationen, die analog zu Abbildung 11 bis 13 mit p = 1/6 durchgeführt wurden.