Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele

Die Entropie wurde eingeführt als ein Maß für die Ungewissheit über den Ausgang eines Zufallsexperimentes. Entsprechend kann man eine bedingte Entropie definieren, wenn man die bedingten Wahrscheinlichkeiten verwendet, wobei man als Bedingung entweder ein Ereignis oder eine Zufallsvariable zulässt. Die Definition der bedingten Entropie und ihr Zusammenhang mit der gemeinsamen Entropie zweier Zufallsvariablen (Kettenregel) wird an einfachen Beispielen erläutert.

walter

02 Jan. 2024

Zufallsvariable diskrete Zufallsvariable Entropie bedingte Entropie gemeinsame Entropie bedingte Wahrscheinlichkeit Ungewissheit Unabhängigkeit Kettenregel

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Die Entropie
    - Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele
    - Die Additivität der Entropie bei unabhängigen Zufallsvariablen
    - Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele

Einführung

Die bedingte Wahrscheinlichkeit

In Die Additivität der Entropie bei unabhängigen Zufallsvariablen wurde ein Beispiel zu unterschiedlichen Strategien beim Würfelspiel ausführlich besprochen. Dieses Beispiel soll hier verwendet werden, um bedingte Wahrscheinlichkeiten zu erläutern und insbesondere um zu zeigen, wie die bedingte Entropie einer bedingten Wahrscheinlichkeitsverteilung definiert wird.

Dazu werden zwei Zufallsvariablen K und G definiert, die den Auszahlungsbetrag beschreiben, wenn man auf "kleine Zahlen" {1, 2, 3} beziehungsweise auf "gerade" Zahlen {2, 4, 6} setzt. Abbildung 1 zeigt dazu:

Die Definition der Zufallsvariablen K und G (Gleichung (1) und (2)).
Die Berechnungen der gemeinsamen Wahrscheinlichkeiten P(K = k, G = g) für den Fall eines Laplace-Würfels (Gleichung (3)).
Die Berechnung der Entropien H(K) und H(G) in Gleichung (4).
Die Berechnung der gemeinsamen Entropie H(K, G) und der Zusammenhang zwischen den drei Entropien (Gleichung (5) und (6)).

Abbildung 1: Strategien beim Würfeln und die Berechnung der zugehörigen Entropien.

Die beiden Strategien sind miteinander korreliert, wie man leicht an den Tabellen in Gleichung (3) in Abbildung 1 erkennen kann:

Eine gerade Zahl erscheint mit Wahrscheinlichkeit 1/2.
Liegt eine kleine Zahl (1, 2 oder 3) vor, so ist sie nur mit einer gegenüber 1/2 verringerten Wahrscheinlichkeit eine gerade Zahl.
Liegt dagegen eine große Zahl (4, 5 oder 6) vor, so ist sie mit einer erhöhten Wahrscheinlichkeit eine gerade Zahl.

Hätte daher ein Spieler, der auf "gerade Zahl" setzen möchte, bereits die Information, ob eine "kleine Zahl" oder eine "große Zahl" eingetreten, so wird er sich nur im zweiten Fall am Spiel beteiligen. Den Erwartungswert seiner Strategie kann er dadurch erhöhen.

Quantifiziert werden diese Aussagen durch den Vergleich der bedingten und unbedingten Wahrscheinlichkeiten, die in Abbildung 2 berechnet werden. Die Definition der bedingten Wahrscheinlichkeit ist dort in Gleichung (1) gezeigt.

Abbildung 2: Die Definition der bedingten Wahrscheinlichkeit, die Berechnung der bedingten Wahrscheinlichkeiten im Beispiel der Strategien beim Würfeln sowie die Definition des bedingten Erwartungswertes.

Da die bedingten Wahrscheinlichkeiten P( . | B) bei einer festgehaltenen Bedingung B wiederum ein Wahrscheinlichkeitsmaß bilden, kann man die Wahrscheinlichkeiten P( . | B) verwenden, um den bedingten Erwartungswert einer Zufallsvariable zu berechnen (siehe Gleichung (2) in Abbildung 2). Salopp gesagt werden dabei anstelle der unbedingten Wahrscheinlichkeiten die bedingten Wahrscheinlichkeiten in die übliche Berechnung des Erwartungswertes eingesetzt.

Aufgabe:

Berechnen Sie den bedingten Erwartungswert der Zufallsvariable G unter der Voraussetzung K = 1 beziehungsweise K = 0.

(Ergebnis:

E(G|K = 1) = 1/3,

E(G|K = 0) = 2/3.)

♦ ♦ ♦

Besonders anschaulich werden all diese Aussagen über die Zufallsvariablen K und G, wenn man sie in einem Baumdiagramm wie in Abbildung 3 darstellt:

Dazu werden zuerst – ausgehend von der Wurzel des Baums – die möglichen Werte der Zufallsvariable K eingetragen. Jeder Zweig wird mit der zugehörigen Wahrscheinlichkeit beschriftet.
Ausgehend von der Ereignissen "K = 1" beziehungsweise "K = 0" werden die möglichen Werte der Zufallsvariable G eingetragen. Jetzt werden die Zweige mit den entsprechenden bedingten Wahrscheinlichkeiten beschriftet.
Die Wahrscheinlichkeit für die gemeinsamen Wahrscheinlichkeiten P(K = k, G = g) erhält man, indem man die Wahrscheinlichkeiten längs des zugehörigen Pfades multipliziert.

Abbildung 3: Darstellung der bedingten Wahrscheinlichkeiten P(G = g|K = k) im Baumdiagramm.

Aufgabe:

Erstellen Sie das Baumdiagramm analog zu Abbildung 3, wenn zuerst die Zufallsvariable G eingetragen wird.

Die bedingte Entropie

Definition der bedingten Entropie

Die bedingte Entropie kann jetzt mit zwei verschiedenen Arten der Bedingung definiert werden. Dazu sind X und Y zwei diskrete Zufallsvariablen, deren Werte mit x beziehungsweise y bezeichnet werden. Die Wahrscheinlichkeiten werden bezeichnet durch:

P(X = x) = p(x), P(Y = y) = p(y), P(Y = y|X = x) = p(y|x).

Man kann eine bedingte Entropie von Y definieren, wenn ein Ereignis der Art X = x gegeben ist: H(Y|X = x).
Man kann die bedingte Entropie von Y gegeben X definieren: H(Y|X).

Detaillierte Erklärung der beiden Definitionen:

Für die Entropie H(Y|X = x) der Zufallsvariable Y unter der Voraussetzung, dass die Zufallsvariable X bereits den Wert x angenommen hat (siehe Gleichung (1) in Abbildung 4), verwendet man die Wahrscheinlichkeiten p(y|x). Hält man in p(y|x) den Wert X = x fest und lässt y alle möglichen Werte durchlaufen, so wird diese Wahrscheinlichkeitsverteilung in die übliche Definition der Entropie eingesetzt. Bei H(Y|X = x) wird also die bedingte Entropie bei einem gegebenen Ereignis definiert, wobei das Ereignis durch den Wert x der Zufallsvariable X festgelegt wird.
Bei der Definition derjenigen Größe H(Y|X), die üblicherweise als bedingte Entropie bezeichnet wird, wird zusätzlich über alle möglichen x-Werte summiert. Das heißt die Voraussetzung ist hier nicht ein Ereignis, sondern es wird über alle möglichen Ereignisse der Art X = x summiert (siehe Gleichung (2) in Abbildung 4).

Abbildung 4: Definition der bedingten Entropie einer Zufallsvariable.

Setzt man die Definition der bedingten Wahrscheinlichkeit ein, kann man den Term für die bedingte Entropie H(Y|X) auch in der Form (3) in Abbildung 4 schreiben. Dieser Term suggeriert bereits, dass es einen einfachen Zusammenhang mit der gemeinsamen Entropie H(X, Y) geben muss, der weiter unten gezeigt wird.

Anwendung auf das Beispiel

Die Berechnung der bedingten Entropie in dem Beispiel oben mit den Strategien beim Würfeln kann man leicht am Baumdiagramm in Abbildung 3 nachvollziehen:

Ist ein Ereignis durch K = 1 beziehungsweise K = 0 vorgegeben, so entstehen für die Verteilung von G zwei unterschiedliche Wahrscheinlichkeitsverteilungen, wenn man die bedingten Wahrscheinlichkeiten P(G|K = k) betrachtet. Da aber in beiden Verteilungen die Wahrscheinlichkeiten 1/3 und 2/3 enthalten sind, liefern sie identische Entropien: H(G|K = 1) = H(G|K = 0), siehe Gleichungen (1) und (2) in Abbildung 5.
Die bedingte Entropie H(G|K) entsteht aus diesen beiden Entropien, indem man über die möglichen Werte von K summiert und dabei jede Entropie H(G|K = k) mit der Wahrscheinlichkeit p(k) = P(K = k) gewichtet, siehe Gleichung (3) in Abbildung 5.

Abbildung 5: Die Entropien im Beispiel der Strategien beim Würfeln.

Bei den bedingten Wahrscheinlichkeiten gilt, dass p(y|x) im Allgemeinen verschieden ist von p(x|y). Entsprechend wird auch für die bedingten Entropien gelten, dass H(Y|X) im Allgemeinen verschieden ist von H(X|Y).

Aufgabe

Zeigen Sie, dass im Beispiel oben gilt: H(G|K) = H(K|G).

Geben Sie eine weitere Strategie beim Würfeln an (die wiederum durch eine Zufallsvariable Z beschrieben wird), für die aber die Gleichheit von H(G|Z) und H(Z|G) verletzt ist.

Der Zusammenhang mit der gemeinsamen Entropie: die Kettenregel

In Gleichung (3) in Abbildung 4 wurde für die bedingte Entropie H(Y|X) ein Term angegeben, der eine gewisse Ähnlichkeit mit der gemeinsamen Entropie aufweist. In Abbildung 6 wird dieser umgeformt:

die Definition der bedingten Wahrscheinlichkeit wird eingesetzt,
der Logarithmus des Quotienten wird nach den Rechenregeln für den Logarithmus in eine Differenz verwandelt und
es wird verwendet, dass man die Wahrscheinlichkeit P(X = x) = p(x) erhält, wenn man P(X = x, Y = y) = p(x,y) über alle y-Werte summiert.

Es ergibt sich dann Gleichung (2) in Abbildung 6, in der die gemeinsame Entropie H(X, Y), die bedingte Entropie H(Y|X) und die Entropie H(X) verknüpft werden. Diese Gleichung wird als die Kettenregel für die Entropie bezeichnet.

Abbildung 6: Die Herleitung für die Kettenregel der Entropie; sie verknüpft die gemeinsame Entropie und die bedingte Entropie.

Speziell erkennt man an der Kettenregel folgende Gesetzmäßigkeit:

Die Entropien H(X) und H(Y) sind genau dann unterschiedlich, wenn auch die beiden bedingten Entropien H(X|Y) und H(Y|X) unterschiedlich sind.

Aufgaben

Die bedingte Entropie bei unabhängigen Zufallsvariablen

Oben hat die Zufallsvariable K die Strategie beschrieben, wenn man auf eine "kleine Zahl", also {1, 2, 3}, setzt. Jetzt sollen mit kleinen Zahlen die Elemente der Menge {1, 2} bezeichnet werden und K ist die Zufallsvariable, die den Wert 1 annimmt, wenn eine 1 oder eine 2 geworfen wird; andernfalls ist K = 0.

Zeigen Sie, dass G und K jetzt unabhängig sind.
Erstellen Sie das Baumdiagramm analog zu Abbildung 3 beziehungsweise 5 und tragen Sie die richtigen Wahrscheinlichkeiten ein.
Berechnen Sie die Entropien H(G), H(K), H(G, K), H(G|K), H(K|G).
Interpretieren Sie den Vergleich der bedingten Entropie mit der unbedingten Entropie, also der Vergleich von H(G|K) mit H(G) beziehungsweise H(K|G) mit H(K).
Zeigen Sie, dass die Kettenregel erfüllt ist.

Weitere Strategie: Setzen auf die Zahl 6

Die Zufallsvariable 1_{6} soll den Wert 1 annehmen, wenn eine 6 gewürfelt wird, andernfalls den Wert 0 (sieh Abbildung 7 oben rechts). Sie beschreibt die Strategie, wenn man auf die 6 setzt.

Untersucht werden soll die Zufallsvariable 1_{6}, wenn bereits bekannt ist, ob eine gerade oder ungerade Zahl geworfen wurde.

Erstellen Sie das zugehörige Baumdiagramm und tragen Sie die richtigen Wahrscheinlichkeiten ein.
Berechnen Sie die Entropien H(G), H(1_{6}), H(G, 1_{6}), H(1_{6}|G).
Interpretieren Sie den Vergleich der bedingten Entropie H(1_{6}|G) mit der unbedingten Entropie H(1_{6}).
Berechnen Sie die Entropie H(G|1_{6}) mit Hilfe der Kettenregel.
Vergleichen Sie H(1_{6}|G) und H(G|1_{6}) und interpretieren Sie das Ergebnis.

Einige Ergebnisse sind in Abbildung 7 gezeigt.

Abbildung 7: Oben: Darstellung der bedingten Wahrscheinlichkeiten der beiden Strategien im Baumdiagramm, wenn für das Setzen auf die 6 bereits bekannt ist, ob eine gerade oder ungerade Zahl eingetreten ist. Unten: Berechnung der Entropien.