Die gegenseitige Information

Überträgt man den Begriff der Entropie einer Zufallsvariable auf die Wahrscheinlichkeitsverteilungen von zwei Zufallsvariablen, so ist es naheliegend die gemeinsame Entropie und die bedingte Entropie einzuführen, die über die Kettenregel miteinander verknüpft sind. Diese wiederum motiviert die Einführung einer neuen Größe, der gegenseitigen Information zweier Zufallsvariablen. Sie ist symmetrisch in den beiden Zufallsvariablen und beschreibt die Information, die in einer Zufallsvariable über die andere Zufallsvariable enthalten ist. An einfachen Beispielen wird die Definition der gegenseitigen Information motiviert und veranschaulicht.

Einordnung des Artikels

Hier werden die Bezeichnungen aus Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele verwendet. Ebenso werden die dort behandelten Beispiele fortgeführt.

Einführung

Die bedingte Entropie beschreibt den Zusammenhang zweier Zufallsvariablen X und Y: Ist der Wert einer Zufallsvariable, etwa X = x, gegeben, so kann man die bedingten Wahrscheinlichkeiten P(Y|X = x) betrachten und für diese Wahrscheinlichkeitsverteilung die bedingte Entropie gegeben das Ereignis X = x definieren:

H(Y|X = x).

Dabei werden zur Berechnung von H die bedingten Wahrscheinlichkeiten P(Y|X = x) in die übliche Entropiefunktion eingesetzt. Summiert man jetzt H(Y|X = x) über alle möglichen x-Werte und gewichtet mit deren Wahrscheinlichkeiten P(X = x), so erhält man die bedingte Entropie H(Y|X).

Da die bedingten Wahrscheinlichkeiten im Allgemeinen bei Vertauschung von X und Y ihre Werte ändern, gilt nur in Spezialfällen H(Y|X) = H(X|Y). Die bedingte Entropie ist somit nicht in X und Y symmetrisch. Ihre Bedeutung ist, dass sie die "Ungewissheit" über den Wert einer Zufallsvariable beschreibt, unter der Voraussetzung, dass die andere Zufallsvariable bekannt ist.

Stellt man einen Zusammenhang zwischen der gemeinsamen Entropie und der bedingten Entropie her, so erhält man die sogenannte Kettenregel. Sie suggeriert bereits, dass man eine neue Größe definieren kann, die den Zusammenhang zweier Zufallsvariablen beschreibt. Diese neue Größe wird als gegenseitige Information bezeichnet. Und diese neue Größe ist in den Zufallsvariablen X und Y symmetrisch. Sie wird an einfachen Beispielen diskutiert.

Bezeichnungen

Es werden hier die Bezeichnungen verwendet, die in Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele eingeführt wurden; in Abbildung 1 sind die wichtigsten Bezeichnungen zusammengestellt.

Abbildung 1: Bezeichnungen für Wahrscheinlichkeiten und Entropien.Abbildung 1: Bezeichnungen für Wahrscheinlichkeiten und Entropien.

Motivation und Definition der gegenseitigen Information

In Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele wurde gezeigt, dass es einen Zusammenhang zwischen der gemeinsamen Entropie H(X, Y) und der bedingten Entropie H(Y|X) gibt, nämlich die Kettenregel (siehe auch Abbildung 1 unten):

H(X, Y) = H(X) + H(Y|X).

Und da man die Rollen von X und Y vertauschen kann, ergibt sich:

H(X, Y) = H(Y) + H(X|Y).

Drückt man die beiden Gleichungen ohne die gemeinsame Entropie aus, erhält man:

H(X) - H(X|Y) = H(Y) - H(Y|X).

Man kann dies nun auch so formulieren: Die Größe H(X) - H(X|Y) ändert ihren Wert nicht, wenn man die Zufallsvariablen X und Y vertauscht. Man beachte, dass dies keine Selbstverständlichkeit ist. Denn es wurde mehrfach betont, dass die bedingte Entropie nur in Spezialfällen unverändert bleibt, wenn man X und Y vertauscht.

Diese in X und Y symmetrische Größe erhält jetzt einen neuen Namen, man nennt

I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)

die gegenseitige Information der beiden Zufallsvariablen X und Y.

Abbildung 2: Definition der gegenseitigen Information und ihre Darstellungen ohne bedingte Wahrscheinlichkeiten.Abbildung 2: Definition der gegenseitigen Information und ihre Darstellungen ohne bedingte Wahrscheinlichkeiten.

Abbildung 2 zeigt nochmals die Definition der gegenseitigen Information, siehe Gleichung (1). Ferner wird gezeigt, wie man zu einer Darstellung von I(X;Y) gelangt, in der keine bedingten Wahrscheinlichkeiten vorkommen, siehe Gleichung (2):

  1. Dazu werden in I(X;Y) zunächst die Definitionen von H(X) und H(X|Y) eingesetzt.
  2. Der erste Summand wird in eine Doppelsumme verwandelt (Doppelsumme über alle x- und y-Werte), wozu p(x) als Summe über alle y-Werte von p(x, y) geschrieben wird.
  3. Die Definition der bedingten Wahrscheinlichkeit wird eingesetzt.
  4. Die Logarithmen werden zusammengefasst.

Die Bedeutung der gegenseitigen Information

Die Darstellung der gegenseitigen Information in Gleichung (2) in Abbildung 2 gibt bereits einen Hinweis auf ihre Bedeutung. Denn im Argument des Logarithmus steht der Quotient aus der gemeinsamen Wahrscheinlichkeit p(x, y) und dem Produkt der Wahrscheinlichkeiten p(x)·p(y), also dem Produkt der Marginalverteilungen. Das heißt aber, dass für unabhängige Zufallsvariablen, also mit

p(x, y) = p(x)·p(y) für alle x, y,

alle Quotienten gleich 1 und somit alle Logarithmen gleich null sind:

Die gegenseitige Information ist gleich null für unabhängige Zufallsvariablen X und Y.

Man könnte hier auch anders argumentieren: Bei Unabhängigkeit der Zufallsvariablen stimmen die bedingte und die unbedingten Wahrscheinlichkeiten überein:

p(x|y) = p(x) für alle x, y.

Daher sind bei unabhängigen Zufallsvariablen auch die bedingte und die unbedingte Entropie identisch:

H(X|Y) = H(X).

Setzt man dies in die ursprüngliche Definition der gegenseitigen Information ein, erhält man wiederum I(X; Y) = 0.

Betrachtet man dagegen strikt korrelierte Zufallsvariablen, etwa

Y = aX mit a ungleich null,

so gilt Folgendes: Ist der Wert einer Zufallsvariable bekannt, so ist der Wert der anderen Zufallsvariable eindeutig festgelegt. Mit anderen Worten jede bedingte Verteilung P(X|Y = y) beziehungsweise P(Y|X = x) ist eine "scharfe" Verteilung – damit ist gemeint, dass es genau einen Wert der Zufallsvariable gibt, für den die Wahrscheinlichkeit gleich eins ist. Aber dann sind alle bedingten Entropien bei gegebenem Ereignis gleich null:

H(Y|X = x) = 0 und H(X|Y = y) = 0

(es besteht keine Ungewissheit mehr über den Ausgang des Zufallsexperimentes).

Wenn alle Entropien gegeben ein Ereignis gleich null sind, dann sind auch die bedingten Entropien gleich null:

H(Y|X) = 0, H(X|Y) = 0.

Und wenn die beiden bedingten Entropien übereinstimmen, stimmen auch die unbedingten Entropien überein:

H(X) = H(Y).

(Da sich die Zufallsvariablen X und Y nur um den Faktor a unterscheiden, sind ihre Verteilungen identisch.)

Setzt man dies in die Definition der gegenseitigen Information ein, so erhält man für den Fall der strikt korrelierten Zufallsvariablen:

I(X; Y) = H(X) = H(Y).

Diese beiden Grenzfälle legen folgende Interpretation der gegenseitigen Information nahe:

Wenn die Entropie die "Ungewissheit über den Ausgang eines Zufallsexperimentes" (beziehungsweise den Wert einer Zufallsvariable) beschreibt, so beschreibt die gegenseitige Information etwas Gegenteiliges. Nämlich die "Gewissheit", mit der aus der Kenntnis des Wertes einer Zufallsvariable auf den Wert einer anderen Zufallsvariable geschlossen werden kann.

Im Beispiel der unabhängigen Zufallsvariablen ist I(X; Y) = 0:

Es ist unmöglich, vom Wert von X auf den Wert von Y zu schließen (oder umgekehrt). Es gibt keinerlei "Gewissheit" über den Wert von Y.

Im Fall der strikten Korrelation ist I(X; Y) = H(X) = H(Y):

Durch die Kenntnis von X, kann mit Sicherheit der Wert von Y vorhergesagt werden — die "Gewissheit" ist maximal, nämlich gleich der Entropie der beiden Zufallsvariablen.

Ersetzt man jetzt "Gewissheit" durch "Information", so kann man salopp sagen:

Die gegenseitige Information I(X; Y) beschreibt die Information, die in einer Zufallsvariable X über die andere Zufallsvariable enthalten ist. Und die Kettenregel besagt, dass diese Information symmetrisch bezüglich X und Y ist.

Man kann dies auch aus der Definition

I(X; Y) = H(X) - H(X|Y)

ablesen: Der erste Summand der rechten Seite beschreibt die Ungewissheit über den Wert von X. Diese Ungewissheit wird reduziert um die Ungewissheit, die durch H(X|Y) beschrieben wird. Und diese ist die Ungewissheit über X, wenn bereits Y bekannt ist.

Und die Kettenregel besagt, dass die Information, die in X über Y enthalten ist, genau so groß ist wie die Information, die in Y über X enthalten ist.

Aufgabe:

Zeigen Sie, dass die gegenseitige Information I(X;Y) nicht negativ sein kann.

Beispiele

Strategien beim Würfeln: Setzen auf kleine beziehungsweise gerade Zahlen

In Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele wurde ein Beispiel zur Berechnung der Entropien ausführlich besprochen. Dabei wurden mögliche Strategien bei einem Würfelspiel mit einem Laplace-Würfel untersucht (siehe auch Abbildung 3):

  1. Setzen auf die kleinen Zahlen {1, 2, 3}; diese Strategie wird durch die Zufallsvariable K beschrieben.
  2. Setzen auf die geraden Zahlen {2, 4, 6}; hier wird die zugehörige Zufallsvariable mit G bezeichnet.

Abbildung 3: Strategien beim Würfeln und die Berechnung der zugehörigen Entropien.Abbildung 3: Strategien beim Würfeln und die Berechnung der zugehörigen Entropien.

In Abbildung 4 werden die relevanten Entropien berechnet (diese beiden Abbildungen und mit weiteren Erklärungen finden sich in Die bedingte Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele.)

Abbildung 4: Die Entropien im Beispiel der Strategien beim Würfeln.Abbildung 4: Die Entropien im Beispiel der Strategien beim Würfeln.

Die gegenseitige Information kann jetzt auf zwei Arten berechnet werden – sie sind natürlich gleichwertig, sollen aber zum besseren Verständnis beide gezeigt werden:

  1. Durch Einsetzen in die Definition I(G; K) = H(G) - H(G|K) nach Gleichung (1) in Abbildung 2.
  2. Durch Berechnen aus den relevanten Wahrscheinlichkeiten nach Gleichung (2) in Abbildung 2.

Durch die Vorbereitungen aus Abbildung 4 ist natürlich die erste Variante hier sehr einfach. Abbildung 5 zeigt die Berechnung der gegenseitigen Information gemäß der beiden Varianten.

Abbildung 5: Berechnung der gegenseitigen Information für die Strategien beim Würfeln (Setzen auf die geraden beziehungsweise kleinen Zahlen).Abbildung 5: Berechnung der gegenseitigen Information für die Strategien beim Würfeln (Setzen auf die geraden beziehungsweise kleinen Zahlen).

In den Tabellen in Abbildung 5 werden die relevanten Wahrscheinlichkeiten angegeben, die für Gleichung (2) in Abbildung 2 benötigt werden. Man beachte dabei, dass die Produktwahrscheinlichkeiten (zweite Tabelle in Abbildung 5)

p(g)·p(k) = P(G = g)·P(K = k)

in dem betrachteten Zufallsexperiment keine Bedeutung haben. Hier werden die Zufallsvariablen so behandelt als wären sie unabhängig voneinander und ihre Marginalverteilungen werden multipliziert. Das Ergebnis stimmt natürlich nicht mit der gemeinsamen Wahrscheinlichkeit P(G = g, K = k) überein.

Wie bei den Entropien ist hier noch fragwürdig, welche Bedeutung der Zahlenwert der gegenseitigen Information I(G; K) hat. Um verschiedene gegenseitige Informationen miteinander vergleichen zu können, wird im folgenden Unterabschnitt ein weiteres Paar von Zufallsvariablen untersucht; dazu wird eine weitere Strategie betrachtet: Setzen auf die Zahl 6.

Weitere Strategie: Setzen auf die Zahl 6

Jetzt soll zusätzlich die Strategie betrachtet werden, beim Würfeln auf die Zahl 6 zu setzen. Die zugehörigen Zufallsvariable wird mit 1{6}. Betrachtet wird die gegenseitige Information von G und 1{6}.

Abbildung 6 zeigt die zu Abbildung 4 analoge Darstellung des Zufallsexperimentes im Baumdiagramm. Für einen Glücksspieler, der auf die Zahl 6 setzen möchte, würde es bedeuten: Er erfährt, ob eine gerade oder ungerade Zahl gewürfelt wurde, und darf dann entscheiden, ob er am Spiel teilnimmt. Es ist klar, dass er nur dann teilnehmen wird, wenn eine gerade Zahl gewürfelt wurde.

Abbildung 6: Oben: Darstellung der bedingten Wahrscheinlichkeiten der beiden Strategien im Baumdiagramm, wenn für das Setzen auf die 6 bereits bekannt ist, ob eine gerade oder ungerade Zahl eingetreten ist. Unten: Berechnung der Entropien.Abbildung 6: Oben: Darstellung der bedingten Wahrscheinlichkeiten der beiden Strategien im Baumdiagramm, wenn für das Setzen auf die 6 bereits bekannt ist, ob eine gerade oder ungerade Zahl eingetreten ist. Unten: Berechnung der Entropien.

Abbildung 7 zeigt dann die analoge Darstellung zu Abbildung 5: Die gegenseitige Information der Zufallsvariablen G und 1{6} wird auf die beiden oben beschriebenen Arten berechnet.

Abbildung 7: Die Berechnung der gegenseitigen Information für die beiden Strategien "Setzen auf gerade Zahlen" und "Setzen auf die Zahl 6".Abbildung 7: Die Berechnung der gegenseitigen Information für die beiden Strategien "Setzen auf gerade Zahlen" und "Setzen auf die Zahl 6".

Beim Vergleich von

I(G; K) mit I(G; 1{6})

(siehe Abbildung 5 und 7) fällt auf:

I(G; 1{6}) > I(G; K).

Nach oben beschriebener Interpretation der gegenseitigen Information bedeutet dies, dass in der Zufallsvariable G weniger Information über die Zufallsvariable K enthalten ist als über die Zufallsvariable 1{6}.

Man kann dies sehr gut am Vergleich der gemeinsamen Wahrscheinlichkeiten und der Produktwahrscheinlichkeiten in den Tabellen in Abbildung 5 und 7 nachvollziehen: Bei den beiden Zufallsvariablen G und 1{6} sind die Abweichungen zwischen den gemeinsamen Wahrscheinlichkeiten und den Produktwahrscheinlichkeiten deutlich größer als bei den Zufallsvariablen G und K.

Und oben wurde argumentiert: Stimmen die gemeinsamen Wahrscheinlichkeiten und die Produktwahrscheinlichkeiten überein, so sind alle Logarithmen in I(X; Y) gleich null und dann ist auch die gegenseitige Information I(X; Y) = 0. Und je größer die Abweichungen zwischen den gemeinsamen Wahrscheinlichkeiten und den Produktwahrscheinlichkeiten sind, um so größer wird die gegenseitige Information.

In diesem Sinn enthält die Zufallsvariable G mehr Information über die Zufallsvariable 1{6} als über die Zufallsvariable K.

Aufgabe:

Kovarianz und Korrelationskoeffizient sind zwei Größen aus der Wahrscheinlichkeitstheorie und Statistik, die verwendet werden, um die Abhängigkeit zweier Zufallsvariablen zu quantifizieren.

Diskutieren Sie die Gemeinsamkeiten und Unterschiede von Kovarianz, Korrelationskoeffizient und gegenseitiger Information.