Die Additivität der Entropie bei unabhängigen Zufallsvariablen

Akzeptiert man die Entropie als eine Kenngröße einer Wahrscheinlichkeitsverteilung, die die Ungewissheit über den Ausgang eines Zufallsexperimentes beschreibt, so wird man fordern, dass sich bei unabhängigen Zufallsexperimenten die Entropien addieren. Um diese Aussage schärfer formulieren zu können, wird die gemeinsame Entropie H(X, Y) von zwei Zufallsvariablen eingeführt. Es wird gezeigt, dass die übliche Definition der Entropie die Additivitätseigenschaft bei unabhängigen Zufallsvariablen X und Y besitzt.

walter

14 Dez. 2023

Entropie gemeinsame Entropie Wahrscheinlichkeitsverteilung Zufallsvariable diskrete Zufallsvariable Unabhängigkeit Verbundwahrscheinlichkeiten Additivität Ungewissheit

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Die Entropie
    - Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele
    - Die Additivität der Entropie bei unabhängigen Zufallsvariablen

Bezeichnungen aus Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele werden hier übernommen.

Einführung

In Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele wurde die Entropie einer Wahrscheinlichkeitsverteilung definiert (siehe auch unten Gleichung (1) und (2) in Abbildung 1). Es wurde gezeigt, dass die Entropie nicht als Streuungsmaß einer Wahrscheinlichkeitsverteilung interpretiert werden kann. Vielmehr beschreibt sie so etwas wie die "Ungewissheit" über den Ausgang des Zufallsexperimentes. Und es wurde bereits angedeutet, dass es keineswegs klar ist, warum ausgerechnet die Funktion f(x) = -x·ln x als Baustein verwendet wird, um die Entropie zu definieren; womöglich gibt es weitere Funktionen, die ebenso geeignet sind die Ungewissheit über den Ausgang eines Zufallsexperimentes zu quantifizieren.

Im Folgenden soll gezeigt werden, dass die Entropiedefinition mit Hilfe von f(x) = -x·ln x eine Additivität der Entropien beinhaltet; damit ist gemeint: Werden zwei Zufallsexperimente unabhängig voneinander durchgeführt, so addieren sich die Entropien der beiden Zufallsexperimente zur gemeinsamen Entropie des zusammengesetzten Zufallsexperimentes.

Um diese Additivität formulieren zu können, wird zunächst die gemeinsame Entropie definiert. Diese Definition kann wieder auf der Ebene der Wahrscheinlichkeitsmaße erfolgen oder auf der Ebene der Zufallsvariablen.

Es wird an Beispielen gezeigt, dass die Additivität der Entropie nicht für beliebige Paare von Zufallsvariablen gilt, sondern nur für unabhängige Zufallsvariablen.

Weiter lässt sich dann zeigen, dass die Definition der Entropie aus Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele tatsächlich die Additivität bei unabhängigen Zufallsvariablen beinhaltet. Man kann daher argumentieren, dass die Funktion f(x) = - x·ln x gewählt wurde, um diese Additivität der Entropie zu gewährleisten.

Bezeichnungen

Es werden hier die Bezeichnungen aus Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele verwendet; Abbildung 1 zeigt dazu die Konvention für Zufallsvariablen und Wahrscheinlichkeitsmaße.

Abbildung 1: Bezeichnungen für Zufallsvariablen und Wahrscheinlichkeitsmaße sowie die Definition der Entropie und der gemeinsamen Entropie.

Abbildung 1: Bezeichnungen für Zufallsvariablen und Wahrscheinlichkeitsmaße sowie die Definition der Entropie und der gemeinsamen Entropie. (img/04_Entropie_Add/def.svg){width=650}

Die Entropie kann entweder als Funktion eines Wahrscheinlichkeitsmaßes aufgefasst werden (siehe Gleichung (1) in Abbildung 1) oder als Funktion einer Zufallsvariable (Gleichung (2)). Da man üblicherweise alle Fragestellungen in der Wahrscheinlichkeitsrechnung mit Hilfe von Zufallsvariablen formuliert, wird meist die Definition der Entropie nach Gleichung (2) verwendet.

Sie kann aber leicht dazu führen, die Entropie als ein Streuungsmaß einer Zufallsvariable aufzufassen, was aber nicht zutreffend ist. Denn ändert man die Werte der Zufallsvariable X in umkehrbarer Weise, so ändert sich die Entropie H(X) nicht. Bei einem Streuungsmaß sollte zum Beispiel die Zufallsvariable 2X einen größeren Wert besitzen als die Zufallsvariable X; die Entropie als Maß für die Ungewissheit des Ausgangs eines Zufallsexperimentes ändert ihren Wert beim Übergang von X zu 2X aber nicht.

Die gemeinsame Entropie

Die Definition der gemeinsamen Entropie

In Abbildung 1 wurde in Gleichung (1) beziehungsweise (2) die Entropie entweder eines Wahrscheinlichkeitsmaßes P, also H(P), oder einer Zufallsvariable X, also H(X), definiert. Salopp gesagt wird dabei für jede der endlich vielen Wahrscheinlichkeiten p_i der Term

-p_i ln p_i

berechnet und anschließend werden alle Terme aufsummiert. Dabei ist ln der natürliche Logarithmus und man verwendet immer die Konvention, dass

0·ln 0 = 0.

Die Definition der Entropie einer Zufallsvariable kann jetzt leicht verallgemeinert werden – und diese Verallgemeinerung wird benötigt, um die Additivität der Entropie schärfer formulieren zu können.

Man geht dazu ähnlich vor wie den Zufallsvariablen: Eine Zufallsvariable X wird durch die Angabe der Wahrscheinlichkeiten

p_i = P(X = x_i)

beschrieben. Werden zwei Zufallsvariablen X und Y betrachtet, so gibt es die sogenannte Verbundwahrscheinlichkeiten oder die gemeinsame Wahrscheinlichkeitsverteilung

p_{i, j} = P(X = x_i, Y = y_j).

Die Zahl p_{i, j}, die zwischen 0 und 1 liegen muss, gibt die Wahrscheinlichkeit dafür an, dass X den Wert x_i und gleichzeitig Y den Wert y_j annimmt, das heißt das Komma ist wie ein logisches "und zugleich" zu lesen.

Um jetzt die gemeinsame Entropie von zwei Zufallsvariablen zu definieren, summiert man die Terme -p_i,j ln p_i,j über beide Indizes i und j. Die Definition ist in Gleichung (3) in Abbildung 1 gezeigt.

Beispiele

1. Beispiel: Strategien beim Würfeln

Im ersten Beispiel wird ein Glücksspiel mit einem Laplace-Würfel untersucht. Dabei definieren die Zufallsvariablen K und G spezielle Strategien und beschreiben den Auszahlungsbetrag:

Die Zufallsvariable K entspricht der Strategie, bei der auf eine kleine Zahl {1, 2, 3} gesetzt wird (die Bezeichnung K soll an klein erinnern). Im Fall eines Gewinns wird 1 EUR ausbezahlt, andernfalls wird nichts ausbezahlt.
Die Zufallsvariable G beschreibt die Strategie, wenn auf eine gerade Zahl {2, 4, 6} gesetzt wird. Auch hier wird nur im Fall eines Gewinns 1 EUR ausbezahlt.

Abbildung 2 zeigt die Definition der Zufallsvariablen K und G (siehe Gleichung (1) und (2)). Zudem wird gezeigt, wie man sich jetzt leicht die gemeinsamen Wahrscheinlichkeiten

P(K = k, G = g), k, g = 0, 1

aus der Laplace-Annahme herleiten kann (Gleichung (3)).

Abbildung 2: Strategien beim Würfeln und die Berechnung der zugehörigen Entropien.

Abbildung 2: Strategien beim Würfeln und die Berechnung der zugehörigen Entropien. (img/04_Entropie_Add/strat.svg){width=850}

Da die Zufallsvariablen K und G mit denen eines fairen Münzwurfes übereinstimmen, liefert die Berechnung der Entropien H(K) und H(G) jeweils ln 2 (siehe Gleichung (4)).

Die Berechnung der gemeinsamen Entropie H(K, G) besteht dann aus einer Summe über die 4 möglichen Kombinationen der Werte k, g = 0, 1 (siehe Gleichung (5) in Abbildung 2). Man erkennt, dass die gemeinsame Entropie H(K, G) kleiner ist als die Summe der Entropien H(K) + H(G) (siehe Gleichung (6)).

2. Beispiel: Zwei unabhängige Münzwürfe

Es sollen zwei Münzen unabhängig voneinander geworfen werden, wobei beide Münzen die identische Trefferwahrscheinlichkeit p besitzen. Bezeichnen X und Y das Ergebnis (Treffer 1 oder Niete 0) beim ersten beziehungsweise zweiten Wurf, so erhält man für die Entropien

H(X) = H(Y) = - p·ln p - q·ln q.

Die gemeinsame Entropie H(X, Y) ergibt sich aus den 4 Kombinationen

P(X = x, Y = y), x, y = 0, 1.

Diese vier Wahrscheinlichkeiten betragen:

p², pq, pq, q².

Abbildung 3 zeigt für dieses Beispiel:

Die Berechnung der Entropien H(X) und H(Y): da die Trefferwahrscheinlichkeiten übereinstimmen, ergeben sich identische Entropien (siehe Gleichung (1)).
Die Berechnung der gemeinsamen Entropie H(X, Y), die hier mit der Summe H(X) + H(Y) übereinstimmt (siehe Gleichung (2)).

In der Berechnung der gemeinsamen Entropie werden verwendet:

Die Rechenregeln für den Logarithmus, nämlich ln(a·b) = ln a + ln b sowie ln x^a = a·ln x.
Die Tatsache, das sich p und q zu 1 addieren.

Abbildung 3: Die Berechnung der Entropie beim einfachen Münzwurf sowie beim unabhängigen Münzwurf.

Abbildung 3: Die Berechnung der Entropie beim einfachen Münzwurf sowie beim unabhängigen Münzwurf. (img/04_Entropie_Add/muenzwurf.svg){width=650}

Die Additivität der Entropie bei unabhängigen Zufallsvariablen

Das letzte Beispiel sollte klarmachen, dass für die Additivität der Entropie, also der Gleichheit H(X, Y) = H(X) + H(Y) nicht die speziellen Eigenschaften des Münzwurfes verantwortlich sind, sondern das Zusammenspiel der Unabhängigkeit der Zufallsvariablen und den Eigenschaften der Entropiefunktion. Denn durch die Logarithmusfunktion können die Wahrscheinlichkeiten, die bei Unabhängigkeit faktorisieren, gemäß den Rechenregeln des Logarithmus in Summen verwandelt werden. Daher ist es naheliegend zu fragen, ob man die Berechnungen aus Abbildung 3 nicht für beliebige unabhängige Zufallsvariablen durchführen kann.

Abbildung 4 zeigt die entsprechende Überlegung; dazu werden:

die Bezeichnungen für die beiden unabhängigen Zufallsvariablen eingeführt (siehe Gleichung (1)),
der Satz formuliert, wonach die gemeinsame Entropie mit der Summe der Einzelentropien übereinstimmt (siehe Gleichung (2)),
die zu Abbildung 3 analogen Berechnungen für den allgemeinen Fall durchgeführt (siehe Gleichung (3-5)).

Abbildung 4: Die Additivität der Entropie für unabhängige Zufallsvariablen.

Abbildung 4: Die Additivität der Entropie für unabhängige Zufallsvariablen. (img/04_Entropie_Add/AddBew.svg){width=650}

Wie im Beispiel der unabhängigen Münzen ist die Rechenregel des Logarithmus entscheidend dafür, dass die gemeinsame Entropie H(X, Y) auf die Einzelentropien H(X) und H(Y) zurückgeführt werden kann. Im Allgemeinen würden im Argument des Logarithmus die Verbundwahrscheinlichkeiten der Art P(X = x, Y = y) stehen. Erst durch die Unabhängigkeit der Zufallsvariablen X und Y kann man diese Verbundwahrscheinlichkeiten faktorisieren, nämlich

P(X = x, Y = y) = P(X = x)·P(Y = y),

und mit Hilfe der Rechenregeln für den Logarithmus in Terme umwandeln, in denen im Logarithmus nur noch Wahrscheinlichkeiten der Art P(X = x) oder P(Y = y) vorkommen.

Damit kann man auch eine Frage neu beleuchten, die in Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele aufgeworfen wurde:

Warum wird die Entropie wie in Gleichung (1) beziehungsweise (2) in Abbildung 1 definiert?

Dort wurde gesagt, dass die Entropie die "Ungewissheit" über den Ausgang eines Zufallsexperimentes beschreibt. Geht man jetzt umgekehrt vor und sucht nach einer geeigneten Funktion, die in der Lage ist, diese "Ungewissheit" zu quantifizieren, so wird man die Additivität bei unabhängigen Zufallsvariablen fordern. Denn die Kenntnis des Ausgangs eines Zufallsexperimentes soll keinen Hinweis darauf liefern, wie das andere Zufallsexperiment ausfällt. Im ersten Beispiel oben (Strategien beim Würfeln) war die Unabhängigkeit nicht erfüllt: Die Kenntnis des Wertes einer Zufallsvariable erlaubt es, den Wert der anderen Zufallsvariable mit veränderten Wahrscheinlichkeiten vorherzusagen – die Additivität der Entropien ist hier nicht erfüllt.

Fordert man also von einer Entropiefunktion, dass sie die Additivität bei unabhängigen Zufallsvariablen gewährleistet, so ist die Entropie nach Gleichung (1) beziehungsweise (2) in Abbildung 1 ein geeigneter Kandidat. Damit ist aber noch nicht gesagt, dass dies die einzige geeignete Entropiefunktion ist. Und es ist immer noch nicht geklärt, ob man dem Zahlenwert der Entropie tatsächlich eine Bedeutung geben kann.

Aber die Diskussion der Additivität der Entropie hat gezeigt: Mit der Definition der gemeinsamen Entropie wurde eine zu den Verbundwahrscheinlichkeiten von Zufallsvariablen analoge Größe für Entropien definiert. Und um abhängige Zufallsvariablen zu beschreiben, werden bedingte Wahrscheinlichkeiten verwendet. Man kann sich dies leicht am Beispiel 1 oben (Strategien beim Würfeln) klarmachen: Die Kenntnis des Wertes einer Zufallsvariable verändert die Wahrscheinlichkeit, mit der die Werte der anderen Zufallsvariable eintreten. Quantifiziert wird diese Veränderung mit Hilfe der bedingten Wahrscheinlichkeit. Naheliegend ist es jetzt zu fragen, ob man nicht auch eine bedingte Entropie definieren kann, die diese Veränderung im Sinne einer "Ungewissheit über den Ausgang eines Zufallsexperimentes" beschreibt. Diese Diskussion soll aber nicht hier erfolgen.

Aufgaben

Summe von zwei unabhängigen Zufallsvariablen

Im zweiten Beispiel oben (zwei unabhängige Münzwürfe) soll die Zufallsvariable

Z = X + Y definiert werden.

Berechnen Sie H(Z).
Welcher Zusammenhang besteht zwischen H(Z) und H(X) + H(Y)?

Die Basis des Logarithmus

In der Definition der Entropie (siehe Gleichung (1) beziehungsweise (2) in Abbildung 1) wird der natürliche Logarithmus verwendet.

Wie verändern sich die Werte der Entropie, wenn man zum Logarithmus zur Basis b übergeht?
Gilt die Additivität der Entropie für jede Basis b?

Die Additivität der Entropie bei Produktmaßen

Formulieren Sie die Aussage über die Additivität der Entropie nicht auf der Ebene von Zufallsvariablen sondern von Maßen.