Die Entropie einer Faltung von Wahrscheinlichkeitsverteilungen

Am Beispiel der geometrischen Verteilung wird gezeigt, wie man die Entropie einer Faltung berechnet und wie sie mit den Entropien der Ausgangsverteilungen zusammenhängt. Mit Hilfe der Log-Summen-Ungleichung (einer Folgerung aus der Jensenschen Ungleichung) lässt sich das Ergebnis für beliebige Verteilungen verallgemeinern.

Inhaltsverzeichnis

Einordnung des Artikels

Ähnliche Wartezeitprobleme wie hier werden in Wartezeitprobleme beim Ziehen mit Zurücklegen und Ziehen ohne Zurücklegen und Interpretation der Zufallsexperimente Ziehen mit Zurücklegen und Ziehen ohne Zurücklegen durch Pfade auf einem Gitter diskutiert. Beide Artikel verwenden Kenntnisse zur geometrischen Verteilung (siehe Spezielle Wahrscheinlichkeitsverteilungen: die geometrische Verteilung).

Der letzte Abschnitt verwendet Kenntnisse aus Eigenschaften von konvexen Funktionen und die Jensensche Ungleichung.

Einführung und Bezeichnungen

An einem speziellen Beispiel soll diskutiert werden, wie man die Entropie bei einer Faltung von Wahrscheinlichkeitsverteilungen berechnet. Dazu wird die Summe

S2 = X1 + X2

von zwei unabhängigen Zufallsvariablen X1 und X2 betrachtet, die bei folgendem Zufallsexperiment entstehen:

Die drei Zufallsvariablen X1, X2 und S2 können jeweils die Werte 0, 1, 2, ... annehmen.

Die beiden Zufallsvariablen X1 und X2 besitzen die gleiche Verteilung, nämlich eine geometrische Verteilung, die unten hergeleitet wird. Als Summe von unabhängigen Zufallsvariablen berechnet sich die Verteilung von S2 dann durch die Faltung der Verteilungen von X1 und X2.

Untersucht werden soll, wie die Entropie der Verteilung von S2 mit den Entropien der Verteilungen von X1 und X2 zusammenhängt.

Die Entropie wurde eingeführt (siehe Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele) als eine Größe, welche die Unsicherheit über den Ausgang eines Zufallsexperimentes beschreibt. Qualitativ sollte daher klar sein, dass die Unsicherheit über die Voraussage der Zufallsvariablen X1 und X2 größer ist als über S2. Denn jetzt verschmelzen mehrere Kombinationen von Werten von X1 und X2 zum gleichen Summenwert S2.

Die hier angestellten Überlegungen hängen natürlich nicht von der Wahl der Wahrscheinlichkeitsverteilung der Zufallsvariablen X1 und X2 ab (hier geometrische Verteilungen), sondern sollten für jede Verteilung gelten. Im letzten Abschnitt wird angedeutet, wie man diese allgemeinere Aussage, nämlich

H[S2] ≤ H[X1] + H[X2] für S2 = X1 + X2,

wobei X1 und X2 unabhängig voneinander sind, zeigt:

Somit beruht die Aussage H[S2] ≤ H[X1] + H[X2] letztlich auf der Konvexität der Funktion f(x) = x·ln x, die verwendet wird, um in der Entropie die Wahrscheinlichkeiten der möglichen Werte einer Zufallsvariable zu bewerten.

Die Zufallsvariablen zu den Wartezeitproblemen und ihre Verteilungen

Darstellung als Pfad im Gitter

Ähnlich wie in Interpretation der Zufallsexperimente Ziehen mit Zurücklegen und Ziehen ohne Zurücklegen durch Pfade auf einem Gitter gezeigt, kann man die Zufallsvariablen X1 und X2 und ihre Summe

S2 = X1 + X2

sehr gut mit Hilfe von Pfaden in einem Gitter veranschaulichen. Abbildung 1 zeigt dazu die Vorgehensweise:

In Abbildung 1 wird der Pfad zu 0010001 gezeigt, also für

X1 = 2, X2 = 3, S2 = 5.

Abbildung 1: Darstellung des Ergebnisses beim Ziehen mit Zurücklegen als Pfad im Gitter.Abbildung 1: Darstellung des Ergebnisses beim Ziehen mit Zurücklegen als Pfad im Gitter.

Insbesondere kann man die hier angestellten Überlegungen leicht verallgemeinern für Summen der Art

SN = X1 + X2 + ... + XN.

Die Abzählprobleme, die sich dann ergeben, lassen sich leicht an der entsprechenden Abbildung analysieren; diese Überlegungen sollen hier aber nicht angestellt werden.

Die Verteilungen der Zufallsvariablen

Mit Hilfe von Abbildung 1 kann man sofort die Verteilungen der Zufallsvariablen X1, X2 und S2 berechnen. Mit "Verteilungen" ist gemeint, dass man Wahrscheinlichkeiten der Art

P(X = n), n = 0, 1, 2, ...

angibt, wobei X für die Zufallsvariable steht und n den Bereich ihrer Werte durchlaufen kann; hier können die Zufallsvariablen jeweils die Werte n = 0, 1, 2, ... annehmen.

Abbildung 2: Die Verteilungen der Zufallsvariablen X<sub>1</sub>, X<sub>2</sub> und ihrer Summe S<sub>2</sub>. Die Verteilung von S<sub>2</sub> berechnet sich durch Faltung der Verteilungen von X<sub>1</sub> und X<sub>2</sub>.Abbildung 2: Die Verteilungen der Zufallsvariablen X1, X2 und ihrer Summe S2. Die Verteilung von S2 berechnet sich durch Faltung der Verteilungen von X1 und X2.

Man kann das Ergebnis aus Gleichung (5) auch ohne die Faltung durch elementares Abzählen berechnen: Damit das Ereignis "S2 = n" eintritt, muss n+2 mal gezogen werden, wobei insgesamt 2 Treffer eintreten. Der zweite Treffer muss sich am Ende der Folge befinden, der erste Treffer kann sich an einer beliebigen Stelle innerhalb der 01-Folge befinden. Dann gibt es n+1 Möglichkeiten, wo der erste Treffer plaziert werden kann. Da aber jede Folge aus zwei Treffern und n Nieten besteht, hat sie die Wahrscheinlichkeit p2·qn, woraus sich auch Gleichung (5) ergibt.

Aufgaben:

1. Zeigen Sie, dass die Verteilung der Zufallsvariable X1 normiert ist (Gleichung (3) in Abbildung 3) und den Erwartungswert

E[X1] = q / p = (1 - p) / p

besitzt (Gleichung (4) in Abbildung 3).

2. Zeigen Sie die Verteilung der Zufallsvariable S2 normiert ist (Gleichung (6) in Abbildung 3) und den Erwartungswert

E[S2] = 2·q / p = 2·(1 - p) / p

besitzt (Gleichung (7) in Abbildung 3).

Verwenden Sie dazu die Formeln für die geometrische Reihe (Gleichung (1 - 3) in Abbildung 3).

Abbildung 3: Die Formeln zur Berechnung der geometrischen Reihe und ihre Anwendung auf die Zufallsvariablen X<sub>1</sub> und S<sub>2</sub> (Normierung und Erwartungswert).Abbildung 3: Die Formeln zur Berechnung der geometrischen Reihe und ihre Anwendung auf die Zufallsvariablen X1 und S2 (Normierung und Erwartungswert).

Die Abbildungen 4 und 5 zeigen die Verteilungen der Zufallsvariablen X1 und S2 für verschiedene Werte der Trefferwahrscheinlichkeit p. Jeweils blau eingetragen ist der Erwartungswert (für p = 0.1 liegt er außerhalb des dargestellten Bereichs der Werte für n). Die Skalierung wurde für alle Diagramme identisch gewählt, um sie untereinander besser vergleichen zu können.

Man erkennt an den Abbildungen sofort das Verhalten in den Grenzfällen p → 0 und p → 1:

  1. Geht die Trefferwahrscheinlichkeit p gegen null, so muss man "unendlich lange" auf den ersten Treffer warten und daher sind alle Längen n der Serien von Nieten nahezu gleich wahrscheinlich: Die Verteilung von X1 nähert sich einer "Gleichverteilung" auf den natürlichen Zahlen (Gleichverteilung ist hier in Anführungsstrichen geschrieben, weil es eine Gleichverteilung auf einer unendlichen Menge nicht geben kann). Der Erwartungswert von X1 geht gegen unendlich.
  2. Geht dagegen die Trefferwahrscheinlichkeit gegen eins, so wird sofort ein Treffer eintreten und die Verteilung von X1 ist bei n = 0 konzentriert. Der Erwartungswert von X1 geht gegen null.

Abbildung 4: Die Verteilung der Zufallsvariable X<sub>1</sub> für verschiedene Werte der Trefferwahrscheinlichkeit p. Zusätzlich eingetragen ist jeweils der Erwartungswert (blau). Alle Diagramme sind identisch skaliert, um die Verteilungen besser miteinander vergleichen zu können.Abbildung 4: Die Verteilung der Zufallsvariable X1 für verschiedene Werte der Trefferwahrscheinlichkeit p. Zusätzlich eingetragen ist jeweils der Erwartungswert (blau). Alle Diagramme sind identisch skaliert, um die Verteilungen besser miteinander vergleichen zu können.

Abbildung 5: Die Verteilung der Zufallsvariable S<sub>2</sub> für verschiedene Werte der Trefferwahrscheinlichkeit p sowie ihr Erwartungswert (blau). Für p = 0.1 liegt der Erwartungswert außerhalb des dargestellten Bereichs der Werte von n. Die Skalierung der Achsen ist wie in Abbildung 4 gewählt.Abbildung 5: Die Verteilung der Zufallsvariable S2 für verschiedene Werte der Trefferwahrscheinlichkeit p sowie ihr Erwartungswert (blau). Für p = 0.1 liegt der Erwartungswert außerhalb des dargestellten Bereichs der Werte von n. Die Skalierung der Achsen ist wie in Abbildung 4 gewählt.

Aufgabe:

  1. Erläutern Sie das qualitative Verhalten der Verteilung von S2.
  2. Warum besitzt die Verteilung (für kleine Werte von p) ein Maximum?
  3. Diskutieren Sie die Grenzwerte p → 0 und p → 1.

Die Berechnung der Entropien

Da jetzt die wichtigsten Eigenschaften der Zufallsvariablen X1 und S2 bekannt sind, ist es leicht ihre Entropie zu berechnen und deren Eigenschaften zu ermitteln. Die Entropie wird berechnet wie in Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele. Da hier unabhängige Zufallsvariablen betrachtet werden, sind auch die Überlegungen aus Die Additivität der Entropie bei unabhängigen Zufallsvariablen relevant.

Im Folgenden werden berechnet:

Abbildung 6 zeigt dazu die Definitionen, die hier verwendet werden (Entropie einer Wahrscheinlichkeitsverteilung beziehungsweise Zufallsvariable, gemeinsame Entropie und bedingte Entropie).

Abbildung 6: Die Definitionen von Entropie, gemeinsamer Entropie und bedingter Entropie.Abbildung 6: Die Definitionen von Entropie, gemeinsamer Entropie und bedingter Entropie.

Die Entropie der Zufallsvariable X1

In die Berechnung der Entropie H[X1] der Zufallsvariable X1 gehen nur die Wahrscheinlichkeiten ein, mit der die Werte der Zufallsvariable angenommen werden, aber nicht die Werte der Zufallsvariable. Das heißt, dass man bei einer Verschiebung der Werte von X1 das gleiche Resultat erhält. Erst wenn man – was weiter unten geschehen wird – die Entropie als Funktion des Erwartungswertes ausdrückt, wird diese Verschiebung relevant.

Bei der Verteilung der Werte von X1 handelt es sich um eine geometrische Verteilung, für die die Entropie explizit berechnet werden kann. Abbildung 7 zeigt:

Abbildung 7: Die Berechnung der Entropie der Zufallsvariable X<sub>1</sub> in verschiedenen Darstellungen: Entweder als Funktion der Trefferwahrscheinlichkeit p oder als Funktion des Erwartungswertes μ = '''E'''&#x005B;X<sub>1</sub>&#x005D;.Abbildung 7: Die Berechnung der Entropie der Zufallsvariable X1 in verschiedenen Darstellungen: Entweder als Funktion der Trefferwahrscheinlichkeit p oder als Funktion des Erwartungswertes μ = '''E'''[X1].

Abbildung 8 zeigt die Entropie H[X1] als Funktion der Trefferwahrscheinlichkeit (links) sowie ihre Ableitung nach p (rechts).

Abbildung 8: Die Entropie der Zufallsvariable X<sub>1</sub> als Funktion der Trefferwahrscheinlichkeit p sowie ihre Ableitung nach p.Abbildung 8: Die Entropie der Zufallsvariable X1 als Funktion der Trefferwahrscheinlichkeit p sowie ihre Ableitung nach p.

Abbildung 9 zeigt (analog zu Abbildung 8) die Entropie H[X1] als Funktion des Erwartungswertes μ = E[X1] (links) sowie ihre Ableitung nach μ (rechts).

Abbildung 9: Die Entropie der Zufallsvariable X<sub>1</sub> als Funktion des Erwartungswertes μ = '''E'''&#x005B;X<sub>1</sub>&#x005D; sowie ihre Ableitung nach μ.Abbildung 9: Die Entropie der Zufallsvariable X1 als Funktion des Erwartungswertes μ = '''E'''[X1] sowie ihre Ableitung nach μ.

Abbildung 10 zeigt die Funktionsterme für die Darstellungen von H[X1], die Ableitungen und die relevanten Grenzwerte.

Abbildung 10: Eigenschaften der Entropie der Zufallsvariable X<sub>1</sub>: Darstellung als Funktion der Trefferwahrscheinlichkeit p beziehungsweise des Erwartungswertes μ = '''E'''&#x005B;X<sub>1</sub>&#x005D;, Grenzwerte und Ableitungen.Abbildung 10: Eigenschaften der Entropie der Zufallsvariable X1: Darstellung als Funktion der Trefferwahrscheinlichkeit p beziehungsweise des Erwartungswertes μ = '''E'''[X1], Grenzwerte und Ableitungen.

Stellt man die Entropie H[X1] wie in Gleichung (1) in Abbildung 10 dar, so erhält man zwei Summanden. In Abbildung 11 werden diese beiden Summanden (blau und grün) zusammen mit der Entropie (rot) als Funktion von p dargestellt.

Abbildung 11: Die Entropie der Zufallsvariable X<sub>1</sub> als Funktion der Trefferwahrscheinlichkeit p (rot) und ihre Zerlegung in zwei Anteile (blau und grün).Abbildung 11: Die Entropie der Zufallsvariable X1 als Funktion der Trefferwahrscheinlichkeit p (rot) und ihre Zerlegung in zwei Anteile (blau und grün).

Aufgaben:

1. Die Berechnungen in Abbildungen 10 sind lückenhaft und zeigen oftmals nur die Ergebnisse. Ergänzen Sie die fehlenden Berechnungen.

2. Diskutieren Sie, welche Eigenschaften der Entropie man aus den Diagrammen mit den unterschiedlichen geometrischen Verteilungen in Abbildung 4 (zumindest qualitativ) ablesen kann.

Die gemeinsame Entropie der Zufallsvariablen X1 und X2

Die gemeinsame Entropie H(X1, X2) der Zufallsvariablen X1 und X2 wird aus der gemeinsamen Verteilung berechnet (siehe Gleichung (1) in Abbildung 12). Aufgrund der Unabhängigkeit der Zufallsvariablen X1 und X2 faktorisiert die Wahrscheinlichkeit:

P(X1 = n, X2 = m) = P(X1 = n)·P(X2 = m).

Und da die Verteilungen von X1 und X2 identisch sind, addieren sich die Entropien:

H(X1, X2) = H[X1] + H[X2] = 2·H[X1].

Die ausführliche Rechnung ist in Abbildung 12, Gleichung (3 - 7) gezeigt.

Somit können alle Eigenschaften der gemeinsamen Entropie H(X1, X2) aus der Entropie H[X1] abgelesen werden.

Abbildung 12: Die Berechnung der gemeinsamen Entropie der Zufallsvariablen X<sub>1</sub> und X<sub>2</sub>.Abbildung 12: Die Berechnung der gemeinsamen Entropie der Zufallsvariablen X1 und X2.

Die Entropie der Zufallsvariable S2

Die Zufallsvariable S2 beschreibt die Anzahl der Nieten bis zum zweiten Treffer. Ihre Verteilung wurde oben diskutiert und ist zusammen mit ihrem Erwartungswert in Abbildung 13, Gleichung (1), nochmals gezeigt.

Die Berechnung der Entropie H[S2] erfolgt in ähnlichen Schritten wie die Berechnung von H[X1]; die Gleichungen (2 - 7) in Abbildung 13 zeigen die Vorgehensweise:

Abbildung 13: Die Berechnung der Entropie der Zufallsvariable S<sub>2</sub>, die als Summe von drei Termen H<sub>1</sub>, H<sub>2</sub> und H<sub>3</sub> geschrieben wird und ihr Zusammenhang mit der gemeinsamen Entropie H(X<sub>1</sub>, X<sub>2</sub>).Abbildung 13: Die Berechnung der Entropie der Zufallsvariable S2, die als Summe von drei Termen H1, H2 und H3 geschrieben wird und ihr Zusammenhang mit der gemeinsamen Entropie H(X1, X2).

In den Abbildungen 14 und 15 wird versucht die Berechnungen aus Abbildung 13 graphisch darzustellen. Dazu werden die relevanten Funktionen in ihrer Abhängigkeit von der Trefferwahrscheinlichkeit p dargestellt.

In Abbildung 14:

In Abbildung 15:

Abbildung 14: Die gemeinsame Entropie der Zufallsvariablen X<sub>1</sub> und X<sub>2</sub> (rot) für verschiedene Werte der Trefferwahrscheinlichkeit p und die beiden Bestandteile -2·ln p (blau) und (-2q·ln q) / p (grün).Abbildung 14: Die gemeinsame Entropie der Zufallsvariablen X1 und X2 (rot) für verschiedene Werte der Trefferwahrscheinlichkeit p und die beiden Bestandteile -2·ln p (blau) und (-2q·ln q) / p (grün).

Abbildung 15: Die Entropie der Zufallsvariable S<sub>2</sub> (türkisfarben) für verschiedene Werte der Trefferwahrscheinlichkeit p, die man als Summe des roten und des orangefarbenen Graphen darstellen kann. (Rot: Gemeinsame Entropie H(X<sub>1</sub>, X<sub>2</sub>). Orange: Die unendliche Summe H<sub>1</sub>(p) nach Gleichung (5) in Abbildung 13.Abbildung 15: Die Entropie der Zufallsvariable S2 (türkisfarben) für verschiedene Werte der Trefferwahrscheinlichkeit p, die man als Summe des roten und des orangefarbenen Graphen darstellen kann. (Rot: Gemeinsame Entropie H(X1, X2). Orange: Die unendliche Summe H1(p) nach Gleichung (5) in Abbildung 13.

Aufgabe:

Diskutieren Sie, welche Eigenschaften der Entropie H[S2] man aus den Diagrammen in Abbildung 5 ablesen kann.

Verallgemeinerung

Die bisherigen Überlegungen haben sich auf die spezielle Zufallsvariable S2 bezogen, die aus der Summe von zwei geometrisch verteilten, unabhängigen Zufallsvariablen X1 und X2 entsteht. An Abbildung 15 und in den Gleichungen (5) und (10) in Abbildung 13 kann man erkennen, dass die Entropie von S2 kleiner oder gleich der gemeinsamen Entropie von X1 und X2 ist (denn die Funktion H1(p) kann nicht positiv werden):

H[S2] ≤ H(X1, X2) = H(X1) + H(X2).

(Die zweite Gleichheit gilt wegen der Unabhängigkeit der Zufallsvariablen X1 und X2.)

Im Folgenden soll skizziert werden, wie man zeigt, dass diese Aussage nicht von der speziellen Wahl der geometrischen Verteilung abhängt, sondern für jede Summe von zwei unabhängigen Zufallsvariablen gilt.

Dazu zeigt Abbildung 16 ein anderes Beispiel, das helfen soll den Zusammenhang zwischen der Entropie einer Summe S2 = X1 + X2 und der gemeinsamen Entropie H(X1, X2) besser zu verstehen: Aufgetragen sind die 36 Ergebnisse beim zweimaligen Werfen eines Würfels. Bildet man die Paare (x1, x2) umkehrbar eindeutig auf die Werte einer Zufallsvariable Z2 ab, etwa indem man bildet:

z2 = x1 + 6·(x2 - 1),

so nimmt die Zufallsvariable Z2 die Werte 1, 2, ..., 36 an. Und die Entropien H(X1, X2) und H[Z2] stimmen überein.

Durch die Bildung der Summe S2 = X1 + X2 entsteht eine Zufallsvariable, die gegenüber Z2 vergröbert ist. Das soll heißen, dass mehrere Ergebnisse von Z2 zu einem Ergebnis von S2 zusammengefasst werden, nämlich jeweils die Ergebnisse, die sich in Abbildung 16 auf einer Nebendiagonale befinden (eingetragen sind die Nebendiagonalen zu S2 = 4 und S2 = 7 in blau beziehungsweise grün).

Abbildung 16: Darstellung der Ergebnisse für das Zufallsexperiment &quot;Werfen von 2 Würfeln&quot;. Jeweils auf den Nebendiagonalen liegen Punkte mit gleicher Augensumme s<sub>2</sub> = x<sub>1</sub> + x<sub>2</sub>; hier für s<sub>2</sub> = 4 (blau) und s<sub>2</sub> = 7 (grün).Abbildung 16: Darstellung der Ergebnisse für das Zufallsexperiment "Werfen von 2 Würfeln". Jeweils auf den Nebendiagonalen liegen Punkte mit gleicher Augensumme s2 = x1 + x2; hier für s2 = 4 (blau) und s2 = 7 (grün).

Wenn also gezeigt werden soll, dass

H[S2] ≤ H(X1, X2)

für unabhängige Zufallsvariablen X1 und X2, so reicht es zu zeigen, dass die Entropie einer Zufallsvariable beim Übergang zu einer vergröberten Zufallsvariable nur abnehmen kann. Die entsprechende Überlegung ist in Abbildung 17 gezeigt:

Abbildung 17: Änderung der Entropie einer Zufallsvariable bei Vergröberung. Dargestellt wird der einfachste Fall einer Vergröberung: zwei Werte einer Zufallsvariable X werden zu einem Wert der Zufallsvariable Y verschmolzen.Abbildung 17: Änderung der Entropie einer Zufallsvariable bei Vergröberung. Dargestellt wird der einfachste Fall einer Vergröberung: zwei Werte einer Zufallsvariable X werden zu einem Wert der Zufallsvariable Y verschmolzen.

Gleichung (2) in Abbildung 17 ist ein Spezialfall der sogenannten Log-Summen-Ungleichung, die in Abbildung 18, Gleichung (2), gezeigt ist. Der Beweis der Log-Summen-Ungleichung beruht auf der Jensenschen Ungleichung (siehe Gleichung (3) sowie ihre ausführliche Diskussion in Eigenschaften von konvexen Funktionen und die Jensensche Ungleichung). Um die Log-Summen-Ungleichung zu beweisen, muss man für die Werte der λi und xi in Gleichung (3) spezielle Werte wählen. Die Vorgehensweise ist in den Gleichungen (4 - 6) gezeigt.

Insgesamt erkannt man, dass de Log-Summen-Ungleichung auf der Konvexität der Funktion f(x) = x·ln x beruht. Und somit ist auch die die Behauptung

H[S2] ≤ H(X1, X2)

letztlich darauf zurückgeführt, dass die Funktion f(x) = x·ln x eine konvexe Funktion ist. Diese Funktion f(x) wird verwendet, um die Wahrscheinlichkeiten P(X = x) der Werte x einer Zufallsvariable X zu gewichten, wenn die Entropie H[X] einer Zufallsvariable X berechnet wird.

Abbildung 18: Formulierung und Beweis der Log-Summen-Ungleichung.Abbildung 18: Formulierung und Beweis der Log-Summen-Ungleichung.

Aufgaben:

1. Im Beweis in Abbildung 18 wird nicht auf die Grenzfälle eingegangen, wenn einige der Zahlen ai beziehungsweise bi gleich null sind. Wie muss man den Beweis dann ergänzen?

2. Man kann die Aussage der Log-Summen-Ungleichung sogar noch verschärfen: Die Gleichheit in (2) von Abbildung 18 gilt genau dann, wenn alle Quotienten ai/bi den gleichen Wert annehmen, also ai/bi = const. Beweisen Sie diese Verschärfung der Log-Summen-Ungleichung.