Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele

Die Definition der Entropie eines Wahrscheinlichkeitsmaßes oder einer Zufallsvariable wird an einfachen Beispielen erläutert. Es wird diskutiert, dass die Entropie kein Streuungsmaß ist (wie die Standardabweichung), sondern die Ungewissheit (oder Unbestimmtheit) des Ausgangs eines Zufallsexperimentes beschreibt.

walter

4 Dez. 2021

Varianz diskrete Zufallsvariable Erwartungswert Konvexität Elementarereignis Wahrscheinlichkeitsmaß Wahrscheinlichkeitsverteilung Entropie Ungewissheit Standardabweichung Ergebnisraum Wahrscheinlichkeitsraum Zufallsvariable Streuungsmaß Simplex

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Eigenschaften von Zufallsvariablen
    - Eigenschaften von Zufallsvariablen: Der Erwartungswert von diskreten und stetigen Zufallsvariablen
    - Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung
  - Die Entropie
    - Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele

Einführung

Der Begriff der Entropie ist für unterschiedliche Gebiete von zentraler Bedeutung, etwa in der Thermodynamik oder der Informationstheorie. Entsprechend schwer ist es dem Begriff einen eindeutigen Gehalt zuzuordnen und eventuelle Beiklänge zu vermeiden. Hier soll versucht werden, die Entropie eines Wahrscheinlichkeitsmaßes (oder der Wahrscheinlichkeitsverteilung einer Zufallsvariable) zu definieren und dabei Eigenschaften der Entropie aus anderen Gebieten auszublenden.

Die Begriffsbildungen der Wahrscheinlichkeitsrechnung lassen sich sehr treffend mit Glücksspielen erklären; entsprechend wird die Definition der Entropie an sehr einfachen Beispielen wie Münzwurf und Würfeln erläutert und es wird diskutiert, welche Bedeutung die Entropie im Rahmen der Wahrscheinlichkeitsrechnung besitzt. Es wird sich zeigen, dass sie ein Maß für die Ungewissheit über den Ausgang eines Zufallsexperimentes ist – wobei diese Aussage nicht endgültig ist, sondern eine Reihe weiterer Fragen heraufbeschwört, die hier nicht diskutiert werden.

Um zur eigentlichen Definition der Entropie zu gelangen, sind einige Vorbereitungen nötig:

Es wird versucht, eine Vorstellung der Menge aller (diskreten) Wahrscheinlichkeitsmaße zu entwickeln.
Ist die Anzahl der Elementarereignisse eines Ergebnisraumes gegeben, so bildet die Menge der Wahrscheinlichkeitsmaße eine konvexe Menge.
Die Funktion f(x) = - x·ln x, wobei ln für den natürlichen Logarithmus steht, wird sich als der entscheidende Bestandteil der Entropie herausstellen; viele Eigenschaften der Entropie können direkt aus den Eigenschaften von f(x) abgelesen werden.

Zur Vorbereitung: Die Menge der diskreten Wahrscheinlichkeitsverteilungen

Darstellung der diskreten Wahrscheinlichkeitsverteilungen als Simplex

Bei der Einführung von Zufallsvariablen wurde diskutiert, dass Ereignisse eigentlich Mengen von Elementarereignissen sind, sie sich aber einfacher mit Hilfe von Zufallsvariablen beschreiben lassen. Damit entfällt der eher umständliche Umgang mit Ergebnisalgebren und Wahrscheinlichkeitsrechnung findet immer auf der Ebene von Zufallsvariablen statt – man muss lediglich die geeigneten Zufallsvariablen finden.

Weiter unten wird diskutiert, ob man die Entropie als Funktion einer Zufallsvariable oder einer Wahrscheinlichkeitsverteilung auffassen soll. Es sprechen mehrere Gründe für Letzteres und daher wird in diesem ersten Abschnitt gezeigt, wie man die Menge aller diskreten Wahrscheinlichkeitsverteilungen beschreiben kann.

Zur Erinnerung: In Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Axiome von Kolmogorov wurde definiert, dass ein Wahrscheinlichkeitsraum

(Ω, A, P)

aus einer nicht-leeren Menge Ω, einer Ereignisalgebra A über Ω und einem Wahrscheinlichkeitsmaß P auf A zusammengesetzt ist. Vorerst werden nur Wahrscheinlichkeitsräume mit endlichem oder abzählbarem Ω betrachtet. Und daher kann man voraussetzen, dass jedem Elementarereignis ω_i ∈ Ω eine Wahrscheinlichkeit zugeordnet ist; die zugehörige Ereignisalgebra ist dann die Potenzmenge von Ω, also die Menge aller Teilmengen von Ω. (Wie der Fall behandelt wird, in dem die Ereignisalgebra A eine Vergröberung der Potenzmenge darstellt, wird unten an einem Beispiel zum Würfeln gezeigt.)

Zum Verständnis der Entropie wird es hilfreich sein zu fragen, welche Wahrscheinlichkeitsmaße es auf einer Menge Ω geben kann, wenn Ω genau n Elemente besitzt. Bezeichnet man die Elementarereignisse einer n-elementigen Menge Ω mit

(ω₁, ω₂, ..., ω_n),

so kann man jedes Wahrscheinlichkeitsmaß P durch die Angabe der Wahrscheinlichkeiten

(P(ω₁), P(ω₂), ..., P(ω_n)) = (p₁, p₂, ..., p_n)

eindeutig charakterisieren.

1. Beispiel: Münzwurf

Beim Münzwurf gibt es zwei Elementarereignisse (Kopf und Zahl oder Treffer und Niete oder kurz 1 und 0); deren Wahrscheinlichkeiten werden wie üblich mit p (für Treffer oder 1) und q = 1 - p (für Niete oder 0) bezeichnet. Da sich die Wahrscheinlichkeiten der Elementarereignisse zu 1 addieren müssen, gibt es zwar unendlich viele Möglichkeiten, wie man den Elementarereignissen Wahrscheinlichkeiten zuordnen kann, aber sie lassen sich durch einen Parameter beschreiben:

(p, 1 - p) mit 0 ≤ p ≤ 1.

Darstellen kann man die Menge der möglichen Zahlenpaare (p, 1 - p) als Strecke im zweidimensionalen Raum zwischen den Punkten (1, 0) und (0, 1), siehe Abbildung 1 oben. Um die Verallgemeinerung auf n-elementige Ω zu erleichtern, werden dort anstelle von p und q die Bezeichnungen p₁ und p₂ verwendet.

Abbildung 1: Oben: Gibt es in der Ergebnismenge Ω zwei Elementarereignisse, so lassen sich die möglichen Wahrscheinlichkeitsmaße als Strecke zwischen den Punkten (1, 0) und (0, 1) darstellen. Man kann die Wahrscheinlichkeitsmaße auch durch die Wahrscheinlichkeiten der beiden Elementarereignisse charakterisieren, die beide nicht negativ sein dürfen und sich zu 1 addieren müssen. Unten: Gibt es drei Elementarereignisse, so lassen sich die möglichen Wahrscheinlichkeitsmaße als Dreieck im dreidimensionalen Raum darstellen. Beschrieben wird diese Menge von Wahrscheinlichkeiten (p₁, p₂, p₃) wieder durch die beiden Bedingungen Nicht-Negativität und Addition zu 1.

2. Beispiel: Eine Ergebnismenge mit drei Elementarereignissen

Gibt es drei Elementarereignisse, also

Ω = {ω₁, ω₂, ω₃},

so gibt es auch drei Zahlen

(p₁, p₂, p₃)

für die Wahrscheinlichkeiten der Elementarereignisse. Diese drei Wahrscheinlichkeiten müssen jeweils größer oder gleich 0 sein und sich zu 1 addieren:

p₁, p₂, p₃ ≥ 0 und p₁ + p₂ + p₃ = 1.

Man kann diese beiden Bedingungen leicht geometrisch interpretieren: die Menge der möglichen Wahrscheinlichkeiten (p₁, p₂, p₃) bildet ein gleichseitiges Dreieck, das zwischen den Punkten (1, 0, 0), (0, 1, 0) und (0, 0, 1) aufgespannt wird, siehe Abbildung 1 unten.

⋄ ⋄ ⋄

Die Strecke in Abbildung 1 oben wird als eindimensionaler Simplex, das gleichseitige Dreieck in Abbildung 1 unten als zweidimensionaler Simplex bezeichnet. Jeder Punkt der Strecke beziehungsweise des gleichseitigen Dreiecks steht somit für ein Wahrscheinlichkeitsmaß auf einem zwei- beziehungsweise dreielementigen Ω.

Allgemein liegen die Wahrscheinlichkeiten

(p₁, p₂, ..., p_n) mit p₁ + p₂ + ... + p_n = 1

auf einer (n-1)-dimensionalen Hyperebene zwischen den Punkten (1, 0, ..., 0), (0, 1, 0, ..., 0), ..., (0, ..., 0, 1) – man bezeichnet die von ihnen gebildete Menge als n-dimensionalen Simplex.

Aufgabe: Welche Gestalt hat der dreidimensionale Simplex?

3. Beispiel: Spezielle Strategie beim Würfeln

Beim Würfeln gibt es 6 Elementarereignisse Ω = {1, 2, ..., 6}. Setzt jemand bei einem Würfelspiel immer auf die geraden Zahlen G = {2, 4, 6} und gewinnt oder verliert (netto) bei jedem Spiel einen EUR, so ist für dieses Zufallsexperiment die Ereignisalgebra

A = {{}, G, U, Ω} mit U = {1, 3, 5}

relevant. Die Zufallsvariable X, die die Strategie treffend beschreibt, nimmt die zwei Werte +1 (für ω gerade) und -1 (für ω ungerade) an.

Hat in diesem Beispiel Ω sechs oder zwei Elemente?

Zweifellos besteht Ω aus 6 Elementarereignissen, aber die Zufallsvariable X, die den Nettogewinn bei der speziellen Strategie beschreibt, induziert eine Vergröberung der Ereignisalgebra. Denn X muss als Abbildung von Ω auf einen neuen Ergebnisraum Ω' = {-1; 1} aufgefasst werden:

X Ω → Ω'.

Und dieser Ergebnisraum Ω' besteht nur aus den zwei Elementen +1 und -1; die Wahrscheinlichkeiten dieser Elementarereignisse können dann leicht aus den Wahrscheinlichkeiten der 6 Elementarereignisse von Ω berechnet werden.

In diesem Sinne war die Bemerkung oben zu verstehen, dass es reicht, immer die Potenzmenge von Ω als Ereignisalgebra anzusetzen. Sobald eine Vergröberung auf eigentlich weniger Elementarereignisse führt, wird das entsprechende kleinere Ω' betrachtet.

Konvexität der Menge der Wahrscheinlichkeitsverteilungen

Eine für die Entropie wichtige Eigenschaft ist die Konvexität (oder Konkavität – je nach Vorzeichenkonvention); der Begriff der Konvexität kann für Mengen und Funktionen definiert werden und besagt salopp:

Eine Menge ist konvex, wenn sie keine Dellen besitzt. (Jedes Dreieck ist konvex, ein Viereck mit einem überstumpfen Winkel nicht.)
Eine Funktion ist konvex, wenn die Funktionswerte immer unterhalb einer Sekante liegen (wie bei der Normalparabel).

In Abbildung 2 wird die exakte Definition der Konvexität einer Menge gezeigt. Relevant für die Definition der Entropie ist hier, dass die Menge der Wahrscheinlichkeitsmaße auf einer Ergebnismenge Ω mit n Elementen eine konvexe Menge ist.

Abbildung 2: Definition dr Konvexität einer Menge und die Anwendung auf Wahrscheinlichkeitsmaße: Sind zwei Wahrscheinlichkeitsmaße auf einer Ergebnismenge Ω (mit n Elementen) gegeben, so ist auch ihre konvexe Kombination wieder ein Wahrscheinlichkeitsmaß auf Ω.

Das folgende Beispiel zeigt, dass die Bildung von λP + (1 - λ)R zu zwei gegebenen Wahrscheinlichkeitsmaßen P und R eine Mittelung vollzieht.

Beispiel: Münzwurf mit Ω = {0; 1}

Sind die Wahrscheinlichkeitsmaße P und R durch die extremen Wahrscheinlichkeiten für die Elementarereignisse (p₁, p₂) = (1, 0) beziehungsweise (0, 1) gegeben, so lauten diejenigen von λP + (1 - λ)R:

(λ, 1 - λ).

Speziell für λ = 1/2 erhält man die Wahrscheinlichkeiten (1/2, 1/2). In diesem Sinne findet eine Mittelung statt, wobei je nach Größe von λ die beiden Summanden unterschiedlich stark gewichtet werden; nur für λ = 1/2 werden sie gleich gewichtet.

Eigenschaften der Funktion x → -x·ln x

Die Funktion

f(x) = -x·ln x

wird sich als der entscheidende Baustein der Entropie-Funktion herausstellen, so dass ihre Eigenschaften hier ausdrücklich gezeigt werden sollen. Sie sind in Abbildung 3 zusammengestellt.

Da die Logarithmus-Funktion nur für positive x definiert ist, ist auch die Funktion f(x) eigentlich nur für positive x-Werte definiert. Berechnet man den Grenzwert für x → 0 (von der positiven Seite), erhält man 0. Man kann daher problemlos f(0) = 0 setzen. Dies ist hier besonders wichtig, da später anstelle der x-Werte die Wahrscheinlichkeiten der Elementarereignisse eingesetzt werden; ohne die Vereinbarung f(0) = 0 müsste man Elementarereignisse mit Wahrscheinlichkeit 0 ausschließen. Wie sich zeigen wird, kann man dies auch anders formulieren: Elementarereignisse mit Wahrscheinlichkeit 0 werden wegen f(0) = 0 keinen Beitrag zur Entropie liefern.

Abbildung 3: Eigenschaften der Funktion f(x) = -x ln x für x-Werte zwischen 0 und 1.

Die Ableitungen von f(x) können elementar berechnet werden; die zweite Ableitung ist im Inneren des Definitionsbereiches negativ, woraus folgt, dass f(x) eine konkave Funktion ist.

Die erste Ableitung wechselt ihr Vorzeichen bei x₀ = exp(-1) und es ist auch f(x₀) = exp(-1). Da f(x) konkav ist, muss bei x₀ = exp(-1) ein Maximum liegen.

Einen Plot der Funktion f(x) (rot) zeigt Abbildung 4; Für die x-Werte ist hier nur das Intervall von 0 bis 1 gezeichnet, da andere x-Werte für die Berechnung der Entropie einer diskreten Wahrscheinlichkeitsverteilung nicht relevant sind.

Abbildung 4: Plot der Funktion f(x) = -x ln x für x-Werte zwischen 0 und 1. Grün eingetragen sind die Koordinaten des Maximums x<sub>0</sub> = exp(-1) und f(x<sub>0</sub>) = exp(-1). Blau eingetragen ist die Tangente an f im Punkt (1, 0); ihre Geradengleichung lautet y=1 - x.

Abbildung 4: Plot der Funktion f(x) = -x ln x für x-Werte zwischen 0 und 1. Grün eingetragen sind die Koordinaten des Maximums x₀ = exp(-1) und f(x₀) = exp(-1). Blau eingetragen ist die Tangente an f im Punkt (1, 0); ihre Geradengleichung lautet y = 1 - x.

Zusätzlich eingetragen ist die Gerade:

y = 1 - x,

die Tangente an den Graphen von f(x) für x = 1 (wie man leicht an der Ableitung f'(x) ablesen kann).

Die Definition der Entropie einer Wahrscheinlichkeitsverteilung

Mit all diesen Vorbereitungen kann endlich die Entropie definiert werden und zwar

entweder für ein Wahrscheinlichkeitsmaß P
oder für eine Zufallsvariable X.

Beide Definitionen sind in Abbildung 5 gezeigt.

Im ersten Fall geht man von einer Ergebnismenge Ω mit n Elementen aus, wobei die Wahrscheinlichkeiten p_i der Elementarereignisse gegeben sind. Die Entropie berechnet sich dann nach Gleichung (1) aus den p_i.

Im zweiten Fall geht man von den n unterschiedlichen Werten x_i der Zufallsvariable X aus, die jeweils mit einer Wahrscheinlichkeit

p_i = P(X = x_i)

angenommen werden. Aus diesen Wahrscheinlichkeiten berechnet sich die Entropie nach Gleichung (2).

Abbildung 5: Definition der Entropie für ein Wahrscheinlichkeitsmaß beziehungsweise eine Zufallsvariable.

Die Berechnung der Entropie erfolgt in beiden Fällen dadurch, dass man jede der gegebenen Wahrscheinlichkeiten p_i in die Funktion f(x) = - x·ln x einsetzt und sämtliche Beiträge addiert. Damit sollte auch klar geworden sein, warum die Vereinbarung f(0) = 0 so wichtig ist: ohne sie wäre die Entropie nicht definiert, wenn eine der Wahrscheinlichkeiten gleich null ist. Mit der Vereinbarung tragen Wahrscheinlichkeiten p_i = 0 nichts zur Entropie bei, was aus Stetigkeitsgründen nur richtig ist.

Und man sollte jetzt die Frage stellen, welche der beiden Definitionen der Entropie (für ein Wahrscheinlichkeitsmaß oder für eine Zufallsvariable) angemessen ist. Für die zweite Definition spricht, dass ein Wahrscheinlichkeitsmaß meistens durch eine Zufallsvariable induziert wird. Allerdings erkennt man an der Berechnung der Entropie, dass die Werte der Zufallsvariable nicht in die Berechnung eingehen. Das heißt alle Zufallsvariablen, die auf Ω' die Wahrscheinlichkeiten p_i induzieren, besitzen identische Entropie. In diesem Sinn ist die Entropie eine Größe, die einem Wahrscheinlichkeitsmaß zugeordnet werden sollte und nicht einer Zufallsvariable. Die zweite Definition kann daher den irreführenden Eindruck erwecken, dass die Entropie eine Kenngröße einer Zufallsvariable ist.

Beispiele für die Berechnung der Entropie

Der Münzwurf

Als einfachstes Beispiel zur Berechnung der Entropie wird der einmalige Münzwurf betrachtet, wobei nicht vorausgesetzt wird, dass es sich um ein Laplace-Experiment handelt. Die Treffer-Wahrscheinlichkeit wird mit p bezeichnet, die Wahrscheinlichkeit für eine Niete ist dann q = 1 - p. Das heißt es gibt zwei Elementarereignisse mit den Wahrscheinlichkeiten p und q, entsprechend berechnet sich die Entropie für dieses Wahrscheinlichkeitsmaß durch

H(P) = -p·ln p - q·ln q = -p·ln p - (1 - p)·ln (1 - p).

Die Entropie des Wahrscheinlichkeitsmaßes P kann somit als Funktion der Variable p aufgefasst werden, die Werte von 0 bis 1 annehmen kann. Die Eigenschaften der Funktion H(p) sind in Abbildung 6 zusammengestellt:

Für p = 0 und p = 1 wird H(p) = 0.
Ersetzt man p durch 1 - p, so ändert sich der Funktionswert nicht; daher ist H(p) achsensymmetrisch zu p = 1/2.
Die Ableitung von H(p) ist gleich 0 für p = 1/2, also im Fall einer Laplace-Münze.
Der Funktionswert im Maximum ist H(1/2) = ln 2 ≈ 0.693.

Abbildung 6: Zusammenstellung der Eigenschaften der Entropie H(p) als Funktion der Trefferwahrscheinlichkeit p beim Münzwurf..

Abbildung 7 zeigt den Plot von H(p); deutlich zu erkennen ist die Symmetrie bezüglich p = 1/2 und dass der Maximalwert für p = 1/2 mit dem Funktionswert ln 2 ≈ 0.693 angenommen wird.

Abbildung 7: Plot der Entropiefunktion H(p, q) p-Werte zwischen 0 und 1; der Wert von q ist jeweils durch q = 1 - p eindeutig festgelegt. Grün eingetragen ist das Maximum der Entropie bei p = 1/2; der Maximalwert beträgt H(1/2) = ln 2 ≈ 0.693.

Abbildung 8 soll die Berechnung der Entropie verdeutlichen. Dazu werden 3 Münzen mit unterschiedlichen Trefferwahrscheinlichkeiten betrachtet, nämlich p = 1/6, p = 1/3 und p = 1/2. Wie oben gesagt wurde, muss die Funktion f(x) = -x·ln x mit den Wahrscheinlichkeiten der Elementarereignisse (hier für Treffer und Niete) ausgewertet werden; die Funktionswerte werden anschließend addiert.

Dazu sind links oben in den Plot von f(x) die Funktionswerte für p = 1/6 und q = 5/6 eingetragen (orange). Im Plot der Entropie H(p) rechts unten erscheint dann die Summe dieser beiden Funktionswerte als Histogramm (ebenfalls orange). Entsprechend werden die Trefferwahrscheinlichkeiten p = 1/3 und p = 1/2 graphisch dargestellt (grün und blau). Zur besseren Nachvollziehbarkeit sind die y-Achsen aller Diagramme identisch skaliert.

Abbildung 8: Für die drei Trefferwahrscheinlichkeiten p = 1/6, 1/3 und 1/2 werden f(p) und f(q) dargestellt (orange, grün und blau). Im Diagramm rechts unten werden dann die Entropiewerte zu den drei Trefferwahrscheinlichkeiten als Histogramm im Plot der Entropie H (rot) dargestellt.

Man erkennt an Abbildung 8 deutlich:

Ist p in der Nähe von 0 oder 1, so ist die Entropie sehr nahe bei 0.
Obwohl f(x) nicht das Maximum bei x = 1/2 hat (sondern bei exp(-1) ≈ 0.368, wird der Maximalwert der Entropie H(p) für p = 1/2 angenommen.

Aufgabe:

Berechnen Sie die in Abbildung 8 dargestellten Funktionswerte von f(x) und die Entropiewerte explizit.

Die Entropie beim Würfeln

Um weitere Eigenschaften der Entropie aufzuzeigen, wird als Zufallsexperiment das Würfeln betrachtet; dabei geht man von einem Laplace-Würfel aus und untersucht 3 Zufallsvariablen:

Die Zufallsvariable S, die den Nettogewinn beschreibt, wenn bei jedem Spiel 1 EUR auf eine gerade Zahl gesetzt wird. Der Nettogewinn ist dann entweder +1 oder -1, das heißt es handelt sich um ein faires Spiel.
Die Zufallsvariable F, die den Nettogewinn beschreibt, wenn bei jedem Spiel 1 EUR auf die 6 setzt. Der Nettogewinn ist entweder +5 oder -1 (es ist wieder ein faires Spiel).
Die Zufallsvariable X, die die Augenzahl beim Würfeln beschreibt: mit jeweils Wahrscheinlichkeit 1/6 erscheinen die Zahlen 1, ..., 6. Die Zufallsvariable X ist lediglich die Identität, da X(ω) = ω.

In Eigenschaften von Zufallsvariablen: Der Erwartungswert von diskreten und stetigen Zufallsvariablen und Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung wurden diese Zufallsvariablen vorgestellt und Erwartungswert, Varianz und Standardabweichung berechnet. Diese Berechnungen werden hier nicht wiederholt, jetzt soll deren Entropie berechnet werden – die Ergebnisse werden den Zugang liefern, um die Bedeutung der Entropie besser zu verstehen.

Die Werte der Zufallsvariablen sind in folgender Tabelle gezeigt:

ω	1	2	3	4	5	6
S(ω)	-1	+1	-1	+1	-1	+1
F(ω)	-1	-1	-1	-1	-1	+5
X(ω)	1	2	3	4	5	6

1. Die Zufallsvariable S:

Da es sich um einen Laplace-Würfel handelt, sind die Wahrscheinlichkeiten für eine Gewinn oder Verlust genau 1/2. Das heißt obwohl es 6 Elementarereignisse gibt, ist das Zufallsexperiment identisch mit dem Wurf einer fairen Münze. Die Entropie berechnet sich wie oben:

H(S) = ln 2 ≈ 0.693.

2. Die Zufallsvariable F:

Auch dieses Zufallsexperiment ist gleichwertig zum Münzwurf – jetzt aber mit Trefferwahrscheinlichkeit p = 1/6. Wie man leicht nachrechnet, ist die Entropie (graphische Darstellung siehe Abbildung 8 links oben):

H(F) = (-1/6)·ln (1/6) - (5/6)·ln (5/6) = ln 6 - (5/6)·ln 5 ≈ 0.451

3. Die Zufallsvariable X:

Erst für die Zufallsvariable X muss man berücksichtigen, dass Ω sechs Elemente hat; aber da es sich um einen Laplace-Würfel handelt, sind die Beiträge zur Entropie durch alle 6 Summanden identisch:

H(X) = 6·(-1/6)·ln (1/6) = ln 6 ≈ 1.792.

Die Gleichverteilung

Das letzte Beispiel (Entropie der Augenzahl beim Würfeln) lässt sich leicht verallgemeinern: Besitzt Ω genau n Elemente und wird jedes Elementarereignis mit der Wahrscheinlichkeit 1/n angenommen, so berechnet sich die Entropie dieser Gleichverteilung P durch:

H(P) = n·(-1/n)·ln (1/n) = ln n.

Man erkennt, dass die Entropie bei Gleichverteilungen (auf Ergebnismengen unterschiedlicher Anzahl n) monoton mit n anwächst.

Die Bedeutung der Entropie

Im Folgenden wird gezeigt, dass die Entropie nicht die Eigenschaften hat, die man von einem Streuungsmaß erwartet. Stattdessen sollte man die Entropie als ein Maß für die Ungewissheit über den Ausgang eines Zufallsexperimentes oder die Unbestimmtheit des Zufallsexperimentes interpretieren.

Dazu werden die drei Zufallsvariablen S, F und X herangezogen, die oben beim "Würfeln" besprochen wurden. Ihre Werte sind in der Tabelle oben und nochmals in der Tabelle in Abbildung 9 gezeigt; in Abbildung 9 rechts werden auch die relevanten Größen berechnet, auf die sich die folgende Argumentation stützt:

Erwartungswert,
Varianz,
Standardabweichung,
Entropie.

Abbildung 9: Die Tabelle zeigt die Werte der drei Zufallsvariablen S, F und X sowie ihre Auswertung (Erwartungswert, Varianz, Standardabweichung und Entropie).

Fragt man nach der Bedeutung der Entropie, ist es – bei Zufallsexperimenten – naheliegend zu formulieren, welche Aussagen die genannten Größen über ein Glücksspiel machen. Die beiden Zufallsvariablen S und F beschreiben den Nettogewinn beim Würfeln, wenn man eine bestimmte Strategie verfolgt (Setzen auf gerade Zahlen beziehungsweise auf die 6). Die Zufallsvariable X beschreibt lediglich die Augenzahl beim Würfeln.

Für Erwartungswert und Standardabweichung ist die Bedeutung beim Glücksspiel einfach anzugeben:

Der Erwartungswert sagt aus, ob man mit der gewählten Strategie auf lange Sicht einen Gewinn oder Verlust macht. Hier wird ein Laplace-Würfel verwendet, so dass es sich für beide Strategien um ein faires Spiel handelt. Die Zufälligkeit des Spiels zeigt sich darin, dass sich der Ausgang des nächsten Spiels nicht voraussehen lässt; der Erwartungswert gibt an, ob die Strategie Erfolg verspricht oder nicht.
Die Standardabweichung beschreibt so etwas wie den "Nervenkitzel", den die Strategie beschert, indem sie angibt, welcher Betrag pro Spiel im Durchschnitt umgesetzt wird. Besitzt eine Strategie eine hohe Standardabweichung, so kann man bei einem Spiel viel verlieren oder gewinnen. Da hier der Einsatz stets 1 EUR beträgt, ist nur Letzteres der Fall. Bei einer niedrigen Standardabweichung geht man auch nur ein geringes Risiko ein und kann pro Spiel keinen großen Gewinn erwarten.

Kann man die Entropie ähnlich interpretieren? Welche Eigenschaft einer Strategie wird mit der Entropie quantifiziert?

Die Entropie ist kein Streuungsmaß

Vergleicht man die beiden Zufallsvariablen S und X, so ist folgender Trug-Schluss naheliegend: Die Werte von X streuen in einem größeren Bereich als die von S, daher ist die Standardabweichung von X größer als die von S. Zugleich hat X eine größere Entropie als S. Daraus folgt, dass die Entropie ein Maß für die Streuung der Werte einer Zufallsvariable ist.

Indem man die Zufallsvariablen S und F vergleicht, kann man schnell feststellen, dass diese Argumentation nicht zwingend ist: Denn F hat eine größere Standardabweichung als S (die Strategie F hat einen höheren "Nervenkitzel"), aber S hat die größere Entropie.

Ein weiteres Argument gegen die Interpretation der Entropie als Streuungsmaß ist Folgendes: Geht man von der Zufallsvariable S zu 2·S über, so verdoppelt sich auch die Standardabweichung. Dies lässt sich im Sinne einer Strategie beim Glücksspiel leicht erklären: Die Zufallsvariable 2·S beschreibt die Ergebnisse des Glücksspiels, wenn pro Spiel der doppelte Einsatz gezahlt wird. Dann verdoppelt sich der pro Spiel umgesetzte Betrag und es ist klar, dass die Standardabweichung dabei ebenso verdoppelt wird. Berechnet man aber die Entropie für die Zufallsvariable 2·S, so gehen nur die Wahrscheinlichkeiten ein, mit denen die Werte der Zufallsvariable angenommen werden, aber nicht die Werte selbst. Das heißt beim Übergang von S zu 2·S werden alle von S angenommenen Werte verdoppelt, die Wahrscheinlichkeiten bleiben unverändert. Und daher verdoppelt sich auch die Standardabweichung und die Entropie bleibt unverändert.

Diese beiden Argumente zeigen, dass die Entropie im Allgemeinen nicht als Streuungsmaß interpretiert werden kann – wenn es auch einige Situationen gibt, in denen dies richtig zu sein scheint.

Die Entropie als Maß der Ungewissheit über den Ausgang eines Zufallsexperimentes

Einen besseren Zugang zur Bedeutung der Entropie erhält man durch den Vergleich der Zufallsvariablen S und F: Die Zufallsvariable F beschreibt eine Strategie mit höherem Risiko, besitzt aber die kleinere Entropie. Wie kann man diesen scheinbaren Widerspruch erklären?

Hilfreich sind dazu auch die Diagramme in Abbildung 8. Denn wie schon gesagt, sind die Zufallsvariablen S und F gleichwertig zur Beschreibung eines Münzwurfes, wobei die Münzen unterschiedliche Trefferwahrscheinlichkeiten besitzen. Und man erkennt: Je näher die Trefferwahrscheinlichkeit bei 0 oder bei 1 ist (man kann ja die Treffer- und Nietenwahrscheinlichkeit beliebig vertauschen), um so kleiner ist die Entropie.

Auf das Glücksspiel bezogen bedeutet dies: Bei der Strategie F kann man mit hoher Wahrscheinlichkeit den Ausgang des nächsten Spiels voraussagen – man wird meistens verlieren. Dagegen ist bei S jedes nächste Spiel "maximal" unbestimmt, da die Gewinn- und Verlustwahrscheinlichkeit jeweils 1/2 sind. Die Diagramme in Abbildung 8 bestätigen dies: Die Entropie wird dann am Kleinsten, wenn die Gewinnwahrscheinlichkeit gegen 0 oder 1 geht und maximal, wenn Gewinn- und Verlustwahrscheinlichkeit identisch sind.

Man sollte daher der Entropie folgende Bedeutung beimessen: sie beschreibt, wie sehr der Ausgang eines Zufallsexperimentes unbestimmt (oder ungewiss) ist. Also je unbestimmter der Ausgang, um so größer ist die Entropie. Ist das Ergebnis der Zufallsexperimentes vorhersehbar oder nahezu vorhersehbar, ist die Entropie gleich 0 oder sehr klein.

Diese Interpretation wird auch durch den Vergleich der Zufallsvariablen S und X bestätigt: Bei S gibt es nur zwei Möglichkeiten, die mit jeweils gleicher Wahrscheinlichkeit eintreten können, bei X sind es 6 Möglichkeiten; entsprechend besitzt X die größere Entropie.

Aufgabe: In Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung wurde folgende Lotterie betrachtet:

Der Einsatz beträgt 1 EUR. Es gibt einen Gewinn von 1 000 000 EUR, den man mit einer Wahrscheinlichkeit von 1 / 14 000 000 erzielen kann.

Berechnen Sie für diese Lotterie Erwartungswert, Standardabweichung und Entropie.

Diskutieren Sie, ob dieses Beispiel die Interpretation der Entropie als Maß der Ungewissheit unterstützt.

Ist die Entropiefunktion eindeutig?

Die Antwort auf die Frage nach der Bedeutung der Entropie als ein Maß der Ungewissheit über den Ausgang eines Zufallsexperimentes kann nur vorläufig und nicht erschöpfend sein, denn es drängen sich weitere Fragen auf:

Die Funktionen H(P) für ein Wahrscheinlichkeitsmaß P oder H(X) für eine Zufallsvariable X sind sicher nicht die einzigen Funktionen, die eine derartige Interpretation zulassen. Gibt es weitere Funktionen?
Falls es mehrere derartige Funktionen gibt: welche Eigenschaften dieser Funktionen ermöglichen die Interpretation als Maß der Ungewissheit?
Bisher wurde nur qualitativ argumentiert: Die Größen Erwartungswert und Standardabweichung haben eine quantitative Bedeutung als durchschnittlicher Gewinn pro Spiel beziehungsweise durchschnittlich umgesetzter Betrag pro Spiel. Kann man auch die Entropie quantitativ interpretieren? Welche Bedeutung hat zum Beispiel eine Verdopplung der Entropie? Oder der absolute Wert H(P) = ln 2 für den Wurf einer Laplace-Münze?
Insbesondere war die Entropie der Gleichverteilung leicht zu berechnen: sie beträgt ln n, wenn die Ergebnismenge Ω genau n Elemente besitzt. Welche Bedeutung hat das logarithmische Anwachsen der Entropie mit n? Und ist der natürliche Logarithmus besonders ausgezeichnet?
Und wenn der absolute Wert der Entropie eine Bedeutung hat, muss man wieder zur zweiten Frage zurückkehren: welche Eigenschaft von H(P) erlaubt die angemessene inhaltliche und quantitative Interpretation der Entropie?