Die Entropie einer diskreten Wahrscheinlichkeitsverteilung: Definition und einfache Beispiele

Die Definition der Entropie eines Wahrscheinlichkeitsma├čes oder einer Zufallsvariable wird an einfachen Beispielen erl├Ąutert. Es wird diskutiert, dass die Entropie kein Streuungsma├č ist (wie die Standardabweichung), sondern die Ungewissheit (oder Unbestimmtheit) des Ausgangs eines Zufallsexperimentes beschreibt.
Noch keine Stimmen abgegeben
Noch keine Kommentare

Einordnung des Artikels

Einf├╝hrung

Der Begriff der Entropie ist f├╝r unterschiedliche Gebiete von zentraler Bedeutung, etwa in der Thermodynamik oder der Informationstheorie. Entsprechend schwer ist es dem Begriff einen eindeutigen Gehalt zuzuordnen und eventuelle Beikl├Ąnge zu vermeiden. Hier soll versucht werden, die Entropie eines Wahrscheinlichkeitsma├čes (oder der Wahrscheinlichkeitsverteilung einer Zufallsvariable) zu definieren und dabei Eigenschaften der Entropie aus anderen Gebieten auszublenden.

Die Begriffsbildungen der Wahrscheinlichkeitsrechnung lassen sich sehr treffend mit Gl├╝cksspielen erkl├Ąren; entsprechend wird die Definition der Entropie an sehr einfachen Beispielen wie M├╝nzwurf und W├╝rfeln erl├Ąutert und es wird diskutiert, welche Bedeutung die Entropie im Rahmen der Wahrscheinlichkeitsrechnung besitzt. Es wird sich zeigen, dass sie ein Ma├č f├╝r die Ungewissheit ├╝ber den Ausgang eines Zufallsexperimentes ist ÔÇô wobei diese Aussage nicht endg├╝ltig ist, sondern eine Reihe weiterer Fragen heraufbeschw├Ârt, die hier nicht diskutiert werden.

Um zur eigentlichen Definition der Entropie zu gelangen, sind einige Vorbereitungen n├Âtig:

  1. Es wird versucht, eine Vorstellung der Menge aller (diskreten) Wahrscheinlichkeitsma├če zu entwickeln.
  2. Ist die Anzahl der Elementarereignisse eines Ergebnisraumes gegeben, so bildet die Menge der Wahrscheinlichkeitsma├če eine konvexe Menge.
  3. Die Funktion f(x) = - x┬Ěln x, wobei ln f├╝r den nat├╝rlichen Logarithmus steht, wird sich als der entscheidende Bestandteil der Entropie herausstellen; viele Eigenschaften der Entropie k├Ânnen direkt aus den Eigenschaften von f(x) abgelesen werden.

Zur Vorbereitung: Die Menge der diskreten Wahrscheinlichkeitsverteilungen

Darstellung der diskreten Wahrscheinlichkeitsverteilungen als Simplex

Bei der Einf├╝hrung von Zufallsvariablen wurde diskutiert, dass Ereignisse eigentlich Mengen von Elementarereignissen sind, sie sich aber einfacher mit Hilfe von Zufallsvariablen beschreiben lassen. Damit entf├Ąllt der eher umst├Ąndliche Umgang mit Ergebnisalgebren und Wahrscheinlichkeitsrechnung findet immer auf der Ebene von Zufallsvariablen statt ÔÇô man muss lediglich die geeigneten Zufallsvariablen finden.

Weiter unten wird diskutiert, ob man die Entropie als Funktion einer Zufallsvariable oder einer Wahrscheinlichkeitsverteilung auffassen soll. Es sprechen mehrere Gr├╝nde f├╝r Letzteres und daher wird in diesem ersten Abschnitt gezeigt, wie man die Menge aller diskreten Wahrscheinlichkeitsverteilungen beschreiben kann.

Zur Erinnerung: In Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Axiome von Kolmogorov wurde definiert, dass ein Wahrscheinlichkeitsraum

(╬ę, A, P)

aus einer nicht-leeren Menge ╬ę, einer Ereignisalgebra A ├╝ber ╬ę und einem Wahrscheinlichkeitsma├č P auf A zusammengesetzt ist. Vorerst werden nur Wahrscheinlichkeitsr├Ąume mit endlichem oder abz├Ąhlbarem ╬ę betrachtet. Und daher kann man voraussetzen, dass jedem Elementarereignis ¤ëi Ôłł ╬ę eine Wahrscheinlichkeit zugeordnet ist; die zugeh├Ârige Ereignisalgebra ist dann die Potenzmenge von ╬ę, also die Menge aller Teilmengen von ╬ę. (Wie der Fall behandelt wird, in dem die Ereignisalgebra A eine Vergr├Âberung der Potenzmenge darstellt, wird unten an einem Beispiel zum W├╝rfeln gezeigt.)

Zum Verst├Ąndnis der Entropie wird es hilfreich sein zu fragen, welche Wahrscheinlichkeitsma├če es auf einer Menge ╬ę geben kann, wenn ╬ę genau n Elemente besitzt. Bezeichnet man die Elementarereignisse einer n-elementigen Menge ╬ę mit

(¤ë1, ¤ë2, ..., ¤ën),

so kann man jedes Wahrscheinlichkeitsma├č P durch die Angabe der Wahrscheinlichkeiten

(P(¤ë1), P(¤ë2), ..., P(¤ën)) = (p1, p2, ..., pn)

eindeutig charakterisieren.

1. Beispiel: M├╝nzwurf

Beim M├╝nzwurf gibt es zwei Elementarereignisse (Kopf und Zahl oder Treffer und Niete oder kurz 1 und 0); deren Wahrscheinlichkeiten werden wie ├╝blich mit p (f├╝r Treffer oder 1) und q = 1 - p (f├╝r Niete oder 0) bezeichnet. Da sich die Wahrscheinlichkeiten der Elementarereignisse zu 1 addieren m├╝ssen, gibt es zwar unendlich viele M├Âglichkeiten, wie man den Elementarereignissen Wahrscheinlichkeiten zuordnen kann, aber sie lassen sich durch einen Parameter beschreiben:

(p, 1 - p) mit 0 ÔëĄ p ÔëĄ 1.

Darstellen kann man die Menge der m├Âglichen Zahlenpaare (p, 1 - p) als Strecke im zweidimensionalen Raum zwischen den Punkten (1, 0) und (0, 1), siehe Abbildung 1 oben. Um die Verallgemeinerung auf n-elementige ╬ę zu erleichtern, werden dort anstelle von p und q die Bezeichnungen p1 und p2 verwendet.

Abbildung 1: Oben: Gibt es in der Ergebnismenge ╬ę zwei Elementarereignisse, so lassen sich die m├Âglichen Wahrscheinlichkeitsma├če als Strecke zwischen den Punkten (1, 0) und (0, 1) darstellen. Man kann die Wahrscheinlichkeitsma├če auch durch die Wahrscheinlichkeiten der beiden Elementarereignisse charakterisieren, die beide nicht negativ sein d├╝rfen und sich zu 1 addieren m├╝ssen. Unten: Gibt es drei Elementarereignisse, so lassen sich die m├Âglichen Wahrscheinlichkeitsma├če als Dreieck im dreidimensionalen Raum darstellen. Beschrieben wird diese Menge von Wahrscheinlichkeiten (p<sub>1</sub>, p<sub>2</sub>, p<sub>3</sub>) wieder durch die beiden Bedingungen Nicht-Negativit├Ąt und Addition zu 1.Abbildung 1: Oben: Gibt es in der Ergebnismenge ╬ę zwei Elementarereignisse, so lassen sich die m├Âglichen Wahrscheinlichkeitsma├če als Strecke zwischen den Punkten (1, 0) und (0, 1) darstellen. Man kann die Wahrscheinlichkeitsma├če auch durch die Wahrscheinlichkeiten der beiden Elementarereignisse charakterisieren, die beide nicht negativ sein d├╝rfen und sich zu 1 addieren m├╝ssen. Unten: Gibt es drei Elementarereignisse, so lassen sich die m├Âglichen Wahrscheinlichkeitsma├če als Dreieck im dreidimensionalen Raum darstellen. Beschrieben wird diese Menge von Wahrscheinlichkeiten (p1, p2, p3) wieder durch die beiden Bedingungen Nicht-Negativit├Ąt und Addition zu 1.

2. Beispiel: Eine Ergebnismenge mit drei Elementarereignissen

Gibt es drei Elementarereignisse, also

╬ę = {¤ë1, ¤ë2, ¤ë3},

so gibt es auch drei Zahlen

(p1, p2, p3)

f├╝r die Wahrscheinlichkeiten der Elementarereignisse. Diese drei Wahrscheinlichkeiten m├╝ssen jeweils gr├Â├čer oder gleich 0 sein und sich zu 1 addieren:

p1, p2, p3 Ôëą 0 und p1 + p2 + p3 = 1.

Man kann diese beiden Bedingungen leicht geometrisch interpretieren: die Menge der m├Âglichen Wahrscheinlichkeiten (p1, p2, p3) bildet ein gleichseitiges Dreieck, das zwischen den Punkten (1, 0, 0), (0, 1, 0) und (0, 0, 1) aufgespannt wird, siehe Abbildung 1 unten.

Ôőä Ôőä Ôőä

Die Strecke in Abbildung 1 oben wird als eindimensionaler Simplex, das gleichseitige Dreieck in Abbildung 1 unten als zweidimensionaler Simplex bezeichnet. Jeder Punkt der Strecke beziehungsweise des gleichseitigen Dreiecks steht somit f├╝r ein Wahrscheinlichkeitsma├č auf einem zwei- beziehungsweise dreielementigen ╬ę.

Allgemein liegen die Wahrscheinlichkeiten

(p1, p2, ..., pn) mit p1 + p2 + ... + pn = 1

auf einer (n-1)-dimensionalen Hyperebene zwischen den Punkten (1, 0, ..., 0), (0, 1, 0, ..., 0), ..., (0, ..., 0, 1) ÔÇô man bezeichnet die von ihnen gebildete Menge als n-dimensionalen Simplex.

Aufgabe: Welche Gestalt hat der dreidimensionale Simplex?

3. Beispiel: Spezielle Strategie beim W├╝rfeln

Beim W├╝rfeln gibt es 6 Elementarereignisse ╬ę = {1, 2, ..., 6}. Setzt jemand bei einem W├╝rfelspiel immer auf die geraden Zahlen G = {2, 4, 6} und gewinnt oder verliert (netto) bei jedem Spiel einen EUR, so ist f├╝r dieses Zufallsexperiment die Ereignisalgebra

A = {{}, G, U, ╬ę} mit U = {1, 3, 5}

relevant. Die Zufallsvariable X, die die Strategie treffend beschreibt, nimmt die zwei Werte +1 (f├╝r ¤ë gerade) und -1 (f├╝r ¤ë ungerade) an.

Hat in diesem Beispiel ╬ę sechs oder zwei Elemente?

Zweifellos besteht ╬ę aus 6 Elementarereignissen, aber die Zufallsvariable X, die den Nettogewinn bei der speziellen Strategie beschreibt, induziert eine Vergr├Âberung der Ereignisalgebra. Denn X muss als Abbildung von ╬ę auf einen neuen Ergebnisraum ╬ę' = {-1; 1} aufgefasst werden:

X ╬ę Ôćĺ ╬ę'.

Und dieser Ergebnisraum ╬ę' besteht nur aus den zwei Elementen +1 und -1; die Wahrscheinlichkeiten dieser Elementarereignisse k├Ânnen dann leicht aus den Wahrscheinlichkeiten der 6 Elementarereignisse von ╬ę berechnet werden.

In diesem Sinne war die Bemerkung oben zu verstehen, dass es reicht, immer die Potenzmenge von ╬ę als Ereignisalgebra anzusetzen. Sobald eine Vergr├Âberung auf eigentlich weniger Elementarereignisse f├╝hrt, wird das entsprechende kleinere ╬ę' betrachtet.

Konvexit├Ąt der Wahrscheinlichkeitsverteilungen

Eine f├╝r die Entropie wichtige Eigenschaft ist die Konvexit├Ąt (oder Konkavit├Ąt ÔÇô je nach Vorzeichenkonvention); der Begriff der Konvexit├Ąt kann f├╝r Mengen und Funktionen definiert werden und besagt salopp:

  • Eine Menge ist konvex, wenn sie keine Dellen besitzt. (Jedes Dreieck ist konvex, ein Viereck mit einem ├╝berstumpfen Winkel nicht.)
  • Eine Funktion ist konvex, wenn die Funktionswerte immer unterhalb einer Sekante liegen (wie bei der Normalparabel).

In Abbildung 2 wird die exakte Definition der Konvexit├Ąt einer Menge gezeigt. Relevant f├╝r die Definition der Entropie ist hier, dass die Menge der Wahrscheinlichkeitsma├če auf einer Ergebnismenge ╬ę mit n Elementen eine konvexe Menge ist.

Abbildung 2: Definition dr Konvexit├Ąt einer Menge und die Anwendung auf Wahrscheinlichkeitsma├če: Sind zwei Wahrscheinlichkeitsma├če auf einer Ergebnismenge ╬ę (mit n Elementen) gegeben, so ist auch ihre konvexe Kombination wieder ein Wahrscheinlichkeitsma├č auf ╬ę.Abbildung 2: Definition dr Konvexit├Ąt einer Menge und die Anwendung auf Wahrscheinlichkeitsma├če: Sind zwei Wahrscheinlichkeitsma├če auf einer Ergebnismenge ╬ę (mit n Elementen) gegeben, so ist auch ihre konvexe Kombination wieder ein Wahrscheinlichkeitsma├č auf ╬ę.

Das folgende Beispiel zeigt, dass die Bildung von ╬╗P + (1 - ╬╗)R zu zwei gegebenen Wahrscheinlichkeitsma├čen P und R eine Mittelung vollzieht.

Beispiel: M├╝nzwurf mit ╬ę = {0; 1}

Sind die Wahrscheinlichkeitsma├če P und R durch die extremen Wahrscheinlichkeiten f├╝r die Elementarereignisse (p1, p2) = (1, 0) beziehungsweise (0, 1) gegeben, so lauten diejenigen von ╬╗P + (1 - ╬╗)R:

(╬╗, 1 - ╬╗).

Speziell f├╝r ╬╗ = 1/2 erh├Ąlt man die Wahrscheinlichkeiten (1/2, 1/2). In diesem Sinne findet eine Mittelung statt, wobei je nach Gr├Â├če von ╬╗ die beiden Summanden unterschiedlich stark gewichtet werden; nur f├╝r ╬╗ = 1/2 werden sie gleich gewichtet.

Eigenschaften der Funktion x Ôćĺ -x┬Ěln x

Die Funktion

f(x) = -x┬Ěln x

wird sich als der entscheidende Baustein der Entropie-Funktion herausstellen, so dass ihre Eigenschaften hier ausdr├╝cklich gezeigt werden sollen. Sie sind in Abbildung 3 zusammengestellt.

Da die Logarithmus-Funktion nur f├╝r positive x definiert ist, ist auch die Funktion f(x) eigentlich nur f├╝r positive x-Werte definiert. Berechnet man den Grenzwert f├╝r x Ôćĺ 0 (von der positiven Seite), erh├Ąlt man 0. Man kann daher problemlos f(0) = 0 setzen. Dies ist hier besonders wichtig, da sp├Ąter anstelle der x-Werte die Wahrscheinlichkeiten der Elementarereignisse eingesetzt werden; ohne die Vereinbarung f(0) = 0 m├╝sste man Elementarereignisse mit Wahrscheinlichkeit 0 ausschlie├čen. Wie sich zeigen wird, kann man dies auch anders formulieren: Elementarereignisse mit Wahrscheinlichkeit 0 werden wegen f(0) = 0 keinen Beitrag zur Entropie liefern.

Die Ableitungen von f(x) k├Ânnen elementar berechnet werden; die zweite Ableitung ist im Inneren des Definitionsbereiches negativ, woraus folgt, dass f(x) eine konkave Funktion ist.

Die erste Ableitung wechselt ihr Vorzeichen bei x0 = exp(-1) und es ist auch f(x0) = exp(-1). Da f(x) konkav ist, muss bei x0 = exp(-1) ein Maximum liegen.

Einen Plot der Funktion f(x) (rot) zeigt Abbildung 4; F├╝r die x-Werte ist hier nur das Intervall von 0 bis 1 gezeichnet, da andere x-Werte f├╝r die Berechnung der Entropie einer diskreten Wahrscheinlichkeitsverteilung nicht relevant sind.

Abbildung 4: Plot der Funktion f(x) = -x ln x f├╝r x-Werte zwischen 0 und 1. Gr├╝n eingetragen sind die Koordinaten des Maximums x<sub>0</sub> = exp(-1) und f(x<sub>0</sub>) = exp(-1). Blau eingetragen ist die Tangente an f im Punkt (1, 0); ihre Geradengleichung lautet y = 1 - x.Abbildung 4: Plot der Funktion f(x) = -x ln x f├╝r x-Werte zwischen 0 und 1. Gr├╝n eingetragen sind die Koordinaten des Maximums x0 = exp(-1) und f(x0) = exp(-1). Blau eingetragen ist die Tangente an f im Punkt (1, 0); ihre Geradengleichung lautet y = 1 - x.

Zus├Ątzlich eingetragen ist die Gerade:

y = 1 - x,

die Tangente an den Graphen von f(x) f├╝r x = 1 (wie man leicht an der Ableitung f'(x) ablesen kann).

Die Definition der Entropie einer Wahrscheinlichkeitsverteilung

Mit all diesen Vorbereitungen kann endlich die Entropie definiert werden und zwar

  • entweder f├╝r ein Wahrscheinlichkeitsma├č P
  • oder f├╝r eine Zufallsvariable X.

Beide Definitionen sind in Abbildung 5 gezeigt.

Im ersten Fall geht man von einer Ergebnismenge ╬ę mit n Elementen aus, wobei die Wahrscheinlichkeiten pi der Elementarereignisse gegeben sind. Die Entropie berechnet sich dann nach Gleichung (1) aus den pi.

Im zweiten Fall geht man von den n unterschiedlichen Werten xi der Zufallsvariable X aus, die jeweils mit einer Wahrscheinlichkeit

pi = P(X = xi)

angenommen werden. Aus diesen Wahrscheinlichkeiten berechnet sich die Entropie nach Gleichung (2).

Abbildung 5: Definition der Entropie f├╝r ein Wahrscheinlichkeitsma├č beziehungsweise eine Zufallsvariable.Abbildung 5: Definition der Entropie f├╝r ein Wahrscheinlichkeitsma├č beziehungsweise eine Zufallsvariable.

Die Berechnung der Entropie erfolgt in beiden F├Ąllen dadurch, dass man jede der gegebenen Wahrscheinlichkeiten pi in die Funktion f(x) = - x┬Ěln x einsetzt und s├Ąmtliche Beitr├Ąge addiert. Damit sollte auch klar geworden sein, warum die Vereinbarung f(0) = 0 so wichtig ist: ohne sie w├Ąre die Entropie nicht definiert, wenn eine der Wahrscheinlichkeiten gleich null ist. Mit der Vereinbarung tragen Wahrscheinlichkeiten pi = 0 nichts zur Entropie bei, was aus Stetigkeitsgr├╝nden nur richtig ist.

Und man sollte jetzt die Frage stellen, welche der beiden Definitionen der Entropie (f├╝r ein Wahrscheinlichkeitsma├č oder f├╝r eine Zufallsvariable) angemessen ist. F├╝r die zweite Definition spricht, dass ein Wahrscheinlichkeitsma├č meistens durch eine Zufallsvariable induziert wird. Allerdings erkennt man an der Berechnung der Entropie, dass die Werte der Zufallsvariable nicht in die Berechnung eingehen. Das hei├čt alle Zufallsvariablen, die auf ╬ę' die Wahrscheinlichkeiten pi induzieren, besitzen identische Entropie. In diesem Sinn ist die Entropie eine Gr├Â├če, die einem Wahrscheinlichkeitsma├č zugeordnet werden sollte und nicht einer Zufallsvariable. Die zweite Definition kann daher den irref├╝hrenden Eindruck erwecken, dass die Entropie eine Kenngr├Â├če einer Zufallsvariable ist.

Beispiele f├╝r die Berechnung der Entropie

Der M├╝nzwurf

Als einfachstes Beispiel zur Berechnung der Entropie wird der einmalige M├╝nzwurf betrachtet, wobei nicht vorausgesetzt wird, dass es sich um ein Laplace-Experiment handelt. Die Treffer-Wahrscheinlichkeit wird mit p bezeichnet, die Wahrscheinlichkeit f├╝r eine Niete ist dann q = 1 - p. Das hei├čt es gibt zwei Elementarereignisse mit den Wahrscheinlichkeiten p und q, entsprechend berechnet sich die Entropie f├╝r dieses Wahrscheinlichkeitsma├č durch

H(P) = -p┬Ěln p - q┬Ěln q = -p┬Ěln p - (1 - p)┬Ěln (1 - p).

Die Entropie des Wahrscheinlichkeitsma├čes P kann somit als Funktion der Variable p aufgefasst werden, die Werte von 0 bis 1 annehmen kann. Die Eigenschaften der Funktion H(p) sind in Abbildung 6 zusammengestellt:

  • F├╝r p = 0 und p = 1 wird H(p) = 0.
  • Ersetzt man p durch 1 - p, so ├Ąndert sich der Funktionswert nicht; daher ist H(p) achsensymmetrisch zu p = 1/2.
  • Die Ableitung von H(p) ist gleich 0 f├╝r p = 1/2, also im Fall einer Laplace-M├╝nze.
  • Der Funktionswert im Maximum ist H(1/2) = ln 2 Ôëł 0.693.

Abbildung 6: Zusammenstellung der Eigenschaften der Entropie H(p) als Funktion der Trefferwahrscheinlichkeit p beim M├╝nzwurf..Abbildung 6: Zusammenstellung der Eigenschaften der Entropie H(p) als Funktion der Trefferwahrscheinlichkeit p beim M├╝nzwurf..

Abbildung 7 zeigt den Plot von H(p); deutlich zu erkennen ist die Symmetrie bez├╝glich p = 1/2 und dass der Maximalwert f├╝r p = 1/2 mit dem Funktionswert ln 2 Ôëł 0.693 angenommen wird.

Abbildung 7: Plot der Entropiefunktion H(p, q) p-Werte zwischen 0 und 1; der Wert von q ist jeweils durch q = 1 - p eindeutig festgelegt. Gr├╝n eingetragen ist das Maximum der Entropie bei p = 1/2; der Maximalwert betr├Ągt H(1/2) = ln 2 Ôëł 0.693.Abbildung 7: Plot der Entropiefunktion H(p, q) p-Werte zwischen 0 und 1; der Wert von q ist jeweils durch q = 1 - p eindeutig festgelegt. Gr├╝n eingetragen ist das Maximum der Entropie bei p = 1/2; der Maximalwert betr├Ągt H(1/2) = ln 2 Ôëł 0.693.

Abbildung 8 soll die Berechnung der Entropie verdeutlichen. Dazu werden 3 M├╝nzen mit unterschiedlichen Trefferwahrscheinlichkeiten betrachtet, n├Ąmlich p = 1/6, p = 1/3 und p = 1/2. Wie oben gesagt wurde, muss die Funktion f(x) = -x┬Ěln x mit den Wahrscheinlichkeiten der Elementarereignisse (hier f├╝r Treffer und Niete) ausgewertet werden; die Funktionswerte werden anschlie├čend addiert.

Dazu sind links oben in den Plot von f(x) die Funktionswerte f├╝r p = 1/6 und q = 5/6 eingetragen (orange). Im Plot der Entropie H(p) rechts unten erscheint dann die Summe dieser beiden Funktionswerte als Histogramm (ebenfalls orange). Entsprechend werden die Trefferwahrscheinlichkeiten p = 1/3 und p = 1/2 graphisch dargestellt (gr├╝n und blau). Zur besseren Nachvollziehbarkeit sind die y-Achsen aller Diagramme identisch skaliert.

Abbildung 8: F├╝r die drei Trefferwahrscheinlichkeiten p = 1/6, 1/3 und 1/2 werden f(p) und f(q) dargestellt (orange, gr├╝n und blau). Im Diagramm rechts unten werden dann die Entropiewerte zu den drei Trefferwahrscheinlichkeiten als Histogramm im Plot der Entropie H (rot) dargestellt.Abbildung 8: F├╝r die drei Trefferwahrscheinlichkeiten p = 1/6, 1/3 und 1/2 werden f(p) und f(q) dargestellt (orange, gr├╝n und blau). Im Diagramm rechts unten werden dann die Entropiewerte zu den drei Trefferwahrscheinlichkeiten als Histogramm im Plot der Entropie H (rot) dargestellt.

Man erkennt an Abbildung 8 deutlich:

  • Ist p in der N├Ąhe von 0 oder 1, so ist die Entropie sehr nahe bei 0.
  • Obwohl f(x) nicht das Maximum bei x = 1/2 hat (sondern bei exp(-1) Ôëł 0.368, wird der Maximalwert der Entropie H(p) f├╝r p = 1/2 angenommen.

Aufgabe:

Berechnen Sie die in Abbildung 8 dargestellten Funktionswerte von f(x) und die Entropiewerte explizit.

Die Entropie beim W├╝rfeln

Um weitere Eigenschaften der Entropie aufzuzeigen, wird als Zufallsexperiment das W├╝rfeln betrachtet; dabei geht man von einem Laplace-W├╝rfel aus und untersucht 3 Zufallsvariablen:

  1. Die Zufallsvariable S, die den Nettogewinn beschreibt, wenn bei jedem Spiel 1 EUR auf eine gerade Zahl gesetzt wird. Der Nettogewinn ist dann entweder +1 oder -1, das hei├čt es handelt sich um ein faires Spiel.
  2. Die Zufallsvariable F, die den Nettogewinn beschreibt, wenn bei jedem Spiel 1 EUR auf die 6 setzt. Der Nettogewinn ist entweder +5 oder -1 (es ist wieder ein faires Spiel).
  3. Die Zufallsvariable X, die die Augenzahl beim W├╝rfeln beschreibt: mit jeweils Wahrscheinlichkeit 1/6 erscheinen die Zahlen 1, ..., 6. Die Zufallsvariable X ist lediglich die Identit├Ąt, da X(¤ë) = ¤ë.

In Eigenschaften von Zufallsvariablen: Der Erwartungswert von diskreten und stetigen Zufallsvariablen und Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung wurden diese Zufallsvariablen vorgestellt und Erwartungswert, Varianz und Standardabweichung berechnet. Diese Berechnungen werden hier nicht wiederholt, jetzt soll deren Entropie berechnet werden ÔÇô die Ergebnisse werden den Zugang liefern, um die Bedeutung der Entropie besser zu verstehen.

Die Werte der Zufallsvariablen sind in folgender Tabelle gezeigt:

¤ë 1 2 3 4 5 6
S(¤ë) -1 +1 -1 +1 -1 +1
F(¤ë) -1 -1 -1 -1 -1 +5
X(¤ë) 1 2 3 4 5 6

1. Die Zufallsvariable S:

Da es sich um einen Laplace-W├╝rfel handelt, sind die Wahrscheinlichkeiten f├╝r eine Gewinn oder Verlust genau 1/2. Das hei├čt obwohl es 6 Elementarereignisse gibt, ist das Zufallsexperiment identisch mit dem Wurf einer fairen M├╝nze. Die Entropie berechnet sich wie oben:

H(S) = ln 2 Ôëł 0.693.

2. Die Zufallsvariable F:

Auch dieses Zufallsexperiment ist gleichwertig zum M├╝nzwurf ÔÇô jetzt aber mit Trefferwahrscheinlichkeit p = 1/6. Wie man leicht nachrechnet, ist die Entropie (graphische Darstellung siehe Abbildung 8 links oben):

H(F) = (-1/6)┬Ěln (1/6) - (5/6)┬Ěln (5/6) = ln 6 - (5/6)┬Ěln 5 Ôëł 0.451

3. Die Zufallsvariable X:

Erst f├╝r die Zufallsvariable X muss man ber├╝cksichtigen, dass ╬ę sechs Elemente hat; aber da es sich um einen Laplace-W├╝rfel handelt, sind die Beitr├Ąge zur Entropie durch alle 6 Summanden identisch:

H(X) = 6┬Ě(-1/6)┬Ěln (1/6) = ln 6 Ôëł 1.792.

Die Gleichverteilung

Das letzte Beispiel (Entropie der Augenzahl beim W├╝rfeln) l├Ąsst sich leicht verallgemeinern: Besitzt ╬ę genau n Elemente und wird jedes Elementarereignis mit der Wahrscheinlichkeit 1/n angenommen, so berechnet sich die Entropie dieser Gleichverteilung P durch:

H(P) = n┬Ě(-1/n)┬Ěln (1/n) = ln n.

Man erkennt, dass die Entropie bei Gleichverteilungen (auf Ergebnismengen unterschiedlicher Anzahl n) monoton mit n anw├Ąchst.

Die Bedeutung der Entropie

Im Folgenden wird gezeigt, dass die Entropie nicht die Eigenschaften hat, die man von einem Streuungsma├č erwartet. Stattdessen sollte man die Entropie als ein Ma├č f├╝r die Ungewissheit ├╝ber den Ausgang eines Zufallsexperimentes oder die Unbestimmtheit des Zufallsexperimentes interpretieren.

Dazu werden die drei Zufallsvariablen S, F und X herangezogen, die oben beim "W├╝rfeln" besprochen wurden. Ihre Werte sind in der Tabelle oben und nochmals in der Tabelle in Abbildung 9 gezeigt; in Abbildung 9 rechts werden auch die relevanten Gr├Â├čen berechnet, auf die sich die folgende Argumentation st├╝tzt:

  • Erwartungswert,
  • Varianz,
  • Standardabweichung,
  • Entropie.

Abbildung 9: Die Tabelle zeigt die Werte der drei Zufallsvariablen S, F und X sowie ihre Auswertung (Erwartungswert, Varianz, Standardabweichung und Entropie).Abbildung 9: Die Tabelle zeigt die Werte der drei Zufallsvariablen S, F und X sowie ihre Auswertung (Erwartungswert, Varianz, Standardabweichung und Entropie).

Fragt man nach der Bedeutung der Entropie, ist es ÔÇô bei Zufallsexperimenten ÔÇô naheliegend zu formulieren, welche Aussagen die genannten Gr├Â├čen ├╝ber ein Gl├╝cksspiel machen. Die beiden Zufallsvariablen S und F beschreiben den Nettogewinn beim W├╝rfeln, wenn man eine bestimmte Strategie verfolgt (Setzen auf gerade Zahlen beziehungsweise auf die 6). Die Zufallsvariable X beschreibt lediglich die Augenzahl beim W├╝rfeln.

F├╝r Erwartungswert und Standardabweichung ist die Bedeutung beim Gl├╝cksspiel einfach anzugeben:

  1. Der Erwartungswert sagt aus, ob man mit der gew├Ąhlten Strategie auf lange Sicht einen Gewinn oder Verlust macht. Hier wird ein Laplace-W├╝rfel verwendet, so dass es sich f├╝r beide Strategien um ein faires Spiel handelt. Die Zuf├Ąlligkeit des Spiels zeigt sich darin, dass sich der Ausgang des n├Ąchsten Spiels nicht voraussehen l├Ąsst; der Erwartungswert gibt an, ob die Strategie Erfolg verspricht oder nicht.
  2. Die Standardabweichung beschreibt so etwas wie den "Nervenkitzel", den die Strategie beschert, indem sie angibt, welcher Betrag pro Spiel im Durchschnitt umgesetzt wird. Besitzt eine Strategie eine hohe Standardabweichung, so kann man bei einem Spiel viel verlieren oder gewinnen. Da hier der Einsatz stets 1 EUR betr├Ągt, ist nur Letzteres der Fall. Bei einer niedrigen Standardabweichung geht man auch nur ein geringes Risiko ein und kann pro Spiel keinen gro├čen Gewinn erwarten.

Kann man die Entropie ├Ąhnlich interpretieren? Welche Eigenschaft einer Strategie wird mit der Entropie quantifiziert?

Die Entropie ist kein Streuungsma├č

Vergleicht man die beiden Zufallsvariablen S und X, so ist folgender Trug-Schluss naheliegend: Die Werte von X streuen in einem gr├Â├čeren Bereich als die von S, daher ist die Standardabweichung von X gr├Â├čer als die von S. Zugleich hat X eine gr├Â├čere Entropie als S. Daraus folgt, dass die Entropie ein Ma├č f├╝r die Streuung der Werte einer Zufallsvariable ist.

Indem man die Zufallsvariablen S und F vergleicht, kann man schnell feststellen, dass diese Argumentation nicht zwingend ist: Denn F hat eine gr├Â├čere Standardabweichung als S (die Strategie F hat einen h├Âheren "Nervenkitzel"), aber S hat die gr├Â├čere Entropie.

Ein weiteres Argument gegen die Interpretation der Entropie als Streuungsma├č ist Folgendes: Geht man von der Zufallsvariable S zu 2┬ĚS ├╝ber, so verdoppelt sich auch die Standardabweichung. Dies l├Ąsst sich im Sinne einer Strategie beim Gl├╝cksspiel leicht erkl├Ąren: Die Zufallsvariable 2┬ĚS beschreibt die Ergebnisse des Gl├╝cksspiels, wenn pro Spiel der doppelte Einsatz gezahlt wird. Dann verdoppelt sich der pro Spiel umgesetzte Betrag und es ist klar, dass die Standardabweichung dabei ebenso verdoppelt wird. Berechnet man aber die Entropie f├╝r die Zufallsvariable 2┬ĚS, so gehen nur die Wahrscheinlichkeiten ein, mit denen die Werte der Zufallsvariable angenommen werden, aber nicht die Werte selbst. Das hei├čt beim ├ťbergang von S zu 2┬ĚS werden alle von S angenommenen Werte verdoppelt, die Wahrscheinlichkeiten bleiben unver├Ąndert. Und daher verdoppelt sich auch die Standardabweichung und die Entropie bleibt unver├Ąndert.

Diese beiden Argumente zeigen, dass die Entropie im Allgemeinen nicht als Streuungsma├č interpretiert werden kann ÔÇô wenn es auch einige Situationen gibt, in denen dies richtig zu sein scheint.

Die Entropie als Ma├č der Ungewissheit ├╝ber den Ausgang eines Zufallsexperimentes

Einen besseren Zugang zur Bedeutung der Entropie erh├Ąlt man durch den Vergleich der Zufallsvariablen S und F: Die Zufallsvariable F beschreibt eine Strategie mit h├Âherem Risiko, besitzt aber die kleinere Entropie. Wie kann man diesen scheinbaren Widerspruch erkl├Ąren?

Hilfreich sind dazu auch die Diagramme in Abbildung 8. Denn wie schon gesagt, sind die Zufallsvariablen S und F gleichwertig zur Beschreibung eines M├╝nzwurfes, wobei die M├╝nzen unterschiedliche Trefferwahrscheinlichkeiten besitzen. Und man erkennt: Je n├Ąher die Trefferwahrscheinlichkeit bei 0 oder bei 1 ist (man kann ja die Treffer- und Nietenwahrscheinlichkeit beliebig vertauschen), um so kleiner ist die Entropie.

Auf das Gl├╝cksspiel bezogen bedeutet dies: Bei der Strategie F kann man mit hoher Wahrscheinlichkeit den Ausgang des n├Ąchsten Spiels voraussagen ÔÇô man wird meistens verlieren. Dagegen ist bei S jedes n├Ąchste Spiel "maximal" unbestimmt, da die Gewinn- und Verlustwahrscheinlichkeit jeweils 1/2 sind. Die Diagramme in Abbildung 8 best├Ątigen dies: Die Entropie wird dann am Kleinsten, wenn die Gewinnwahrscheinlichkeit gegen 0 oder 1 geht und maximal, wenn Gewinn- und Verlustwahrscheinlichkeit identisch sind.

Man sollte daher der Entropie folgende Bedeutung beimessen: sie beschreibt, wie sehr der Ausgang eines Zufallsexperimentes unbestimmt (oder ungewiss) ist. Also je unbestimmter der Ausgang, um so gr├Â├čer ist die Entropie. Ist das Ergebnis der Zufallsexperimentes vorhersehbar oder nahezu vorhersehbar, ist die Entropie gleich 0 oder sehr klein.

Diese Interpretation wird auch durch den Vergleich der Zufallsvariablen S und X best├Ątigt: Bei S gibt es nur zwei M├Âglichkeiten, die mit jeweils gleicher Wahrscheinlichkeit eintreten k├Ânnen, bei X sind es 6 M├Âglichkeiten; entsprechend besitzt X die gr├Â├čere Entropie.

Aufgabe: In Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung wurde folgende Lotterie betrachtet:

Der Einsatz betr├Ągt 1 EUR. Es gibt einen Gewinn von 1 000 000 EUR, den man mit einer Wahrscheinlichkeit von 1 / 14 000 000 erzielen kann.

Berechnen Sie f├╝r diese Lotterie Erwartungswert, Standardabweichung und Entropie.

Diskutieren Sie, ob dieses Beispiel die Interpretation der Entropie als Ma├č der Ungewissheit unterst├╝tzt.

Ist die Entropiefunktion eindeutig?

Die Antwort auf die Frage nach der Bedeutung der Entropie als ein Ma├č der Ungewissheit ├╝ber den Ausgang eines Zufallsexperimentes kann nur vorl├Ąufig und nicht ersch├Âpfend sein, denn es dr├Ąngen sich weitere Fragen auf:

  1. Die Funktionen H(P) f├╝r ein Wahrscheinlichkeitsma├č P oder H(X) f├╝r eine Zufallsvariable X sind sicher nicht die einzigen Funktionen, die eine derartige Interpretation zulassen. Gibt es weitere Funktionen?
  2. Falls es mehrere derartige Funktionen gibt: welche Eigenschaften dieser Funktionen erm├Âglichen die Interpretation als Ma├č der Ungewissheit?
  3. Bisher wurde nur qualitativ argumentiert: Die Gr├Â├čen Erwartungswert und Standardabweichung haben eine quantitative Bedeutung als durchschnittlicher Gewinn pro Spiel beziehungsweise durchschnittlich umgesetzter Betrag pro Spiel. Kann man auch die Entropie quantitativ interpretieren? Welche Bedeutung hat zum Beispiel eine Verdopplung der Entropie? Oder der absolute Wert H(P) = ln 2 f├╝r den Wurf einer Laplace-M├╝nze?
  4. Insbesondere war die Entropie der Gleichverteilung leicht zu berechnen: sie betr├Ągt ln n, wenn die Ergebnismenge ╬ę genau n Elemente besitzt. Welche Bedeutung hat das logarithmische Anwachsen der Entropie mit n? Und ist der nat├╝rliche Logarithmus besonders ausgezeichnet?
  5. Und wenn der absolute Wert der Entropie eine Bedeutung hat, muss man wieder zur zweiten Frage zur├╝ckkehren: welche Eigenschaft von H(P) erlaubt die angemessene inhaltliche und quantitative Interpretation der Entropie?