Die relative Entropie: Motivation, Definition und einfache Beispiele

Es werden zwei Zugänge gezeigt, wie man die relative Entropie motivieren kann: Entweder als Verallgemeinerung der gegenseitigen Information oder indem man die Überlegungen Boltzmanns zur Definition der Entropie in dem Sinn verallgemeinert, dass man die Voraussetzung der Gleichwahrscheinlichkeit der Mikrozustände aufgibt. Die Bedeutung der relativen Entropie als einer Größe, die quantifiziert, wie unterschiedlich zwei Wahrscheinlichkeitsverteilungen sind, wird durch den zweiten Zugang besser verständlich.

Inhaltsverzeichnis

Einordnung des Artikels

Die Überlegungen aus Die Motivation der Entropiefunktion durch die Boltzmann-Entropie zur Motivation der Entropiefunktion werden hier vorausgesetzt und verwendet, ebenso die Kenntnis der gegenseitigen Information, die in Die gegenseitige Information besprochen wird.

Einführung

In Die Motivation der Entropiefunktion durch die Boltzmann-Entropie wurde gezeigt, wie man mit Hilfe der Boltzmann-Entropie die Entropiefunktion H(X) motivieren kann. Dazu wurden die Begriffe Mikrozustand und Makrozustand eingeführt und nach einer Größe gesucht, welche die Anzahl der Mikrozustände zu einem gegebenen Makrozustand quantifiziert.

Veranschaulicht wurde dies am Beispiel der Binomialverteilung, die etwa beim unabhängigen und fairen N-fachen Münzwurf entsteht, wobei jeder Münzwurf das Ergebnis 1 oder 0 (Treffer oder Niete) liefert. Ein Mikrozustand ist dann eine 01-Folge der Länge N. Die Anzahl k der Treffer definiert den Makrozustand. Als Boltzmann-Entropie SB(k) eines Makrozustandes definiert man dann den natürlichen Logarithmus der Anzahl der zugehörigen Mikrozustände. In Stirling-Näherung entsteht eine Funktion, die von der Länge N der 01-Folgen und den relativen Häufigkeiten k/N und (N-k)/N, mit denen Treffer und Nieten im Makrozustand vorkommen, abhängt.

Den Anteil der Boltzmann-Entropie, der nur von den relativen Häufigkeiten (und nicht explizit von N) abhängt, kann man jetzt als eine Größe interpretieren, die bei gegebenem Makrozustand die Ungewissheit über den eigentlich vorliegenden Mikrozustand beschreibt. Und verallgemeinert wird diese Größe, indem man von den relativen Häufigkeiten zu Wahrscheinlichkeiten übergeht: Jetzt hat man eine Größe gefunden, welche die Unsicherheit über den Ausgang eines Zufallsexperimentes beschreibt, nämlich die Entropiefunktion H(X):

H(X) = -∑ p(x) ln p(x),

wobei die p(x) die Wahrscheinlichkeiten sind, mit denen die Zufallsvariable X ihre Werte annimmt:

p(x) = P(X = x).

Diese Überlegungen sollen jetzt nochmals durchgeführt werden in der Situation, in der die Mikrozustände nicht mehr gleichwahrscheinlich sind. Das einfachste Beispiel hierfür ist der N-fache Münzwurf mit einer Trefferwahrscheinlichkeit p, die nicht gleich 1/2 ist. Im Sinne Boltzmanns definiert man dann eine Größe, welche die Unsicherheit über den Mikrozustand bei gegebenem Makrozustand k beschreibt. Man kann diese Größe auch interpretieren als einen Vergleich zwischen der Bernoulli-Verteilung mit Parameter p (der Trefferwahrscheinlichkeit beim Münzwurf) und der empirisch gewonnenen Verteilung (Bernoulli-Verteilung mit Parameter k/N) beim N-fachen Münzwurf.

Geht man jetzt von der empirisch gewonnenen Verteilung zu einer beliebigen Verteilung über, so definiert dies die (negative) relative Entropie, die man als einen "Abstand" zweier Wahrscheinlichkeitsverteilungen interpretieren kann.

Bevor die Überlegungen im Sinne Boltzmanns angestellt werden, wird ein anderer Zugang zur relativen Entropie gezeigt: Man kann sie auch als Verallgemeinerung der gegenseitigen Information auffassen.

Die relative Entropie als Verallgemeinerung der gegenseitigen Information

In Die gegenseitige Information wurde die gegenseitige Information I(X; Y) zweier Zufallsvariablen X und Y eingeführt. Abbildung 1 zeigt dazu die Definition, die man auf zwei Arten ausdrücken kann:

  1. Entweder mit Hilfe der Entropie und der bedingten Entropie (siehe Gleichung (1)), wobei man aufgrund der Symmetrie I(X; Y) = I(Y; X) die Zufallsvariablen X und Y auch vertauschen kann.
  2. Oder mit den gemeinsamen Wahrscheinlichkeiten p(x, y) und den Wahrscheinlichkeiten der Marginalverteilungen p(x), p(y) nach Gleichung (2).

Abbildung 1: Definition der gegenseitigen Information und der relativen Entropie.Abbildung 1: Definition der gegenseitigen Information und der relativen Entropie.

Bei der gegenseitigen Information wurde diskutiert, welche Bedeutung man ihr geben kann: Sie beschreibt die Information, die in einer Zufallsvariable X über eine andere Zufallsvariable Y enthalten ist. Daher wird die gegenseitige Information gleich null, wenn X und Y unabhängig voneinander sind. Denn jetzt gilt

p(x, y) = p(x)·p(y) für alle x, y

und somit sind alle Brüche gleich 1 und alle Logarithmen gleich null.

Gleichung (2) in Abbildung 1 gibt jetzt Anlass zu einer Verallgemeinerung der gegenseitigen Information. Dazu muss man Gleichung (2) ein wenig anders lesen:

Diese Größe wird üblicherweise durch D(X||Y) oder D(p(x)||q(x)) symbolisiert und als die relative Entropie von X bezüglich Y bezeichnet.

Der Nachteil dieser Verallgemeinerung der gegenseitigen Information zur relativen Entropie liegt jetzt darin, dass es schwer ist, aus der Definition die Bedeutung der relativen Entropie abzulesen. Aber man erkennt an Gleichung (3) sofort, dass D nicht symmetrisch in X und Y ist. Diese Asymmetrie – und andeutungsweise die Bedeutung der relativen Entropie – wird besser verständlich, wenn der Zusammenhang mit der Boltzmann-Entropie hergestellt wird.

Beispiel:

Gegeben sind zwei Münzen, wobei die erste Münze (Zufallsvariable X) eine faire Münze sein soll, die Trefferwahrscheinlichkeit der zweiten Münze sei p, 0 ≤ p ≤ 1 (siehe Abbildung 2 oben).

Berechnet und geplottet werden sollen:

  1. Die Entropien der Zufallsvariablen X und Y, siehe Gleichung (1) und (2) in Abbildung 2.
  2. Die relativen Entropien D(X || Y) und D(Y || X), siehe Gleichung (3) und (5) in Abbildung 2.
  3. Die Grenzwerte der relativen Entropien für p → 0 und p → 1, siehe Gleichung (4) und (6).
  4. Die Entropie H(Y) als Funktion von p.
  5. Die relativen Entropie D(X || Y) und D(Y || X) als Funktion von p.

Die Berechnungen sind in Abbildung 2 gezeigt; die Graphen der gesuchten Funktionen in Abbildung 3.

Abbildung 2: Berechnung der Entropien und der relativen Entropie für eine faire und eine gezinkte Münze.Abbildung 2: Berechnung der Entropien und der relativen Entropie für eine faire und eine gezinkte Münze.

Die Berechnung der Entropien liefert immer zwei Summanden, wobei der erste Summand vom Treffer herrührt und der zweite Summand von der Niete. Durch die Anwendung der Rechenregeln für den Logarithmus gibt es zahlreiche Möglichkeiten, wie man die Ergebnisse darstellt.

Die Graphen in Abbildung 3 zeigen:

  1. Die Konstante H(X) = ln 2 (blau und gepunktet).
  2. Die Entropie H(Y) (türkisfarben).
  3. Die relative Entropie D(X || Y) (rot).
  4. Die relative Entropie D(Y || X) (grün).

Abbildung 3: Die Graphen zeigen folgende Größen in Abhängigkeit von der Trefferwahrscheinlichkeit p. Rot: Die relative Entropie D(X || Y). Grün: Die relative Entropie D(Y || X). Türkisfarben: Die Entropie H(Y) der gezinkten Münze in Abhängigkeit von p. Blau: die von p unabhängige Entropie H(X) der gezinkten Münze.Abbildung 3: Die Graphen zeigen folgende Größen in Abhängigkeit von der Trefferwahrscheinlichkeit p. Rot: Die relative Entropie D(X || Y). Grün: Die relative Entropie D(Y || X). Türkisfarben: Die Entropie H(Y) der gezinkten Münze in Abhängigkeit von p. Blau: die von p unabhängige Entropie H(X) der gezinkten Münze.

Folgerungen aus dem Beispiel:

Man kann aus dem Beispiel bereits einige Eigenschaften der relativen Entropie ablesen:

  1. Besitzen die Zufallsvariablen X und Y die gleiche Verteilung, so sind die beiden relativen Entropien D(X || Y) und D(Y || X) gleich null.
  2. Die relative Entropie ist nicht symmetrisch in X und Y.

Auch einige Vermutungen lassen sich bereits formulieren, die man tatsächlich beweisen kann, was aber hier noch nicht geschehen soll:

  1. Die relativen Entropien D(X || Y) und D(Y || X) sind genau dann gleich null, wenn X und Y die gleiche Verteilung besitzen.
  2. Die relative Entropie kann nicht negativ werden.

Das Beispiel zeigt zudem, dass es schwer ist anzugeben, in welchem Sinne die relative Entropie eine Verallgemeinerung der gegenseitigen Information ist. Ebenso ist es schwer zu sagen, ob ein einfacher Zusammenhang zur bedingten Entropie besteht. Denn in dem Beispiel wurde keine Annahme gemacht, ob die Zufallsvariablen X und Y unabhängig voneinander sind. Um eine gegenseitige Information oder eine bedingte Entropie zu berechnen, benötigt man die gemeinsamen Wahrscheinlichkeiten P(X = x, Y = y), die hier aber nicht bekannt sind. Und nimmt man an, dass X und Y unabhängig voneinander sind, so sind die Aussagen über die bedingte Entropie und die gegenseitige Information trivial: Die Unabhängigkeit führt dazu, dass die eine Zufallsvariable keine Information über die andere Zufallsvariable enthält.

Um eine bessere Motivation für die Definition der relativen Entropie zu geben, wird daher die Vorgehensweise von Boltzmann nachgeahmt, die einen physikalisch motivierten Zugang zur Entropie beinhaltet.

Die Verallgemeinerung der Boltzmann-Entropie

In Die Motivation der Entropiefunktion durch die Boltzmann-Entropie wurde gezeigt, wie die Einführung von Mikrozuständen und Makrozuständen sowie der Boltzmann-Entropie eine neue Sichtweise auf Wahrscheinlichkeitsverteilungen ermöglicht. Die Boltzmann-Entropie SB quantifiziert dann die Ungewissheit über den eigentlich vorliegenden Mikrozustand, wenn der Makrozustand bekannt ist. Sie wird verwendet, um die Einführung der Entropiefunktion H(X) zu motivieren, die dann aber in der Wahrscheinlichkeitstheorie eine allgemeinere Bedeutung erhält als in den Überlegungen Boltzmanns.

Bei Boltzmann wird die Situation betrachtet, in der alle möglichen Mikrozustände die gleiche Wahrscheinlichkeiten besitzen. Das einfachste Beispiel dafür ist der N-fache Wurf einer fairen Münze. Jedes Ergebnis dieses Zufallsexperimentes kann als 01-Folge der Länge N geschrieben werden und besitzt die Wahrscheinlichkeit 1/2N.

Es ist jetzt naheliegend dieses Beispiel zu verallgemeinern: Es wird eine Münze betrachtet, die eine Trefferwahrscheinlichkeit p besitzt, die auch verschieden von 1/2 sein kann. Für diesen allgemeineren Fall sollen nun die Überlegungen Boltzmanns wiederholt werden und die entscheidenden Fragen lauten:

  1. Wie wir man jetzt die Boltzmann-Entropie SB definieren?
  2. Kann man wiederum eine Entropiefunktion für diese Situation definieren.

Es wird sich zeigen, dass diese Entropiefunktion bis auf das Vorzeichen mit der oben definierten relativen Entropie übereinstimmt.

Mikrozustände mit unterschiedlichen Wahrscheinlichkeiten

Um die soeben beschriebene Verallgemeinerung zu veranschaulichen, wird wie in Die Motivation der Entropiefunktion durch die Boltzmann-Entropie die Binomialverteilung betrachtet – jetzt aber mit einer Trefferwahrscheinlichkeit p, die ungleich 1/2 ist. Abbildung 4 zeigt dazu:

  1. Den Term der Binomialverteilung B(N, p, k) in Gleichung (1). Wiederum wird die Anzahl der Treffer k als Makrozustand bezeichnet.
  2. Dieser Term ist ein Produkt aus zwei Faktoren, siehe Gleichung (2):

(Da die Länge N der 01-Folgen immer festgehalten wird, muss sie in den Funktionen nicht ausdrücklich als Argument angegeben werden.)

Abbildung 4: Die Binomialverteilung kann als Produkt der Anzahl der Möglichkeiten, bei N Zügen genau k Treffer zu erzielen, und eines statistischen Gewichts G(N, k) geschrieben werden.Abbildung 4: Die Binomialverteilung kann als Produkt der Anzahl der Möglichkeiten, bei N Zügen genau k Treffer zu erzielen, und eines statistischen Gewichts G(N, k) geschrieben werden.

Abbildung 5 veranschaulicht für N = 100 und N = 1000 die in Abbildung 4 definierten Größen; als Trefferwahrscheinlichkeit p wurde p = 1/6 gewählt:

  1. Links ist jeweils die Binomialverteilung als Histogramm dargestellt. Da jetzt die Trefferwahrscheinlichkeit nicht mehr gleich 1/2 ist, besitzt die Binomialverteilung ihr Maximum bei etwa p·N.
  2. In der Mitte sind die Binomialkoeffizienten dargestellt, sie sind von p unabhängig und besitzen ihr Maximum bei k = N/2.
  3. Rechts wird das statistische Gewicht G(k) nach Gleichung (4) in Abbildung 4 dargestellt – allerdings in logarithmischer Darstellung. Da p < 1/2 ist, ist G(k) maximal, wenn möglichst viele Nieten auftreten, also für diejenige 01-Folge, die nur aus Nullen besteht: k = 0. Mit zunehmendem k geht dann G(k) exponentiell gegen Null, was bei großen N dazu führt, dass nur die Balken für sehr kleine k sichtbar sind. In Abbildung 5 wird daher der Logarithmus des statistischen Gewichts aufgetragen. In Abbildung 4, Gleichung (6) wird dieser Term berechnet: man erhält eine Gerade mit Steigung ln p/q. Und für p < 1/2 ist das Argument des Logarithmus kleiner als 1 und somit die Steigung negativ. Für p = 1/2 ist die Steigung gleich null und für p > 1/2 ist sie positiv.

Abbildung 5: Plot der Binomialverteilung, der Binomialkoeffizienten und des logarithmierten statistischen Gewichts G(N, k), oben für N = 100, unten für N = 1000. Als Trefferwahrscheinlichkeit wird jeweils p = 1/6 gewählt.Abbildung 5: Plot der Binomialverteilung, der Binomialkoeffizienten und des logarithmierten statistischen Gewichts G(N, k), oben für N = 100, unten für N = 1000. Als Trefferwahrscheinlichkeit wird jeweils p = 1/6 gewählt.

An den Darstellungen kann man jetzt sehr gut nachvollziehen, dass die Binomialverteilung ihr Maximum an einer anderen Stelle k besitzt als die Binomialkoeffizienten. Denn die Binomialkoeffizienten sind von der Trefferwahrscheinlichkeit p unabhängig und besitzen ihr Maximum bei k = N/2 (für N gerade) beziehungsweise bei k = (N ± 1)/2 (für N ungerade). Im Term der Binomialverteilung B(N, p, k) wird der Binomialkoeffizient mit dem statistischen Gewicht multipliziert. Jetzt sind drei Fälle zu unterscheiden:

  1. Ist p < 1/2, so nimmt das statistische Gewicht ab, wenn k zunimmt (dieser Fall ist in Abbildung 5 rechts dargestellt). Der k-Wert des Maximums der Binomialverteilung muss somit gegenüber k = N/2 nach links verschoben werden.
  2. Im Fall p > 1/2 nimmt das statistische Gewicht mit k zu: jetzt wird der k-Wert des Maximum nach rechts verschoben.
  3. Nur im Fall p = 1/2 ist das statistische Gewicht eine von k unabhängige Konstante und das Maximum der Binomialkoeffizienten und der Binomialverteilung liegen bei k = N/2.

Die Definition der Boltzmann-Entropie

Definiert man einen Mikrozustand als eine 01-Folge der Länge N und einen Makrozustand k als alle diejenigen Mikrozustände, deren Anzahl an Treffern genau k beträgt, so gilt bei der Binomialverteilung:

Im Fall p = 1/2 sind alle Mikrozustände gleichwahrscheinlich.

Man kann dies auch mit dem statistischen Gewicht G(k) ausdrücken, das oben definiert wurde: Für p = 1/2 ist

G(k) = 1/2N.

Die Boltzmann-Entropie SB wurde für p = 1/2 durch (siehe auch Abbildung 6, Gleichung (1))

SB(k) = ln Ω(k)

definiert. Wenn der konstante Faktor G(k) im Argument des Logarithmus multipliziert wird, so wird die Entropie lediglich um eine Konstante verschoben, denn (siehe auch Abbildung 6, Gleichung (2), (3)):

ln (Ω(k)·G(k)) = ln Ω(k) + ln G(k) = ln Ω(k) - N ln 2.

In der Physik ist der Nullpunkt der Entropie irrelevant, da in der Thermodynamik stets die Entropieänderung bei einem Prozess betrachtet wird. Die naheliegende Verallgemeinerung der Boltzmann-Entropie, die berücksichtigen soll, dass die Mikrozustände unterschiedliche Wahrscheinlichkeiten besitzen, ist es somit nicht Ω(k) zu logarithmieren, sondern das Produkt Ω(k)·G(k). Als Boltzmann-Entropie erhält man dann:

SB(k) = ln (Ω(k)·G(k)) = ln Ω(k) + ln G(k),

wobei für G(k) jetzt das statistische Gewicht nach Gleichung (4) in Abbildung 4 eingesetzt werden muss.

Abbildung 6 zeigt diese neue Definition der Boltzmann-Entropie. Für den Logarithmus des Binomialkoeffizienten wird wieder die Stirling-Näherung verwendet. Aufgrund der Rechenregeln für den Logarithmus ergeben sich verschiedene Darstellungen der Boltzmann-Entropie, siehe Gleichung (5) bis (8).

Abbildung 6: Verallgemeinerung der Boltzmann-Entropie für Mikrozustände, die nicht mehr gleichwahrscheinlich sind.Abbildung 6: Verallgemeinerung der Boltzmann-Entropie für Mikrozustände, die nicht mehr gleichwahrscheinlich sind.

Die Bedeutung der Boltzmann-Entropie

In Die Motivation der Entropiefunktion durch die Boltzmann-Entropie wurde für den Fall gleichwahrscheinlicher Mikrozustände gezeigt, wie man einen Zusammenhang zwischen der Boltzmann-Entropie SB und der Entropiefunktion H(X) herstellen kann. Die entsprechenden Überlegungen können jetzt mit der Boltzmann-Entropie nach Gleichung (5), (6) beziehungsweise (8) in Abbildung 6 angestellt werden.

Dazu muss man sich nochmals die Bedeutung der Variablen sowie der einzelnen Terme vergegenwärtigen. Man stelle sich dazu eine Realisierung des N-fachen Münzwurfs vor, also eine 01-Folge, die k Treffer und N-k Nieten enthält:

Die intensiven Größen, die zusammen SB/N ergeben, sollen nun näher betrachtet werden, denn wie in Die Motivation der Entropiefunktion durch die Boltzmann-Entropie soll in einem für die Mathematik typischen Prozess der Abstraktion damit eine neue Größe motiviert werden; man betrachtet dazu die Darstellungen nach Gleichung (5) oder (6):

  1. Der erste intensive Größe ist die Entropiefunktion H, in die die relativen Häufigkeiten k/N und (N-k)/N eingesetzt werden. Die Entropiefunktion H nimmt dann ihre größten Werte an, wenn k/N und (N-k)/N in der Nähe von 1/2 sind. Die theoretische Trefferwahrscheinlichkeit p geht nicht in H ein.
  2. Die zweite intensive Größe stammt vom statistischen Gewicht G(k). Als Funktion von k handelt es sich um eine lineare Funktion. Wie oben bei der Binomialverteilung diskutiert wurde, hängt das Vorzeichen der Steigung davon ab, ob p > 1/2 oder p < 1/2. Der qualitative Verlauf dieser Gerade stimmt daher mit Abbildung 5 rechts überein.
  3. Addiert man jetzt diese beiden intensiven Größen zu SB/N, so geschieht eigentlich nichts anderes als in Abbildung 5 mitte dargestellt wurde: es entsteht eine Funktion von k, die ihre größten Werte annimmt, wenn k = pN. Der Unterschied zu Abbildung 5 mitte liegt lediglich darin, dass in Abbildung 5 nicht logarithmiert wurde.

Abbildung 7 zeigt nochmals den Verlauf der soeben diskutierten Größen für N = 100 (links) und N = 1000 (rechts). Genauer:

  1. Oben ist die intensive Größe N-1·ln G(k) aufgetragen. An der Skalierung der y-Achse erkennt man, dass es sich tatsächlich um eine intensive Größe handelt (man vergleiche dazu mit Abbildung 5 rechts).
  2. In der Mitte wird SB/N als Funktion von k aufgetragen. Wieder erkennt man an der Skalierung, dass es sich um eine intensive Größe handelt. Qualitativ sind die Verläufe bei unterschiedlichen N nahezu identisch, was darauf hinweist, dass die N-Abhängigkeit für große N irrelevant wird. Deutlich erkennbar ist, dass die größten Werte von SB/N in der Nähe von k = pN angenommen werden: also bei Übereinstimmung von relativer Häufigkeit k/N und theoretischer Wahrscheinlichkeit p.
  3. Zum Vergleich wird die Boltzmann-Entropie SB als Funktion von k aufgetragen. Hier ist an der Skalierung zu erkennen, dass SB eine extensive Größe ist.

Abbildung 7: Darstellung von N<sup>-1</sup>·ln G(k), S<sub>B</sub>/N und S<sub>B</sub> als Funktion von k für N = 100 beziehungsweise N = 1000.Abbildung 7: Darstellung von N-1·ln G(k), SB/N und SB als Funktion von k für N = 100 beziehungsweise N = 1000.

Somit ist Boltzmann-Entropie SB eine Größe, die die Ungewissheit über den Mikrozustand beschreibt, wenn der Makrozustand bekannt ist, aber die Mikrozustände nicht mehr gleichwahrscheinlich sind. Und sie ist im Sinne der Physik eine extensive Größe, da sie proportional zu N anwächst. Entsprechend verhält sich dann SB/N wie eine intensive Größe.

Fasst man diese intensive Größe SB/N als Funktion von k auf oder besser als Funktion der relativen Häufigkeit τ = k/N auf (wie es die Darstellung nach Gleichung (8) in Abbildung 6 suggeriert), so quantifiziert sie, wie sehr die Ungewissheit über den Mikrozustand abnimmt, wenn die relative Häufigkeit τ = k/N immer mehr von der theoretischen Wahrscheinlichkeit p abweicht.

Möchte man die Größe SB/N kurz charakterisieren, so kann man sagen:

Setzt man die theoretische Trefferwahrscheinlichkeit p als gegeben voraus, so beschreibt SB/N die Ungewissheit über den Mikrozustand, wenn die relative Häufigkeit der Treffer k/N bekannt ist. Ihre größten Werte nimmt SB/N an, wenn k/N = p.

Die relative Entropie als Verallgemeinerung der Boltzmann-Entropie

Die Beschreibung der intensiven Größe SB/N hat gezeigt, dass hier in einem gewissen Sinn zwei Wahrscheinlichkeitsverteilungen miteinander "verglichen" werden:

  1. Die Bernoulli-Verteilung mit der Trefferwahrscheinlichkeit p, also die theoretischen Wahrscheinlichkeiten p für Treffer und q = 1 - p für Niete beim Münzwurf.
  2. Die Verteilung, die aus den relativen Häufigkeiten k/N und (N-k)/N gebildet wird.

In diesem Sinne bezieht sich die Größe SB/N auf die N-fache Realisierung des Münzwurfs und sie stellt einen Vergleich zwischen der theoretischen Verteilung und der aus dem Versuchsergebnis gewonnenen empirischen Verteilung her.

Wie oben bereits gesagt wurde, verwendet man SB/N als Motivation für eine neue Größe, mit der jetzt nicht mehr die spezielle Situation der N-fachen Realisierung eines Zufallsexperimentes betrachtet wird, sondern mit der beliebige Wahrscheinlichkeitsverteilungen miteinander "verglichen" werden. Die Vorgehensweise bei diesem Prozess der Abstraktion ist in Abbildung 8 dargestellt. Das Resultat ist dann die relative Entropie, die bereits in Gleichung (3) in Abbildung 3 definiert wurde.

  1. Bei gleichwahrscheinlichen Mikrozuständen konnte nach Anwendung der Stirling-Näherung die Boltzmann-Entropie als ein Produkt von N mit einer Funktion H geschrieben werden. In die Funktion H gehen die relativen Häufigkeiten k/N und (N-k)/N ein (siehe Gleichung (1) und (2) in Abbildung 8).
  2. Dies führt zur Definition der Funktion H(X) = -∑ p(x) ln p(x), der Entropiefunktion, die jetzt nicht mehr relative Häufigkeiten sondern Wahrscheinlichkeiten der Werte einer Zufallsvariable als Eingabewerte erhält.
  3. Sind die Wahrscheinlichkeiten der Mikrozustände nicht gleichwahrscheinlich, wird wieder nach Anwendung der Stirling-Näherung aus der Boltzmann-Entropie SB der Faktor N herausgezogen, siehe Gleichung (4) und (5) in Abbildung 8.
  4. Die Funktion SB/N besitzt jetzt als Eingabewerte die relativen Häufigkeiten k/N und (N-k)/N und die theoretischen Wahrscheinlichkeiten p, q. Die inhaltliche Diskussion der Bedeutung von SB/N hat gezeigt, dass sie quantifiziert, wie weit die Bernoulli-Verteilungen mit Parameter p beziehungsweise k/N voneinander abweichen.
  5. Jetzt wird die Funktion SB/N abstrahiert in dem Sinn, dass sie nicht mehr für den Vergleich von relativen Häufigkeiten und theoretischen Wahrscheinlichkeiten eingesetzt wird, sonder für den Vergleich zweier Wahrscheinlichkeitsverteilungen von Zufallsvariablen: man erhält die relative Entropie D(X||Y), die entweder auf der Ebene von Zufallsvariablen oder auf der Ebene von Wahrscheinlichkeitsverteilungen definiert werden kann, siehe Gleichung (6) in Abbildung 8.
  6. Man beachte dabei aber, dass beim Übergang von SB/N zu D(X||Y) ein Vorzeichenwechsel stattgefunden hat: die relative Entropie wird dann groß, wenn die beiden Wahrscheinlichkeitsverteilungen sehr unterschiedlich sind, und sie wird gleich null, wenn die Wahrscheinlichkeitsverteilungen übereinstimmen.

Die Verteilung q in Gleichung (6) in Abbildung 8, also das zweite Argument von D, wird dabei als die Referenzverteilung bezeichnet.

Abbildung 8: Heuristische Überlegung zur Definition der relativen Entropie.Abbildung 8: Heuristische Überlegung zur Definition der relativen Entropie.

Aufgabe:

Die Zufallsvariable Y besitze die Wertemenge {1; 2, ...; n} und alle Wahrscheinlichkeiten P(Y = i) sind ungleich null. Die Verteilung der Zufallsvariable X ist die Gleichverteilung auf {1; 2, ...; n}. Berechnen Sie die relative Entropie D(Y||X). Stellen Sie einen Zusammenhang zu Gleichung (5) in Abbildung 2 her.

Ausblick

Die relative Entropie wird eingesetzt, um so etwas wie einen Abstand zwischen Wahrscheinlichkeitsverteilungen zu definieren. Hier wurde absichtlich "so etwas wie" gesagt, um anzudeuten, dass es sich dabei nicht um einen Abstand im Sinne der Metrik-Axiome handelt: Die Dreiecksungleichung ist nicht erfüllt und D ist nicht symmetrisch in den beiden Argumenten. Aber man kann zumindest zeigen, dass D(p||q) nur dann gleich null wird, wenn die Verteilungen p und q übereinstimmen.