Konzepte der Statistischen Mechanik: Die Abschätzung der Anzahl der Mikrozustände pro Makrozustand

Für ein einfaches Modellsystem wird untersucht, welcher Makrozustand durch die meisten Mikrozustände realisiert wird und wie sich dieser Makrozustand charakterisieren lässt. Dabei werden die zugehörigen Abzählprobleme näherungsweise gelöst, da ihre exakte Lösung nur für sehr kleine Teilchenzahlen möglich ist. Die Methoden für diese Näherungen werden ausführlich besprochen: Stirling-Formel und Suche nach dem Maximum eines Multinomialkoeffizienten unter Nebenbedingung (mit Lagrange-Multiplikatoren).

walter

23 Jan. 2021

Lagrange-Multiplikator Makrozustand Multinomialkoeffizient Fakultät Stirling-Formel statistische Mechanik Mikrozustand Thermodynamik Simplex Abzählproblem

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Anwendungen in Physik und Technik
  - Statistische Mechanik
    - Konzepte der Statistischen Mechanik: Mikrozustände und Makrozustände
    - Konzepte der Statistischen Mechanik: Die Abschätzung der Anzahl der Mikrozustände pro Makrozustand

Einführung

In Konzepte der Statistischen Mechanik: Mikrozustände und Makrozustände wurden die Abzählprobleme vorgestellt, die sich ergeben, wenn man versucht ein System, das üblicherweise mit den Begriffen der phänomenologischen Thermodynamik beschrieben wird, mit Methoden der statistischen Mechanik zu beschreiben. Die Abzählprobleme führen auf Fakultäten und Multinomialkoeffizienten, so dass sie nur für kleine Teilchenzahlen gelöst werden können, nicht aber für Teilchenzahlen in der Größenordnung 10²⁵.

Dabei wird das Modellsystem verwendet, das in Konzepte der Statistischen Mechanik: Mikrozustände und Makrozustände ausführlich beschrieben wurde.

Zwei wichtige Fragen in diesem Zusammenhang sind:

Welcher Makrozustand wird durch die meisten Mikrozustände realisiert?
Durch wie viele Mikrozustände wird er realisiert?

In diesem Kapitel werden die Methode vorgestellt, wie man diese Probleme lösen kann – ohne dabei die entsprechenden Abzählprobleme exakt zu lösen. Diese Methoden sind die Stirling-Approximation (von Fakultäten und Multinomialkoeffizienten) und die Extremwertbestimmung unter Nebenbedingungen mit Lagrange-Multiplikatoren. Mit diesen Methoden wird eine vorläufige Antwort auf die gestellten Fragen gegeben – vorläufig, da die Ergebnisse erst thermodynamisch interpretiert werden müssen, was hier noch nicht geschehen soll.

Die Stirling-Approximation für die Fakultät

Die exakte Berechnung von Fakultäten, Binomial- oder Multinomialkoeffizienten ist oft nicht nötig und man kann sich mit schneller zu berechnenden Näherungen begnügen, insbesondere wenn lediglich der natürliche Logarithmus dieser Werte benötigt wird.

Abbildung 1 zeigt die Formeln, mit denen die Berechnung einer Fakultät angenähert werden kann. Die Formeln gehen auf Stirling zurück und werden hier nicht bewiesen.

Die beste Approximation der Fakultät ist in Gleichung (1) gezeigt, die entsprechende Formel für den natürlichen Logarithmus der Fakultät in Gleichung (2); sie werden im Folgenden kurz als die Stirling-Approximation oder die Stirling-Formeln bezeichnet. (Aus dem Zusammenhang wird stets hervorgehen, welche von beiden gerade gemeint ist.)

Lässt man in (2) den kleinsten Term weg, entsteht Gleichung (3); sie liefert eine gute Näherung des natürlichen Logarithmus der Fakultät mit erstaunlich wenig Rechenaufwand. Im Folgenden wird sie kurz als die vereinfachte Stirling-Approximation bezeichnet.

Formel (3) lässt sich auch ohne großen Aufwand herleiten, indem man im Integral in (4) Rechtecke der Breite 1 zur Approximation verwendet.

Abbildung 1: Die Formeln von Stirling zur näherungsweisen Berechnung der Fakultät N! beziehungsweise von ln(N!).

Abbildung 2 zeigt den Vergleich der exakt berechneten Fakultäten und der beiden Näherungen mit Gleichung (1) und (3) aus Abbildung 1. Durch die logarithmische Skalierung der y-Achse sind die Unterschiede nicht mehr erkennbar.

Abbildung 2: Darstellung von N! für Werte von N = 2 bis N = 120 sowie die beiden Approximationen durch die Stirlingsche Formel (nach (1) aus Abbildung 1, rot) sowie die vereinfachte Version der Stirling-Formel (nach (3) in Abbildung 1, grün).

Um besser vergleichen zu können, wie groß die tatsächlichen Abweichungen sind, werden für N = 100 alle relevanten Werte explizit berechnet, siehe Abbildung 3. Bei Werten von N bis 100 lassen sich üblicherweise die Fakultäten exakt berechnen, oberhalb muss man auf Näherungen zurückgreifen. Dabei ist es wichtig angeben zu können:

Sollen die Fakultäten N! in sehr guter Näherung berechnet werden (in der Größenordnung von einem Prozent) oder
sollen die Logarithmen der Fakultäten ln(N!) mit hoher Genauigkeit angegeben werden.

Abbildung 3: Um die Güte der verschiedenen Stirling-Approximationen zu zeigen, werden für das Beispiel N = 100 alle exakten und Näherungswerte berechnet und verglichen.

Aus den Ergebnissen in Abbildung 2 kann man folgende Faustregeln ableiten:

Um die Fakultäten N! genau zu berechnen, muss man auf die Stirling-Approximation nach Gleichung (1) in Abbildung 1 zurückgreifen; berechnet man N! aus Formel (3), kann das Ergebnis stark vom exakten Wert abweichen.
Soll lediglich ln(N!) mit hoher Genauigkeit berechnet werden, so reicht meist die Näherung (3) aus Abbildung 1; sie ist auch mit deutlich weniger Rechenaufwand verbunden.

Zur Veranschaulichung zeigt Abbildung 4:

Links: Die relative Abweichung der Näherung aus Gleichung (1) in Abbildung 3 von N!.
Rechts: Die relative Abweichung der vereinfachten Stirling-Formel (3) von ln(N!).

Da diese relativen Abweichungen für kleine N sehr groß werden, sind die Werte nur für N ≥ 10 berechnet.

Abbildung 4: Links: Die relative Abweichung der Stirling-Approximation von N! Rechts: Die relative Abweichung der vereinfachten Stirling-Formel (3) von ln(N!); beides für Werte für N von 10 bis 120.

Zum Abschluss dieses Abschnittes soll ein wichtiger Punkt über die Näherungen betont werden: In Abbildung 2 wurden die nach Formel (1) und (3) berechneten Näherungen als durchgezogene Linien eingezeichnet, dagegen die Fakultäten als Histogramme. Dies soll schon darauf hindeuten, dass man in den Näherungsformeln N als eine kontinuierliche Variable auffassen kann, nach der man zum Beispiel ableiten kann. Mit der diskreten Variable N in N! oder ln(N!) ist dies nicht möglich.

Die Abschätzung der Multinomialkoeffizienten

Die Anzahl der Mikrozustände pro Makrozustände wird in dem hier betrachteten Modell durch Multinomialkoeffizienten berechnet. Da man sie aber für Teilchenzahlen weit jenseits der N = 100 berechnen möchte, wird man geeignete Abschätzungen für die Multinomialkoeffizienten benötigen; sie sollen im Folgenden diskutiert werden.

Eigenschaften der Multinomialkoeffizienten

Multinomialkoeffizienten treten in zahlreichen Abzählproblemen auf, salopp gesagt immer dann, wenn es mehrere Gruppen von Objekten gibt, wobei die Objekte innerhalb der Gruppen nicht unterscheidbar sind.

Beispiel:

In einem Spiel gibt es die drei Möglichkeiten Gewinn (G), Verlust (V) oder Unentschieden (U). Es wurden N = 9 Spiele ausgeführt, wobei n₁ = 4 Spiele gewonnen, n₂ = 3 Spiele verloren wurden und n₃ = 2 Spiele unentschieden ausgegangen sind. Wie viele Möglichkeiten gibt es für die Reihenfolge, in der G, V und U aufgetreten sind.

Lösung:

Wären alle Spiele unterscheidbar, gäbe es 9! Möglichkeiten der Anordnung (alle Permutationen der Länge N = 9). Da die vier Siege nicht unterscheidbar sind, muss man durch 4! teilen. Ebenso sind die 3 Verluste nicht zu unterscheiden, daher muss man noch durch 3! teilen und da auch die Unentschieden nicht unterschieden werden noch durch 2! Insgesamt erhält man für die Anzahl der möglichen Folgen von Spielen:

N! / (n₁! · n₂! · n₃!) = 9! / (4! · 3! · 2!) = 1260.

Man kann sich die Vorgehensweise leicht veranschaulichen: In der Folge

GGGGVVVUU

sind 4! Folgen enthalten, die durch Vertauschung der G entstehen, 3! Folgen, die durch Vertauschung der V entstehen und 2! durch Vertauschung der U. Dieses Argument kann man für jede andere Anordnung anwenden.

♦ ♦ ♦

Ein Ausdruck der Art 9! / (4! · 3! · 2!) wird als Multinomialkoeffizient bezeichnet, wobei die drei Zahlen im Nenner (hier 4, 3 und 2) eine Partition der Zahl N im Zähler bilden. Abgekürzt wird dieser Ausdruck meist durch eine Schreibweise, die an den Binomialkoeffizienten erinnert – ein Multinomialkoeffizient mit einer Partition der Länge 2 ist ein Binomialkoeffizient. Diese Schreibweise für den Multinomialkoeffizienten ist in Abbildung 5 Gleichung (1) gezeigt, der Spezialfall des Binomialkoeffizienten in Gleichung (2).

Abbildung 5: Die Definition des Multinomialkoeffizienten und der Spezialfall eines Binomialkoeffizienten (falls k = 2 und somit N nur durch zwei Summanden dargestellt wird).

Naheliegende Fragen zu dem Beispiel oben sind:

Wie viele Multinomialkoeffizienten kann man zu einem gegebenen N (im Beispiel N = 9) bilden?
Bei welcher Wahl der Summanden n₁, n₂, n₃ nimmt der Multinomialkoeffizient den größten Wert an?
Wie hängen diese Antworten von der Anzahl der Summanden k ab?

Diese Fragen lassen sich leichter diskutieren, wenn man die Multinomialkoeffizienten in einem Simplex anordnet, der das Pascalsche Dreieck verallgemeinert.

Anordnung der Multinomialkoeffizienten im Simplex

Abbildung 6 zeigt, wie man das Pascalsche Dreieck aufbauen kann: Um die N-te Zeile zu bilden, wird im zweidimensionalen Koordinatensystem die Gerade

x₁ + x₂ = N

eingezeichnet. Auf der Geraden befinden sich N + 1 Punkte mit ganzzahligen Koordinaten; die beiden Koordinaten x₁, x₂ werden im Nenner des Binomialkoeffizienten verwendet:

N! / (x₁! · x₂!).

In Abbildung 6 sind die Geraden mit N = 1 und N = 2 eingezeichnet und wie man den Punkten auf den Geraden die Binomialkoeffizienten zuordnet.

Abbildung 6: Die Einträge im Pascalschen Dreieck in der N-ten Zeile können durch die Punkte auf einer Geraden dargestellt werden; die Koordinaten geben an, welche Fakultäten im Nenner stehen. Für N = 1 und N = 2 sind die Geraden und die Zuordnung von den Punkten zu den Binomialkoeffizienten gezeigt.

Dieses Verfahren lässt sich jetzt leicht auf Multinomialkoeffizienten übertragen. Möchte man Multinomialkoeffizienten bilden, bei denen die N Objekte in 3 Gruppen eingeteilt werden, so bildet man das dreidimensionale Koordinatensystem und trägt die Ebene

x₁ + x₂ + x₃ = N

ein. In Abbildung 7 sind die Ebenen für N = 1 und N = 2 dargestellt.

Abbildung 7: Die Zuordnung von Punkten zu Binomialkoeffizienten kann verallgemeinert werden: dazu wird zu gegebenem N ein Simplex gebildet und Punkte mit ganzzahligen Koordinaten definieren einen Multinomialkoeffizienten. Gezeigt ist der Simplex zu N = 1 und N = 2 für den Fall, dass N in drei Gruppen unterteilt wird. Unten sind dann für N = 3 lediglich die Werte der Multinomialkoeffizienten gezeigt, die wie auf dem Simplex in einem Dreieck angeordnet sind.

Auf jeder dieser Ebenen gibt es Punkte mit ganzzahligen Koordinaten; diese definieren wieder das Tupel im unteren Eintrag des Multinomialkoeffizienten, oben steht die Zahl N.

Für N = 3 sind lediglich die Ebenengleichung sowie die Werte der Multinomialkoeffizienten (angeordnet auf dem Dreieck) gezeigt.

Auf diese Weise entstehen zu einer gegebenen Zahl N genau

(N+1) + N + (N-1) + ... + 1 = (N+2)·(N+1) / 2

Multinomialkoeffizienten.

Man kann sich dies auch folgendermaßen überlegen: Um alle Multinomialkoeffizienten zu gegebenem N zu bilden (bei einer Einteilung in 3 Gruppen), muss man alle Partitionen von N der Länge 3 bilden (dabei ist die 0 als Summand zugelassen und es werden auch Partitionen gezählt, die nur durch Vertauschung der Reihenfolge der Summanden entstehen). Diese Anzahl wird mit dem Binomialkoeffizienten "N aus N+3-1" berechnet, also "N aus N+2", was mit (N+2)·(N+1) / 2 übereinstimmt.

Die folgende Abbildung 8 zeigt sämtliche Multinomialkoeffizienten zu N = 4 und N = 9 (wieder Einteilung in 3 Gruppen), die wie in Abbildung 7 angeordnet werden.

Abbildung 8: Alle Multinomialkoeffizienten zu N = 4 und N = 9 bei Einteilung in drei Gruppen.

Das Dreieck, das in Abbildung 7 jeweils orange eingezeichnet ist, wird als Simplex bezeichnet – er kann in beliebigen Dimensionen analog definiert werden. Man kann damit leicht angeben, wie man bei der Bildung aller Multinomialkoeffizienten zu N und der Einteilung in K Gruppen vorgeht:

Man zeichnet das K-dimensionale Koordinatensystem.
Darin wird die Hyperebene x₁ + x₂ + ... + x_K = N eingezeichnet.
Die Punkte auf der Ebene mit ganzzahligen Koordinaten definieren die Multinomialkoeffizienten.

Für K = 4 entsteht als Simplex ein Tetraeder, für höhere Dimensionen kann man schwerlich eine anschauliche Interpretation liefern – dennoch wird die Vorstellung des Simplex die weitere Vorgehensweise erleichtern.

Die Suche nach dem größten Multinomialkoeffizienten: Maximum unter Nebenbedingungen

Mit diesen Vorbereitungen kann man zu der eigentlich relevanten Frage zurückkehren: Wie findet man zu gegebenem N und K diejenigen Einträge x₁, x₂, ..., x_K, bei denen der Multinomialkoeffizient möglichst groß wird?

Ein Blick auf Abbildung 8 gibt eine erste Antwort: in der "Mitte des Simplex", also dort wo alle Koordinaten ungefähr gleich groß sind, befinden sich die größten Einträge. (Befindet man sich "in der Nähe der Ecken des Simplex", so ist ein x_i nahezu gleich N, wodurch sich fast alles wegkürzt und der Multinomialkoeffizient nicht sehr groß sein kann.)

Dieses Ergebnis soll jetzt auf eine – wie es zunächst erscheinen wird – umständliche Weise hergeleitet werden. Dies geschieht, weil diese Vorgehensweise methodisch wichtig ist und auch in Fällen angewendet werden kann, bei denen man das Ergebnis nicht aus einfachen Symmetrie-Überlegungen ableiten kann.

Das Problem wird jetzt so formuliert, dass mit Methoden der Differentialrechnung ein Maximum unter einer Nebenbedingung gesucht wird. Die Vorgehensweise kann man kurz zusammenfassen:

Nicht der Multinomialkoeffizient wird untersucht, sondern sein natürlicher Logarithmus, wobei die vereinfachte Stirling-Approximation verwendet wird.
Wie oben gesagt wurde, kann man das Ergebnis der Approximation als kontinuierliche Funktion auffassen (und differenzieren).
Die Anzahl der Gruppen K wird fest vorgegeben.
Dass sich die Einträge x₁, x₂, ..., x_K zu N summieren müssen, wird als Nebenbedingung eingeführt.
Gesucht wird jetzt das Maximum des Logarithmus des Multinomialkoeffizienten unter der Nebenbedingung x₁ + x₂ + ... + x_K = N.

Damit die Rechnungen leichter durchschaubar sind, wird zunächst K = 3 gewählt – es wird sich aber zeigen, dass die Verallgemeinerung zu beliebigen K keinerlei Schwierigkeiten bereitet.

Die Vorgehensweise wird ausführlich beschrieben, weil sie anschließend auf den eigentlich relevanten Fall übertragen wird. Die Rechenschritte sind in Abbildung 9 zu sehen.

Abbildung 9: Die Schritte zur Berechnung des Maximums des Multinomialkoeffizienten unter einer Nebenbedingung mit der Methode der Lagrange-Multiplikatoren.

1. Gesucht wird das Maximum des Multinomialkoeffizienten unter einer Nebenbedingung, siehe Gleichung (1) in Abbildung 9. Verwendet man die vereinfachte Stirling-Approximation für den Logarithmus des Multinomialkoeffizienten, erhält man Gleichung (2) in Abbildung 9.

2. und 3. Der Logarithmus des Multinomialkoeffizienten wird als Funktion f von 3 Variablen geschrieben, die Zahl N wird hier als Konstante aufgefasst; siehe Gleichung (3).

4. Die Nebenbedingung wird als Funktion g der drei Variablen definiert, siehe Gleichung (4).

5. Damit sind die Vorbereitungen abgeschlossen und der eigentlich schwierige Teil beginnt damit, dass mit der Methode der Lagrange-Multiplikatoren das Maximum von f unter der Nebenbedingung g gesucht wird. Dazu wird der Lagrange-Multiplikator α eingeführt und die drei Gleichungen (5) charakterisieren das gesuchte Maximum: man bildet von f + α·g jeweils die partiellen Ableitungen nach den drei Variablen und setzt sie gleich null.

Mit den Ableitungen aus Gleichung (6), ergeben sich die drei Gleichungen (7), die besagen, dass die drei Unbekannten identisch sein müssen. Daher ist die einzige Lösung (Einsetzen in die Nebenbedingung)

x₁ = x₂ = x₃ = N/3.

Also genau die oben geäußerte Vermutung, dass der Multinomialkoeffizient "in der Mitte" des Simplex maximal wird.

Mit dieser Lösung kann man jetzt den Multinomialkoeffizienten berechnen und es ist interessant zu sehen, in welcher Näherung sich welches Ergebnis einstellt:

Einsetzen in den Multinomialkoeffizienten.
Einsetzen in die Stirlingsche Approximation.
Einsetzen in die vereinfachte Stirling-Approximation.

Abbildung 10: Die Berechnung des maximalen Multinomialkoeffizienten und seiner Näherungen (Stirling-Approximation und vereinfachte Stirling-Approximation).

Der erste Fall ist nur möglich, wenn N durch drei teilbar ist; man erhält Gleichung (1) in Abbildung 10. Dies verdeutlicht nochmal, dass der Multinomialkoeffizient durch eine kontinuierliche Funktion ersetzt wurde, und dass die Ergebnisse nicht immer auf den diskreten Fall übertragbar sein müssen.

Im zweiten Fall erhält man – auch unter der Voraussetzung, dass N durch 3 teilbar ist, – mit Hilfe der Stirling-Approximation für N! und n₃! (siehe Gleichung (2)) die Näherung für den Multinomialkoeffizienten in Gleichung (3). Weiter unten wird dann abgeschätzt, wie weit (1) und (3) voneinander abweichen.

Im dritten Fall erhält man für den natürlichen Logarithmus des Multinomialkoeffizienten (indem 3 n₃ wieder durch N ersetzt wird) die Gleichung (5). Damit ist aber der Multinomialkoeffizient angenähert gleich 3^N, was eine sehr grobe Approximation ist, da 3^N gleich der Summe aller Multinomialkoeffizienten zu N bei Einteilung in drei Gruppen ist.

Aufgabe:

Es wurde vorausgesetzt, dass Multinomialkoeffizienten zu N bei Einteilung in drei Gruppen betrachtet wird. Wie lautet das Ergebnis, wenn man anstelle von 3 allgemein mit K Gruppen rechnet?

♦ ♦ ♦

Um die erzielten Ergebnisse besser beurteilen zu können, versuchen die beiden folgenden Abbildungen den exakten Multinomialkoeffizienten und die Näherungen für Werte von N = 2 bis N = 120 gegenüberzustellen. Abbildung 11 zeigt mit logarithmisch skalierter y-Achse:

Den exakt berechneten Multinomialkoeffizient für N-Werte, die durch 3 teilbar sind (blau, berechnet mit Gleichung (1) in Abbildung 10).
Die Stirling-Approximation nach Gleichung (3) in Abbildung 10 (grün).
Die vereinfachte Stirling-Approximation nach Gleichung (5) in Abbildung 10 (grün).

Abbildung 11: Multinomialkoeffizient und die beiden Stirling-Approximationen in logarithmischer Skalierung der y-Achse.

Da in Abbildung 11 der exakte Multinomialkoeffizient und die Stirling-Approximation nicht unterscheidbar sind, zeigt Abbildung 12 das Verhalten etwas detaillierter:

Links: Gezeigt ist die relative Abweichung der Stirling-Approximation von den exakten Multinomialkoeffizienten, also der Vergleich der Gleichungen (1) und (3) aus Abbildung 10. Man erkennt zum Beispiel, dass schon für Werte von N ab etwa 70 die relative Abweichung kleiner als ein Prozent ist.
Rechts: Werden die Logarithmen des exakten Multinomialkoeffizient und der vereinfachten Stirling-Approximation verglichen, also der natürliche Logarithmus von Gleichung (1) und der Approximation nach Gleichung (5) in Abbildung 10. Dargestellt ist wieder die relative Abweichung und beim Vergleich mit der linken Abbildung ist zu beachten, dass rechts die y-Achse anders skaliert.

Abbildung 12: Relative Abweichung der Stirling-Approximationen von den exakten Multinomialkoeffizienten.

Abschätzen der Anzahl der Mikrozustände pro Makrozustände

Die Problemstellung

In Konzepte der Statistischen Mechanik: Mikrozustände und Makrozustände wurde gezeigt, dass in dem behandelten Modellsystem die Anzahl der Mikrozustände pro Makrozustand durch einen Multinomialkoeffizienten berechnet wird. Und dafür soll nun derjenige Makrozustand bestimmt werden, der die größte Anzahl an Mikrozuständen besitzt. Das Problem ist allerdings etwas schwieriger zu lösen als das Extremwertproblem im letzten Abschnitt, da jetzt eine zusätzliche Nebenbedingung erscheint; allerdings werden genau die Methoden eingesetzt, die im letzten Abschnitt besprochen wurden.

Für das Modellsystem wurden im zitierten Artikel immer zu gegebener Teilchenzahl N und Energie K, genauer Energie K·E₀, die Mikro-, Energie- und Makrozustände angegeben. Sinnvoll ist dies nur für kleine Zahlen N und K, da die Anzahlen der Zustände etwa exponentiell anwachsen.

Der Makrozustand war durch die Besetzungszahlen der Energieniveaus

(n₀, n₁, ..., n_K), mit n₀ + n₁ + ... + n_K = N

gegeben, was so zu lesen ist:

es gibt n₀ Teilchen im Energieniveau E₀,
es gibt n₁ Teilchen im Energieniveau E₁ ...

Die Besetzungszahlen müssen sich zu N aufsummieren (erste Nebenbedingung) und ihre Gesamtenergie muss mit E = K·E₀ übereinstimmen (zweite Nebenbedingung):

0·n₀ + 1·n₁ + ... + K·n_K = K.

Der Einfachheit halber wurde in der zweiten Nebenbedingung die Energie E₀ wieder gekürzt.

Vergleicht man diese neue Problemstellung mit den Abbildungen 6 und 7, so kann man feststellen:

Maximiert werden soll ein Multinomialkoeffizient, der die Zahl N in K + 1 Gruppen einteilt.
Diese Multinomialkoeffizienten liegen auf einem Simplex in einem (K + 1)-dimensionalen Raum, denn die erste Nebenbedingung definiert die Hyperebene n₀ + n₁ + ... + n_K = N.
Die zweite Nebenbedingung 0·n₀ + 1·n₁ + ... + K·n_K = K definiert ebenfalls eine Hyperebene.
Gesucht ist somit der maximale Multinomialkoeffizient auf der Schnittmenge der beiden Hyperebenen.

Abbildung 13 versucht dies darzustellen; dazu sollte man sie mit Abbildung 8 vergleichen. Dort waren (unten) die Werte der Multinomialkoeffizienten zu N = 9 (Einteilung in drei Gruppen) dargestellt. In Abbildung 13 werden jetzt zusätzlich die K-Werte (fett) aus der zweiten Nebenbedingung eingetragen. Man erkennt, dass Zustände gleicher Energie (gleiches K) auf einer Geraden liegen, die "quer" durch den Simplex verläuft. Das Extremwertproblem besteht somit darin, auf derartigen Geraden den maximalen Multinomialkoeffizienten zu suchen. Allerdings handelt es sich bei beliebigen N und K meist um hochdimensionale Gebilde, die sich nicht wie in Abbildung 13 veranschaulichen lassen.

Abbildung 13: Oben die Bezeichnung der Achsen, die den Simplex definieren, der Multinomialkoeffizient und die Energie berechnet durch den Makrozustand. Unten der Simplex der Multinomialkoeffizienten, in den zusätzlich die K-Werte (fett) eingetragen sind; die K-Werte entsprechen den Energien des Makrozustandes.

Und weiter sollte man sich klarmachen, dass die Problemstellung aus zwei Teilen besteht:

Es soll der Wert des maximalen Multinomialkoeffizienten unter den beiden Nebenbedingungen bestimmt werden; die weiteren Untersuchungen werden dann zeigen, dass es ausreicht seinen natürlichen Logarithmus zu bestimmen und da in der statistischen Mechanik große Teilchenzahlen behandelt werden, kann man sich mit einer Näherung wie der vereinfachten Stirling-Approximation begnügen.
Es soll der Makrozustand charakterisiert werden, bei dem der Multinomialkoeffizient maximal wird. Und da der Makrozustand – so wie er bisher angegeben wurde – bei sehr großen Teilchenzahlen viel zu detaillierte Informationen enthält, wird man auch hier mit einer vergröberten Bestimmung des Makrozustandes zufrieden sein.

Berechnung des maximalen Multinomialkoeffizienten

Im Folgenden wird die Methode aus dem letzten Abschnitt auf dieses Problem angewendet; dabei sind die Teilchenzahl N und die Gesamtenergie E = K·E₀ fest vorgegeben und es wird angenommen, dass alle Zahlen N und K so groß sind, dass man mit der vereinfachten Stirling-Approximation arbeiten kann. Die Energie E₀ wird jetzt immer in die Formeln aufgenommen, da die Ergebnisse später physikalisch interpretiert werden sollen.

Ein Makrozustand wird durch die Besetzungszahlen n₀, n₁, ..., n_K in Gleichung (1) in Abbildung 14 beschrieben; genauer es handelt sich um Besetzungszahlen der Energieniveaus. Die Gesamtenergie des Makrozustandes wird in Gleichung (2) berechnet. Es gilt den Multinomialkoeffizient in Gleichung (3) zu maximieren; dazu wird wieder eine geeignete Funktion f eingeführt und die beiden Nebenbedingungen werden durch Funktionen g₁ und g₂ formuliert (siehe Gleichung (4) bis (6)).

Abbildung 14: Voraussetzungen zur Formulierung des Extremwertproblems, bei dem ein Multinomialkoeffizient unter Nebenbedingungen maximiert werden soll.

Da es zwei Nebenbedingungen gibt, werden zwei Lagrange-Multiplikatoren α und β eingeführt und man bildet die partiellen Ableitungen der Funktion

f + α g₁ + β g₂

nach den K+1 Variablen n_i, i = 0, 1, ..., K. Die partiellen Ableitungen sind in Abbildung 15 in Gleichung (1) gezeigt, sie führen auf die Gleichungen in (2), die noch die Lagrange-Multiplikatoren enthalten. Formal können sie aber schon nach den n_i aufgelöst werden (siehe Gleichung (3)).

Im Unterschied zur Abschätzung der Multinomialkoeffizienten im vorigen Abschnitt erkennt man, dass jetzt die n_i nicht konstant sind, sondern von i abhängen. Setzt man die n_i aus (3) in die erste Nebenbedingung ein, erhält man Gleichung (4). Die Größe Z (β) in (5) wird als Zustandssumme bezeichnet; ihre physikalische Bedeutung wird erst später diskutiert – sie ist an dieser Stelle auch noch nicht erkennbar. Die letzte Gleichheit in (5) erhält man, da die Summe eine geometrische Reihe darstellt.

Damit erhält man für die Besetzungszahlen n_i der Energieniveaus Gleichung (6). Sie gibt einen ersten Hinweis auf die Bedeutung der Zustandssumme: Schreibt man die Besetzungszahlen wie in (6) ähnlich wie relative Häufigkeiten, so kann man die rechte Seite wie eine Wahrscheinlichkeit interpretieren. Der Exponentialterm im Zähler wird dann auch manchmal als thermodynamische Wahrscheinlichkeit bezeichnet, die erst durch die Normierung mit Hilfe der Zustandssumme zu einer echten Wahrscheinlichkeit wird.

Damit ist ein Teil der Aufgabe gelöst: Die Besetzungszahlen für denjenigen Makrozustand, der bei gegebenem N und E die meisten Mikrozustände besitzt, können durch Gleichung (6) berechnet werden – allerdings noch unter dem Vorbehalt, dass die Bedeutung des Lagrange-Multiplikators β immer noch unbekannt ist.

Abbildung 15: Mit den Methoden, die zu Abbildung 14 diskutiert wurden (Maximum mit partiellen Ableitungen und Lagrange-Multiplikatoren finden), kann der Makrozustand gefunden werden, bei dem der Multinomialkoeffizient maximal wird. Dazu wird die Zustandssumme eingeführt und das vorläufige Ergebnis ist Gleichung (6), die die Besetzungszahlen der Energieniveaus mit Hilfe des Lagrange-Multiplikators β ausdrückt

Eine weitere Eigenschaft der Zustandssumme wird in Abbildung 16 gezeigt: Es besteht ein Zusammenhang zwischen der Gesamtenergie E und der Zustandssumme, die in den Gleichungen (1) bis (4) hergeleitet wird (Abbildung 16).

Damit kann man zur eigentlichen Aufgabe zurückkehren: Wie lautet der Multinomialkoeffizient, der durch die größte Anzahl an Mikrozuständen verwirklicht wird? (Oder in der Sprechweise des Extremwertproblems: die Lösungen n_i werden in die Funktion f aus Gleichung (4) in Abbildung 14 eingesetzt.)

Dazu wird in Abbildung 16 zunächst eine Beziehung zwischen der partiellen Ableitung von ln(Z(β)) nach β und der Gesamtenergie E hergestellt. Damit und mit den Gleichungen für die Besetzungszahlen der Energieniveaus (Gleichung (6) in Abbildung 15) kann man den maximalen Multinomialkoeffizienten abschätzen. Man verwendet die vereinfachte Stirling-Approximation und setzt die Besetzungszahlen der Energieniveaus ein. Das Ergebnis ist eine einfache Formel (7), in der die Teilchenzahl N, die Gesamtenergie E, die Zustandssumme und der Lagrange-Multiplikator β vorkommen. Dies ist das vorläufige Resultat der Untersuchungen.

Abbildung 16: Mit der Kenntnis der Besetzungszahlen, die in Abbildung 15 berechnet wurden, kann man eine Näherung für den Logarithmus des maximalen Multinomialkoeffizienten angeben, siehe Gleichung (7).

Zusammenfassung

In der Einführung wurden zwei Fragen gestellt:

Welcher Makrozustand wird durch die meisten Mikrozustände realisiert?
Durch wie viele Mikrozustände wird er realisiert?

In den bisherigen Untersuchungen konnten vorläufige Antworten gegeben werden:

Die Besetzungszahlen in Gleichung (6) in Abbildung 15 charakterisieren den Makrozustand, der durch die meisten Mikrozustände realisiert wird.
Gleichung (7) in Abbildung 16 liefert eine Näherung für die Anzahl seiner Mikrozustände.

Diese Ergebnisse enthalten noch den Lagrange-Multiplikator β, dessen Bedeutung völlig unklar ist. Man kann aber bereits einen Ausblick auf die weitere Vorgehensweise geben:

Bisher wurde nur von Abzählproblemen geredet, es wurden noch keine Wahrscheinlichkeiten auf der Menge der Mikrozustände eingeführt. Wenn man hierfür die einfachste Wahl trifft und dann die Größe identifizieren kann, die innerhalb der bisher entwickelten Konzepte der Entropie der phänomenologischen Thermodynamik entspricht, wird man sehen, dass Gleichung (7) in Abbildung 16 einem Zusammenhang zwischen thermodynamischen Größen entspricht. Es ist das Verdienst von Ludwig Boltzmann, dass er diese mikroskopische Definition der Entropie formuliert und ausgearbeitet hat; sie wird daher im Folgenden als Boltzmann-Entropie bezeichnet.

Im nächsten Kapitel wird sie definiert und der Zusammenhang der bisherigen Untersuchungen zur phänomenologischen Thermodynamik hergestellt.