Die Definition der Entropie eines Wahrscheinlichkeitsmaßes oder einer Zufallsvariable wird an einfachen Beispielen erläutert. Es wird diskutiert, dass die Entropie kein Streuungsmaß ist (wie die Standardabweichung), sondern die Ungewissheit (oder Unbestimmtheit) des Ausgangs eines Zufallsexperimentes beschreibt.
Die Funktion lm() ist ein mächtiges Instrument für die lineare Regression, das zahlreiche statistische Informationen über die untersuchten Daten bereitstellt. Es wird hier nur für die wichtigsten statistischen Größen gezeigt, wie man sie entweder direkt oder durch weitere Hilfsfunktionen gewinnen kann.
Durch Definition geeigneter Zufallsvariablen (Regressionswert und Residuum) bei einer Regressionsanalyse wird man auf die sogenannte Varianzzerlegung geführt. Sie erlaubt es durch eine einzige Kennzahl (das Bestimmtheitsmaß) zu beurteilen, wie gut die Messdaten durch die Regressionsgerade approximiert werden. Das Diagramm, das die Güte der Approximation am Besten ausdrücken kann, ist der Residualplot.
An zwei konkreten Beispielen wird gezeigt, wie aus stark beziehungsweise schwach korrelierten Messdaten die Regressionsgerade berechnet wird und wie man ihre Eigenschaften veranschaulichen kann. Herleitungen der Formeln zur Berechnung der Regressionskoeffizienten (Methode der kleinsten Quadrate) werden hier nicht gegeben; auch die Quelltexte zur den Berechnungen und Diagrammen werden hier nicht gezeigt.
Geometrische oder dynamische Probleme in drei Dimensionen, die eine Zylindersymmetrie oder Kugelsymmetrie besitzen, lassen sich besonders einfach mit Zylinderkoordinaten beziehungsweise Kugelkoordinaten beschreiben. Diskutiert werden deren Definition, die Koordinatenlinien und -flächen sowie die Basisvektoren. In den R-Skripten werden einige spezielle Eigenschaften näher untersucht und zugleich Beispiele gezeigt, wie dreidimensionale Graphiken mit scatterplot3d erstellt werden.
Das Paket scatterplot3d erleichtert die Darstellung von dreidimensionalen Punktwolken. Es bietet zudem zahlreiche Funktionalitäten, mit denen derartige Plots gehaltvoller gestaltet werden können, wie das Eintragen von zusätzlichen Punkten, Linien und Ebenen oder Konturlinien. An einigen speziellen Anwendungen wird ein Großteil dieser Funktionalitäten vorgestellt.
Mit ebenen Polarkoordinaten lassen sich geometrische oder dynamische Probleme besonders einfach beschreiben, wenn sie auf eine Ebene beschränkt und rotationssymmetrisch sind. (Das Paradebeispiel dafür ist die Kreisbewegung, die durch die Angabe des Kreisradius und des Drehwinkels anstelle der kartesischen Koordinaten nur eine veränderliche Größe besitzt.) Da die Koordinatenlinien Halbgeraden und Kreise sind, werden sie als krummlinige Koordinaten bezeichnet. Diskutiert werden die wichtigsten Eigenschaften, die Polarkoordinaten von kartesischen Koordinaten unterscheiden; die Vorgehensweise lässt sich dann leicht auf andere krummlinige Koordinatensysteme übertragen. Für den Umgang mit Polarkoordinaten wichtig ist der Zusammenhang zwischen der arctan-Funktion und der Berechnung des Azimutwinkels. In vielen Programmiersprachen wird dies durch die Funktion atan2() erleichtert, die man aber nur anwenden sollte, wenn man die Spitzfindigkeiten ihres Zusammenhangs zur arctan-Funktion kennt.
Die Methode, den Erwartungswert einer Zufallsvariable X mit Hilfe von Indikatorvariablen zu berechnen, ist deshalb so wichtig, weil man dazu die Verteilung von X nicht kennen muss. Die eigentliche Schwierigkeit besteht oft darin, geeignete Indikatorvariablen zu finden. An mehreren Beispielen (Münzwurf, hypergeometrische Verteilung und einer Zufallsvariable mit unbekannter Verteilung) wird dieses Vorgehen demonstriert. Da man Varianzen auf Erwartungswerte zurückführen kann, lassen sich mit dieser Methode auch Varianzen und Standardabweichungen berechnen.
Die hypergeometrische Verteilung beschreibt die Wahrscheinlichkeit dafür, dass beim Ziehen ohne Zurücklegen n Treffer aus einer Urne gezogen werden; dazu befinden sich in der Urne anfangs L Treffer und K Nieten und es werden N Lose entnommen. Die Abhängigkeit der Verteilung von den drei Parametern K, L und N erschwert den Zugang zur Berechnung der gesuchten Wahrscheinlichkeiten. Es werden zwei - natürlich gleichwertige - Methoden gezeigt, wie man die Wahrscheinlichkeiten berechnet.
Das Abzählproblem "Ziehen ohne Zurücklegen" wird unter der Annahme betrachtet, dass sich in der Urne zwei Arten von Objekten befinden (etwa K Nieten und L Treffer). Berechnet wird die Anzahl der möglichen Ergebnisse, wenn N-mal ein Los aus der Urne gezogen wird und dabei die Reihenfolge der Ergebnisse beachtet wird.
Ebenso wird gezeigt, wie man die möglichen Ergebnisse mit Hilfe des Hamming-Abstandes charakterisieren und mit Hilfe des N-dimensionalen Hyperwürfels und im Pascalschen Dreieck veranschaulichen kann. In den R-Skripten werden Algorithmen für das Abzählproblem und die Berechnung der möglichen Ergebnisse vorgestellt und diskutiert.
Binomialkoeffizienten und einige einfache Anwendungen in Abzählproblemen (wie die Anzahl der möglichen Ergebnisse beim Zahlenlotto) wurden bereits in den Begriffsbildungen der Kombinatorik vorgestellt. Hier werden die grundlegenden Eigenschaften der Binomialkoeffizienten diskutiert: die Pascalsche Rekursionsformel, der Aufbau des Pascalschen Dreiecks, der binomische Satz. Binomialkoeffizienten treten in unüberschaubar vielen Bereichen der Mathematik auf und ihr Auftreten sollte immer als Hinweis auf - mehr oder weniger offensichtliche - Querverbindungen verstanden werden. Als Beispiel einer dieser Querverbindungen wird der Zusammenhang der Binomialkoeffizienten mit dem n-dimensionalen Hyperwürfel diskutiert.
Es werden Simulationen zum Temperaturausgleich durchgeführt: Das Modellsystem mit äquidistanten Energieniveaus wird in zwei Teilsysteme zerlegt, die anfangs unterschiedliche Energie haben. Es entwickelt sich unter einer einfachen Dynamik, bei der zufällig zwei Moleküle ausgewählt werden, die ein Energiequant austauschen.
Die Ergebnisse der Simulationen sollen die Konzepte illustrieren, mit denen die statistische Mechanik einen irreversiblen Vorgang beschreibt, der in der phänomenologischen Thermodynamik als Paradebeispiel für den zweiten Hauptsatz dient.
Das p-Quantil als Umkehrfunktion der Verteilungsfunktion und der Spezialfall des Medians als p-Quantil zur Wahrscheinlichkeit p = 0.5 werden vorgestellt.
Das Modellsystem mit äquidistanten Energieniveaus wird mit einer einfachen Dynamik ausgestattet, die es erlaubt Energie zwischen zwei Molekülen auszutauschen. Damit lässt sich beobachten, welche Folge von Zuständen das System einnimmt, wenn man es in einem unwahrscheinlichen Mikrozustand startet. Die vorgestellten Simulationen und ihre Auswertung liefern weitere Illustrationen der Konzepte der statistischen Mechanik: Mikro- und Makrozustände, statistische Interpretation des zweiten Hauptsatzes der Thermodynamik.
Die Funktion sample() wird verwendet, um Stichproben zu erzeugen. Damit dies nicht zu unerwünschtem Verhalten führt, muss man wissen, dass der Aufruf an sample.int() weitergereicht wird, wenn die Menge, aus der ein Objekt ausgewählt werden soll, nur ein Element besitzt. Es wird ein Beispiel ausführlich besprochen, bei dem eine naheliegende Implementierung zu unerwarteten Ergebnissen führt.
Die Konzepte Mikrozustand, Makrozustand, Gleichverteilungs-Postulat und Boltzmann-Entropie der statistischen Mechanik werden mit Hilfe einfacher Simulationen erläutert.
Für das Modellsystem mit unabhängigen Teilchen, die äquidistante Energieniveaus besitzen, werden die wichtigsten statistischen und thermodynamischen Größen berechnet.
Nach dem Postulat der statistischen Mechanik besitzen alle Mikrozustände, die ein System annehmen kann, die gleiche Wahrscheinlichkeit. Für zahlreiche Simulationen benötigt man einen Zufallsgenerator, der diese gleichverteilten Mikrozustände erzeugt. Dieser Zufallsgenerator wird in der Programmiersprache R entwickelt, die Erklärungen sind aber so allgemein gehalten, dass man sie leicht in eine andere Programmiersprache übersetzen kann.
In den vorausgegangenen Kapiteln wurden die Abzählprobleme behandelt, die sich ergeben, wenn ein thermodynamisches System entweder auf der Ebene der Mikrozustände oder der Makrozustände beschrieben wird. Vergleicht man diese Ergebnisse mit den Gleichungen der phänomenologischen Thermodynamik, kann man eine statistische Definition der Entropie ableiten und damit eine (statistische) Erklärung des zweiten Hauptsatzes der Thermodynamik liefern. Die Boltzmann-Entropie wird mit Hilfe der Anzahl der Mikrozustände pro Makrozustand definiert und besitzt die Eigenschaften, die man innerhalb der Thermodynamik an die Entropie stellt.
Die geometrische Verteilung wird verwendet, um Wartezeiten zu modellieren. Die grundlegenden Eigenschaften wie Erwartungswert, Varianz, Standardabweichung, die Verteilungsfunktion und insbesondere der Zusammenhang zur Binomialverteilung und die sogenannte Gedächtnislosigkeit werden besprochen.
Es werden zwei Anwendungen des Entropiesatzes besprochen. Zum Einen warum Wärme immer vom wärmeren zum kälteren Körper strömt und niemals umgekehrt. Zum Anderen die Entropieproduktion bei einem Mischvorgang. Dabei wird geklärt, für welchen Rechenschritt welcher Hauptsatz der Thermodynamik verwendet wird.
Für ein einfaches Modellsystem wird untersucht, welcher Makrozustand durch die meisten Mikrozustände realisiert wird und wie sich dieser Makrozustand charakterisieren lässt. Dabei werden die zugehörigen Abzählprobleme näherungsweise gelöst, da ihre exakte Lösung nur für sehr kleine Teilchenzahlen möglich ist. Die Methoden für diese Näherungen werden ausführlich besprochen: Stirling-Formel und Suche nach dem Maximum eines Multinomialkoeffizienten unter Nebenbedingung (mit Lagrange-Multiplikatoren).
Die statistische Mechanik versucht das makroskopische Verhalten von Materie zu erklären, indem anstelle einer detaillierten mikroskopischen Beschreibung Vergröberungen vorgenommen und statistische Methoden angewendet werden. Ein zentrales Konzept ist dabei die Definition von Makrozuständen, die Äquivalenzklassen auf der Menge der Mikrozustände erzeugen. Dieses Konzept und welche Abzählprobleme dabei entstehen, wird an einem einfachen Modellsystem erklärt.