Grundbegriffe der Wahrscheinlichkeitsrechnung: Diskrete und stetige Zufallsvariablen

Zufallsvariablen können diskrete oder kontinuierliche Werte annehmen. Die mathematische Beschreibung unterscheidet sich, da die Wahrscheinlichkeiten der Werte der Zufallsvariable entweder mit Folgen oder indirekt über eine Wahrscheinlichkeitsdichte angegeben werden. Diese Beschreibung wird an speziellen Verteilungen demonstriert: diskrete Gleichverteilung, Poisson-Verteilung, kontinuierliche Gleichverteilung, Standard-Normalverteilung.

walter

03 Mai. 2020

Normalverteilung diskrete Zufallsvariable kontinuierliche Zufallsvariable Poisson-Verteilung Verteilungsfunktion Standard-Normalverteilung geometrische Verteilung Gleichverteilung Zufallsvariable Ereignis Wahrscheinlichkeitsdichte stetige Zufallsvariable

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Grundbegriffe der Wahrscheinlichkeitsrechnung: Zufallsexperiment und Wahrscheinlichkeit
  - Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Axiome von Kolmogorov
  - Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Zufallsvariable
  - Grundbegriffe der Wahrscheinlichkeitsrechnung: Diskrete und stetige Zufallsvariablen

Einführung

In Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Zufallsvariable wurde versucht, eine allgemeine Definition des Begriffs Zufallsvariable zu geben. Allerdings wurde dort noch nicht auf die Unterscheidung zwischen diskreten und stetigen Zufallsvariablen eingegangen (Letztere werden oft als kontinuierliche Zufallsvariablen bezeichnet).

Die Beispiele für Zufallsvariablen, die in Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Zufallsvariable besprochen wurden, waren allesamt diskrete Zufallsvariablen. Jetzt sollen auch für stetige Zufallsvariablen einige Beispiele gezeigt und erste Eigenschaften diskutiert werden. Insbesondere wird der Begriff der Verteilungsfunktion eingeführt.

Es soll hier schon darauf hingewiesen werden, dass eine "saubere" Definition der stetigen Zufallsvariablen mit hohem mathematischen Aufwand verbunden ist. Strenge Definitionen und eine Diskussion ihrer Schwierigkeiten werden in der Wahrscheinlichkeitstheorie oder Maßtheorie gegeben. Hier soll lediglich eine Einführung in die Wahrscheinlichkeitsrechnung gegeben werden, die an den Umgang mit Zufallsvariablen heranführt. In den hier besprochenen Beispielen – wie in allen einfachen Anwendungen – treten die angedeuteten Schwierigkeiten nicht auf.

Die folgende Tabelle gibt eine Übersicht, welche speziellen Verteilungen hier besprochen werden; ausführlicher werden sie erst diskutiert, wenn weitere Eigenschaften von Zufallsvariablen bekannt sind (wie Erwartungswert, Varianz und Standardabweichung).

diskrete Zufallsvariable mit endlich vielen Werten	diskrete Zufallsvariable mit unendlich vielen Werten	stetige Zufallsvariable
Gleichverteilung	geometrische Verteilung	Gleichverteilung
Strategien beim Würfeln	Poisson-Verteilung	Standard-Normalverteilung

Tabelle 1: Einteilung der Zufallsvariablen in drei Gruppen und Beispiel, die später besprochen werden.

Die Unterscheidung zwischen diskreten und stetigen Zufallsvariablen

Aus den Ausführungen in Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Zufallsvariable sollte klar geworden sein, dass Wahrscheinlichkeiten eigentlich für Ereignisse definiert sind und dass Zufallsvariablen das geeignete Hilfsmittel sind, um Ereignisse auszudrücken und deren Wahrscheinlichkeiten zu berechnen. Zufallsvariablen werden meist in diskrete und stetige (oder kontinuierliche) Zufallsvariable eingeteilt; ihre Eigenschaften werden in den folgenden Kapiteln untersucht und es werden spezielle Wahrscheinlichkeitsverteilungen angegeben.

Charakterisierung von diskreten Zufallsvariablen

Besitzt eine Ergebnismenge Ω endlich oder abzählbar unendlich viele Elemente:

Ω = {ω₁, ω₂, ...},

so kann man problemlos ihre Potenzmenge P(Ω) bilden; zur Erinnerung: die Potenzmenge P(Ω) ist die Menge aller Teilmengen von Ω. Und jede Ereignisalgebra auf Ω stimmt entweder mit P(Ω) überein oder ist eine echte Teilmenge von P(Ω).

Aber dann definiert jede Folge nicht-negativer Zahlen (p_n) mit

p₁ + p₂ + ... = 1, p_n ≥ 0,

ein Wahrscheinlichkeitsmaß P auf Ω, wenn

P(ω_n) = p_n für alle n. Dabei sollen die Punkte ... in der Summe andeuten, dass die Summation

entweder abbricht, wenn Ω endlich viele Elemente hat,
oder die sich die Summation ins Unendliche erstreckt, wenn Ω abzählbar viele Elemente hat.

Die Ergebnismenge Ω und die Folge der Wahrscheinlichkeiten (p_n) sind in Abbildung 1 links dargestellt

Mit diesen Vorbereitungen lässt sich leicht ein Zusammenhang zu Zufallsvariablen herstellen (siehe Abbildung 1 oben): Eine reelle Zufallsvariable war definiert als eine Abbildung

X : Ω → R.

Ist durch eine Folge (p_n) ein Wahrscheinlichkeitsmaß auf Ω gegeben, so kann man für jedes x aus der Wertemenge von X die Menge

X^-1 (x)

bilden und kann dieser eine Wahrscheinlichkeit

P(X^-1 (x))

zuordnen. Man muss dazu nur die Elementarereignisse ω_i aus X^-1 (x) aufsuchen und deren Wahrscheinlichkeiten aufsummieren.

Falls X tatsächlich jedem Elementarereignis ω einen anderen Wert zuordnet (die Abbildung X ist injektiv), dann stimmt die von X induzierte Ereignisalgebra mit der Potenzmenge P(Ω) überein. In diesem Fall hat die Wertemenge von X genau so viele Elemente wie Ω.

Gibt es dagegen zu einem Wert x von X mehrere Elementarereignisse (jetzt ist X nicht injektiv), wird eine kleinere Ereignisalgebra induziert (dies wurde unter als Vergröberung in Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Zufallsvariable diskutiert). In diesem Fall kann die Wertemenge von X weniger Elemente als Ω haben.

Abbildung 1: Versuch einer graphischen Darstellung, wie eine Zufallsvariable X ein Maß auf der Wertemenge von X induziert. (Genauer müsste man dazu eigentlich mit der zugehörigen Ereignisalgebra argumentieren; da diese im diskreten Fall unproblematisch ist, wird sie hier weggelassen.)

Und jetzt wird die Sichtweise lediglich umgekehrt:

Man spricht von einer diskreten Zufallsvariable X, wenn sie auf einem diskreten Ergebnisraum Ω definiert ist; dabei steht diskret für endlich oder abzählbar unendlich. Die Anzahl der Werte, die X annehmen kann, ist entweder endlich oder abzählbar unendlich.

Die Folge der Wahrscheinlichkeiten der Elementarereignisse (p_n) induziert jetzt Wahrscheinlichkeiten der Art

P(X = x),

das heißt man kann den Werten der Zufallsvariable X Wahrscheinlichkeiten zuordnen.

Oder etwas abstrakter gesprochen: Die Abbildung X induziert ein Wahrscheinlichkeitsmaß auf der Wertemenge von X. Dieses Wahrscheinlichkeitsmaß wird oft als die Verteilung der Zufallsvariable X bezeichnet.

Paradebeispiel für eine diskrete Zufallsvariable auf einem endlichen Ω ist die Augenzahl X beim Würfeln: Die Zufallsvariable X nimmt die Werte 1, 2, ..., 6 an – bei einem Laplace-Würfel jeweils mit Wahrscheinlichkeit 1/6 (siehe Abbildung 2 unten). Hier ist es schwer zwischen den Wahrscheinlichkeiten auf den Elementarereignissen und der Verteilung der Zufallsvariable zu unterscheiden, da die Zufallsvariable X gleich der identischen Abbildung ist. Überzeugender ist dann das Beispiel unten mit den Strategien beim Würfeln (siehe Abbildung 3).

Beispiele für diskrete Zufallsvariablen auf einer Ergebnismenge mit abzählbar unendlich vielen Elemente werden weiter unten besprochen. Jetzt benötigt man eine gegen null konvergierende Folge nicht-negativer Zahlen (p_n), die die Wahrscheinlichkeiten der Elementarereignisse beschreiben (siehe Abbildung 5 unten für die Poisson-Verteilung).

Charaktarisierung von stetigen Zufallsvariablen

Ist eine Zufallsvariable auf einem kontinuierlichen Ergebnisraum Ω definiert, spricht man von einer stetigen Zufallsvariable. Der Ergebnisraum könnte etwa ein Intervall, die Menge aller reellen Zahlen oder eine höherdimensionale Menge sein.

Als Paradebeispiel kann das Schießen auf eine Zielscheibe mit Radius Z dienen. Es wird angenommen, dass jeder Schuss die Zielscheibe in einem Punkt (x, y) trifft, die Ergebnismenge ist folglich:

Ω = {(x, y): x² + y² ≤ Z²}.

Dabei wird angenommen, dass jeder Schuss die Zielscheibe trifft, zufällig ist, wo er trifft.

Als Beispiel einer stetigen Zufallsvariable R kann man jetzt die Abbildung auf Ω betrachten, die einem Elementarereignis (x, y) den Abstand r vom Mittelpunkt der Zielscheibe zuordnet, also

R : Ω → [0; Z], (x, y) → r, mit r² = x² + y².

Die Wertemenge dieser Zufallsvariable ist das Intervall [0; Z], also eine kontinuierliche Menge.

Die Vorgehensweise, die oben für die Charakterisierung von diskreten Zufallsvariablen beschrieben wurde, lässt sich auf diesen Fall nicht anwenden: Ordnet man jetzt jedem Elementarereignis ω eine Wahrscheinlichkeit P(ω) zu, ergibt die Summe aller Wahrscheinlichkeiten nicht mehr 1. Somit ist vorerst völlig unklar, wie man in diesem Fall Wahrscheinlichkeiten von Ereignissen der Art

P(R = r) oder P(R = I)

definieren soll; dabei ist r eine reelle Zahl (also ein spezieller Radius eines Kreises auf der Zielscheibe) und I ein reelles Intervall in [0; Z] (R = I steht also für das Ereignis, dass der Radius im Intervall I liegt).

Das Beispiel der Zielscheibe zeigt noch eine Schwierigkeit: Versucht man den Radius r zu messen, gibt es keine beliebig hohe Messgenauigkeit und daher gibt es eigentlich nur endlich viele mögliche Werte: Man kann die Zielscheibe lediglich in endlich viele Kreisringe einteilen – aber dann liegt eine diskrete Zufallsvariable vor. Die späteren Untersuchungen zu Zufallsvariablen werden zeigen, dass oft stetige Zufallsvariablen verwendet werden, um diskrete Zufallsvariablen zu approximieren oder umgekehrt. In vielen Anwendungen entscheidet man sich nicht für das angemessene, sondern das mathematisch leichter zu bewältigende Modell. Daher ist es wichtig, beide Arten von Zufallsvariablen zu kennen, um ein geeignetes Modell auszuwählen.

Die genauere Beschreibung der stetigen Zufallsvariablen folgt weiter unten; zunächst sollen die diskreten Zufallsvariablen untersucht werden, was den Zugang zu den stetigen Zufallsvariablen erleichtert.

Diskrete Zufallsvariablen

Diskrete Zufallsvariablen mit endlich vielen Werten

1. Beispiel: Augenzahl beim Würfeln

Das Paradebeispiel einer diskreten Zufallsvariable mit endlich vielen Werten ist die Zufallsvariable X, die die Augenzahl beim Würfeln angibt. Ihre Wertemenge ist

W_X = {1, 2, 3, 4, 5, 6},

die zugleich mit der Ergebnismenge Ω übereinstimmt. Fasst man X als Funktion auf Ω auf, so ist X die identische Abbildung.

Beim Laplace-Würfel wird angenommen, dass jede Augenzahl mit gleicher Wahrscheinlichkeit angenommen wird, also

P(X = x) = 1/6 für x ∈ W_X.

Man spricht in dem Fall, in dem jeder Wert einer Zufallsvariable mit gleicher Wahrscheinlichkeit angenommen wird, von einer Gleichverteilung.

Um die Eigenschaften einer Zufallsvariable prägnant darzustellen, wählt man meist das Stabdiagramm, siehe Abbildung 2.

Abbildung 2: Darstellung der Verteilung der Zufallsvariable X (Augenzahl beim Würfeln eines Laplace-Würfels) im Stabdiagramm.

Im Stabdiagramm sind auf der x-Achse die möglichen Werte der Zufallsvariable aufgetragen, auf der y-Achse ihre Wahrscheinlichkeiten.

2. Beispiel: verschiedene Strategien beim Würfeln

In Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Zufallsvariable wurden bereits zwei Strategien vorgestellt, die man beim Würfeln anwenden kann:

Herr Forsch setzt immer auf die 6 und gewinnt 5 EUR, wenn sie erscheint; andernfalls geht sein Einsatz von 1 EUR verloren.
Herr Scheu setzt auf die geraden Zahlen 2, 4, 6 und gewinnt 1 EUR, wenn eine gerade Zahl erscheint; andernfalls geht sein Einsatz von 1 EUR verloren.

(Der angegebene Gewinn ist jeweils der Nettogewinn).

Die Strategien werden durch die Zufallsvariablen F und S beschrieben. Ihre Wertemengen sind:

W_F = {-1, 5} und W_S = {-1, 1}.

Möchte man noch nachvollziehen, wie das Elementarereignis den Wert der Zufallsvariable beschreibt, wählt man folgende Darstellung:

ω	1	2	3	4	5	6
F(ω)	-1	-1	-1	-1	-1	+5
S(ω)	-1	+1	-1	+1	-1	+1

Tabelle 2: Der Nettogewinn für die Herren Forsch und Scheu ausgedrückt als Zufallsvariable F und S.

Ist man dagegen nur noch an den Werten der Zufallsvariablen und ihren Wahrscheinlichkeiten interessiert, stellt man sie wie in Tabelle 3 dar.

F	-1	+5
P(F = x)	5/6	1/6
S	-1	+1
S(F = x)	1/2	1/2

Tabelle 3: Die Werte der Zufallsvariablen F und S sowie die Wahrscheinlichkeiten, mit denen diese Werte angenommen werden (mit Laplace-Annahme für den Würfel).

Tabelle 3 zeigt nur noch diejenige Information, die man auch in einem Stabdiagramm für die Zufallsvariablen F und S ablesen kann (siehe Abbildung 3); welches Elementarereignis beim Würfeln eintritt, ist unmittelbar nicht mehr zu erkennen. Dargestellt ist nur die Verteilung der Zufallsvariablen F und S; diese Verteilungen werden aus den Wahrscheinlichkeiten für die Elementarereignisse durch die Zufallsvariablen induziert (siehe auch Abbildung 1).

Abbildung 3: Darstellung der Verteilungen der Zufallsvariablen F und S aus Tabelle 2 beziehungsweise 3; Erklärung im Text.

Diskrete Zufallsvariablen mit unendlich vielen Werten

Die geometrische Verteilung

In Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Axiome von Kolmogorov wurde bereits die geometrische Verteilung besprochen, aber dort wurden alle Aussagen mit Hilfe von Ereignissen und ohne Zufallsvariablen formuliert. Dort wurde zum Beispiel nach der Wahrscheinlichkeit des Ereignisses

"Nach n Würfen erscheint die erste 6, mit n = 1, 2, 3, ..."

gefragt. Definiert man die Zufallsvariable X durch "die Anzahl der Würfe, nach denen die erste 6 erscheint", so lässt sich die Wahrscheinlichkeit des obigen Ereignisses beschreiben durch:

P(X = n), n = 1, 2, 3, ... und es gilt P(X = n) = 5^n-1 / 6ⁿ.

(Es wird n-1 mal keine 6 geworfen und anschließend eine 6.)

Das Beispiel soll hier nicht weiter besprochen werden.

Aufgabe: Übersetzen Sie die Aussagen in Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Axiome von Kolmogorov in Aussagen über die Zufallsvariable X.

Die Poisson-Verteilung

Als zweites Beispiel für eine Zufallsvariable X_λ, die unendlich viele Werte annehmen kann, wird die Poisson-Verteilung gewählt. Sie nimmt ganze Zahlen k = 0,1, 2, ... an, die beliebig groß sein können und besitzt einen Parameter λ > 0. Die Wahrscheinlichkeit für X_λ = k ist durch Gleichung (1) in Abbildung 4 gegeben. Gleichung (2) in Abbildung 4 zeigt, wie sich die Wahrscheinlichkeiten dafür, dass X den Wert k annimmt, tatsächlich zu 1 summieren; man verwendet dabei die Taylor-Entwicklung der Exponentialfunktion.

Abbildung 4: Die Berechnung der Wahrscheinlichkeiten der Poisson-Verteilung sowie ihre wichtigsten Eigenschaften.

Für k = 0 nimmt die Poisson-Verteilung stets einen echt positiven Wert an (siehe Gleichung (3) in Abbildung 4).

Abbildung 5 zeigt die Wahrscheinlichkeiten der Poisson-Verteilung für verschiedene Werte des Parameters λ.

Abbildung 5: Die Poisson-Verteilung jeweils für k = 0, 1, ..., 10 für 4 verschiedene Werte von λ.

Die Poisson-Verteilung wird oft als Näherung benutzt, wenn eine Zufallsvariable mit hoher Wahrscheinlichkeit kleine Werte annimmt, aber auch beliebig große Werte vorkommen können. Etwa für die Anzahl der Anrufe, die pro Stunde in einer Notrufzentrale eingehen.

Die Verteilungsfunktion einer diskreten Zufallsvariable

Im Stabdiagramm lassen sich die Wahrscheinlichkeiten der Werte einer Zufallsvariable ablesen. In einer vergröberten Sichtweise auf ein Zufallsexperiment begnügt man sich oft mit der Frage nach der Wahrscheinlichkeit dafür, dass eine Zufallsvariable X einen Wert kleiner oder gleich x annimmt:

P(X ≤ x)

oder nach der Wahrscheinlichkeit dafür, dass der Wert von X zwischen zwei Zahlen a und b liegt:

P(a ≤ X ≤ b).

Um diese Fragen schnell beantworten zu können, wird die Verteilungsfunktion einer Zufallsvariable F(x) eingeführt:

F(x) = P(X ≤ x).

Man kann sich das Verfahren zur Berechnung von F(x) am Stabdiagramm leicht veranschaulichen:

Man beginnt bei x → - ∞ mit F(x) = 0 und bewegt sich nach rechts.
Immer wenn man an einem Wert x_i vorbeikommt, den die Zufallsvariable X annehmen kann, wird zu F(x) die entsprechende Wahrscheinlichkeit P(X = x_i) addiert.
Da alle Wahrscheinlichkeiten in der Summe eins ergeben müssen, ist ab dem größten Wert, den die Zufallsvariable annimmt, F(x) = 1.

Die Verteilungsfunktion berechnet somit die kumulierten Summen der Wahrscheinlichkeiten, wobei die Summation immer von kleinsten zu den größten Werten der Zufallsvariable läuft.

Abbildung 6 zeigt die Verteilungsfunktion für die Zufallsvariable Augenzahl des Laplace--Würfels.

Abbildung 6: Die Verteilungsfunktion der Zufallsvariable X (Augenzahl beim Würfeln), die in Abbildung 2 als Stabdiagramm dargestellt war.

Vergleicht man Abbildung 2 mit Abbildung 6, so ist klar, dass die Verteilungsfunktion genau an den x-Werten eine Sprungstelle besitzt, die zur Wertemenge der Zufallsvariable X gehören. Allerdings ist in Abbildung 6 nicht eindeutig zu erkennen, wie die Verteilungsfunktion an den Sprungstellen definiert ist: So wie oben die Konstruktion der Verteilungsfunktion aus dem Stabdiagramm beschrieben wurde, gilt:

Ist X = x, so ist F(x) = P(X ≤ x) und somit ist F(x) an Sprungstellen rechtsseitig stetig (und linksseitig unstetig).

Für zwei unterschiedliche Zahlen a und b mit a < b gilt:

P(a ≤ X ≤ b) = F(b) - F(a).

Ausblick: Die Verteilungsfunktion mag an dieser Stelle wenig hilfreich erscheinen, da sie die im Stabdiagramm enthaltene Information nur anders aufbereitet. Bei stetigen Zufallsvariablen wird die Verteilungsfunktion deutlich häufiger eingesetzt.

Wirklich relevant wird die Verteilungsfunktion, wenn man eine Generator für Zufallszahlen implementieren möchte, die keinem Laplace-Experiment entsprechen. Denn für ein Laplace-Experiment bieten die meisten Programmiersprachen einen Generator von Zufallszahlen an; mit Hilfe der Verteilungsfunktion kann er schnell zu einem Generator für Zufallszahlen bezüglich beliebiger Wahrscheinlichkeiten umgebaut werden.

Warnung: Der Begriff Verteilung wird in der Wahrscheinlichkeitsrechnung in den unterschiedlichsten Bedeutungen eingesetzt – und oft nicht streng definiert, sondern wie ein umgangssprachlicher Begriff mit vager Bedeutung verwendet. Verwenden Sie zumindest den Begriff der Verteilungsfunktion nur so, wie er hier eingeführt wurde. Gerade bei stetigen Zufallsvariablen kann es leicht zu einer Verwechslung der Wahrscheinlichkeitsdichte und der Verteilungsfunktion kommen – im nächsten Abschnitt wird sofort erklärt, worin sie sich unterscheiden.

Und achten Sie beim Umgang mit Literatur immer darauf, wie die Begriffe Verteilung und Verteilungsfunktion eingesetzt werden.

Aufgaben:

1. Diskussion der Poisson-Verteilung

In den Abbildungen 7 und 8 sind dargestellt:

Die Verteilungsfunktionen zu den Poisson-Verteilungen aus Abbildung 5.
Die selben Verteilungsfunktionen nochmals, jetzt sind aber (gestrichelt) die Einzel-Wahrscheinlichkeiten zu erkennen.

Abbildung 7: Die Verteilungsfunktion der Poisson-Verteilung für λ = 1, 2, 3, 4. Die rechtsseitige Stetigkeit der Verteilungsfunktion wird durch die Kreise an den Sprungstellen ausgedrückt.

Abbildung 8: Zusätzlich zu den Verteilungsfunktionen der Poisson-Verteilung sind die Einzel-Wahrscheinlichkeiten (gestrichelt) eingezeichnet.

Diskutieren Sie anhand dieser Abbildungen die Eigenschaften der Verteilungsfunktion und der Poisson-Verteilung.

2. Die diskrete Gleichverteilung

Oben wurde als Beispiel für eine Gleichverteilung die Augenzahl beim Würfeln vorgestellt.

Diskutieren Sie, ob es eine Gleichverteilung auf der Menge der natürlichen Zahlen oder einer anderen abzählbaren Menge geben kann.

Stetige Zufallsvariablen

Wahrscheinlichkeitsdichte und Verteilungsfunktion

Bei diskreten Zufallsvariablen macht die Berechnung von Wahrscheinlichkeiten keine Schwierigkeiten, da man jedem Elementarereignis eine Wahrscheinlichkeit zuordnen kann. Oftmals ist dies gar nicht nötig, da man nur an einer vergröberten Sichtweise interessiert ist. Aber dann werden lediglich mehrere Elementarereignisse zu einem Ereignis zusammengefasst und die Berechnung von Wahrscheinlichkeiten ist ebenso problemlos.

Bei stetigen Zufallsvariablen ist die Situation grundlegend verschieden: Denkt man etwa an das oben genannte Beispiel "Schießen auf eine Zielscheibe", so ist ein Elementarereignis ein reelles Zahlenpaar (x, y). Würde man dem Elementarereignis eine endliche Wahrscheinlichkeit zuordnen, kann die Gesamtwahrscheinlichkeit nicht mehr 1 betragen, da es überabzählbar viele Elementarereignisse gibt. Das selbe Problem besteht für die Zufallsvariable R, die die Entfernung des Treffers vom Mittelpunkt der Zielscheibe angibt: Besitzt P(R = r) eine endliche Wahrscheinlichkeit und summiert man alle Wahrscheinlichkeiten P(R = r) auf, erhält man nicht 1. Daran erkennt man, dass Wahrscheinlichkeitsmaße auf kontinuierlichen Ergebnismengen Ω und stetige Zufallsvariablen mathematisch anspruchsvoller sind als diskrete Ergebnismengen und diskrete Zufallsvariablen.

Aber es ist nicht nötig, einem Elementarereignis eine Wahrscheinlichkeit zuzuordnen: Nur ein Intervall von Ergebnissen muss eine endliche Wahrscheinlichkeit besitzen. Beschreibt die Zufallsvariable R den Abstand des Treffers auf der Zielscheibe vom Mittelpunkt, so muss

P(a ≤ R ≤ b) für a < b

einen endlichen Wert besitzen.

Realisieren lässt sich dies mit Hilfe der Integralrechnung: Man definiert anstelle der Wahrscheinlichkeit der Elementarereignisse eine sogenannte Wahrscheinlichkeitsdichte und berechnet Wahrscheinlichkeiten als Integrale. In Abbildung 9 sind die entsprechenden Formeln zusammengestellt:

Die Wahrscheinlichkeitsdichte einer reellen Zufallsvariable X wird hier mit f(x) bezeichnet; f ist eine Funktion auf der Menge der reellen Zahlen und darf nur nicht-negative Werte annehmen (Gleichung 1). Der Wert der Funktion f(x) wird nicht als Wahrscheinlichkeit interpretiert und kann daher auch größer als 1 sein.
Integriert man die Wahrscheinlichkeitsdichte über alle reellen Zahlen, muss sich 1 ergeben: dies ist die Normierung der Wahrscheinlichkeit.
Wahrscheinlichkeiten der Art P(a ≤ X ≤ b) berechnen sich als Integrale (Gleichung 3).
Die Verteilungsfunktion F(x) zur Wahrscheinlichkeitsdichte f(x) definiert man analog wie bei diskreten Zufallsvariablen: anstelle der Summation tritt jetzt die Integration (Gleichung 4).
Für die Verteilungsfunktion müssen dann die beiden Grenzwerte in Gleichung 5 gelten.

Abbildung 9: Eigenschaften von Wahrscheinlichkeitsdichte und Verteilungsfunktion einer stetigen Zufallsvariable X.

Damit sollte auch verständlich sein, woher der Name "stetige" Zufallsvariable kommt: Die Verteilungsfunktion entsteht aus einer Integration und muss daher stetig sein. Man beachte, dass die Wahrscheinlichkeitsdichte nicht stetig sein muss. Im folgenden Abschnitt ist eine der wichtigsten Wahrscheinlichkeitsdichten gezeigt: Die Indikatorfunktion; sie macht endliche Sprünge und nimmt nur zwei Werte an. Ihre Verteilungsfunktion ist abschnittsweise durch Geraden definiert und stetig.

Die Gleichverteilung

Das kontinuierliche Analogon zum Laplace-Würfel ist die Gleichverteilung auf einem Intervall. Angenommen eine Zufallsvariable X kann Werte in einem Intervall [a; b] annehmen, mit a < b, wobei jeder dieser Werte gleich wahrscheinlich sein soll. Werte außerhalb des Intervalls sollen nicht vorkommen (oder "mit Wahrscheinlichkeit 0 angenommen werden"). Dann muss die Wahrscheinlichkeitsdichte auf dem Intervall konstant und außerhalb gleich null sein.

Abbildung 10 zeigt oben den einfachsten Fall mit [a; b] = [0; 1]. Dabei wird die sogenannte Indikatorfunktion 1_{[0; 1]} (x) für das Intervall [0; 1] eingesetzt: sie erlaubt eine kompakte Darstellung der Sprungfunktion mit Funktionswerten 0 und 1.

Abbildung 10: Wahrscheinlichkeitsdichte und Verteilungsfunktion einer stetigen Zufallsvariable X, die Werte in einem Intervall mit jeweils gleicher Wahrscheinlichkeit annimmt.

In der Mitte wird die zugehörige Verteilungsfunktion angegeben, die durch Integration aus der Wahrscheinlichkeitsdichte entsteht. Insbesondere erkennt man hier, dass aus der unstetigen Wahrscheinlichkeitsdichte eine stetige Verteilungsfunktion entsteht.

Für beliebige Zahlen a und b mit a < b, ist die Wahrscheinlichkeitsdichte der Gleichverteilung in Abbildung 10 unten gezeigt. Den Vorfaktor 1/(b-a) kann man sich leicht erklären: Damit die Normierungsbedingung erfüllt ist, muss man die Funktion 1_{[a; b]} (x) durch die Intervalllänge b - a teilen.

Die zugehörige Verteilungsfunktion ist 0 oder 1 auf der linken beziehungsweise rechten Seite des Intervalls [a; b] und eine ansteigende Gerade innerhalb des Intervalls (durch den Vorfaktor aber nicht mit Steigung 1).

Aufgabe: Berechnen Sie die Verteilungsfunktion zur Gleichverteilung auf dem Intervall [a; b].

Skizzieren Sie sowohl die Wahrscheinlichkeitsdichte als auch die Verteilungsfunktion.

Die Standard-Normalverteilung

Die Standard-Normalverteilung ist ein Spezialfall der Normalverteilung. Wie Letztere definiert ist und was man unter Standardisierung einer Zufallsvariable versteht, wird erst erklärt, nachdem die Begriffe Erwartungswert und Varianz einer Zufallsvariable eingeführt werden.

Die Wahrscheinlichkeitsdichte der Standard-Normalverteilung ist in Abbildung 11 in Gleichung (1) zu sehen, ihre graphische Darstellung in Abbildung 12 links. Aufgrund ihrer Form nennt man sie Gaußsche Glockenkurve; der Name Gauß ist mit der Standard-Normalverteilung deswegen verbunden, weil er wichtige Arbeiten geliefert hat, die den universellen Charakter der Standard-Normalverteilung zeigen.

Obwohl die Wahrscheinlichkeitsdichte durch die Exponentialfunktion dargestellt werden kann, ist es nicht möglich, ihre Verteilungsfunktion (siehe Gleichung (3) in Abbildung 11) als geschlossenen Ausdruck anzugeben. (Falls Sie es nicht glauben: Versuchen Sie eine Stammfunktion zur Wahrscheinlichkeitsdichte zu finden!)

Abbildung 11: Definition und Eigenschaften der Standard-Normalverteilung.

Die Verteilungsfunktion der Standard-Normalverteilung ist in Abbildung 12 rechts dargestellt. Die Wahrscheinlichkeitsdichte und die Verteilungsfunktion haben einfache Symmetrie-Eigenschaften (siehe Gleichung (4) in Abbildung 11):

Die Wahrscheinlichkeitsdichte ist symmetrisch zur y-Achse.
Die Verteilungsfunktion ist punktsymmetrisch zum Punkt x = 0, y = 1/2.

Abbildung 12: Die Wahrscheinlichkeitsdichte und die Verteilungsfunktion der Standard-Normalverteilung.

Die universelle Bedeutung der Standard-Normalverteilung kann man hier nur andeuten. Man könnte sie zum Beispiel als Modell verwenden für obiges "Schießen auf eine Zielscheibe": Möchte man angeben, mit welcher Wahrscheinlichkeit ein Punkt auf der Zielscheibe mit x-Koordinate x getroffen wird, könnte man die Wahrscheinlichkeitsdichte einer "geeigneten" Normalverteilung verwenden. Was hier unter "geeignet" zu verstehen ist, kann erst im Zusammenhang mit der Standardisierung einer Zufallsvariable erklärt werden. Aber man erkennt in Abbildung 12, was damit gemeint sein kann:

Die Wahrscheinlichkeitsdichte konzentriert sich in der Umgebung von x = 0, das heißt man wird mit hoher Wahrscheinlichkeit etwa die Mitte der Zielscheibe treffen.
In großem Abstand von x = 0 geht die Wahrscheinlichkeitsdichte sehr schnell gegen null, das heißt große Abweichungen vom Mittelpunkt sind sehr unwahrscheinlich.

Die Standardisierung muss dafür sorgen, eine beliebige Zielscheibe und die Qualitäten eines beliebige Schützen mit der Wahrscheinlichkeitsdichte der Standard-Normalverteilung in Verbindung zu bringen.

Weitere Anwendungen der Standard-Normalverteilung sind:

In der kinetischen Gastheorie wird die Verteilung der Geschwindigkeiten eines Gases mit ihr beschrieben, genauer die Verteilung der Geschwindigkeitskomponenten (Maxwellsche Geschwindigkeitsverteilung).
Da bei jeder Messung einer physikalischen Größe Messungenauigkeiten auftreten, die man etwa für eine Fehlerfortpflanzung berechnen möchte, benötigt man ein Modell dafür, mit welcher Wahrscheinlichkeit Messfehler einer bestimmten Größe vorkommen.
Summen von Zufallsvariablen können unter bestimmten – und zwar eher schwachen – Voraussetzungen mit Hilfe der Normalverteilung approximiert werden.

Wegen ihrer Bedeutung sind die Wahrscheinlichkeitsdichte und die Verteilungsfunktion der Standard-Normalverteilung in nahezu allen Formelsammlungen tabelliert und man kann in allen Programmiersprachen oder Tabellenkalkulationsprogrammen leicht auf ihre Werte zugreifen.

Schießen auf die Zielscheibe

Damit soll endlich das bereits mehrfach zitierte Beispiel des Schießens auf eine Zielscheibe diskutiert werden; es wird vor allem einen ersten Eindruck vermitteln, wie die Integral- und Differentialrechnung in die Beschreibung von Verteilungen eingehen.

Abbildung 13 zeigt die Zielscheibe mit Radius Z. Nimmt man an, dass jeder Punkt der Zielscheibe mit gleicher Wahrscheinlichkeit getroffen wird und kein Schuss die Zielscheibe verfehlt, so kann man ansetzen: Die Wahrscheinlichkeit dafür, einen Treffer innerhalb eines Kreises mit Radius R zu erzielen, ist gleich dem Verhältnis der Kreisflächen, und zwar einmal mit Radius R und einmal mit Radius Z, siehe Abbildung 13.

Abbildung 13: Schießen auf die Zielscheibe: Anordnung, Verteilungsfunktion und Wahrscheinlichkeitsdichte.

Aber diese Überlegung liefert sofort die Verteilungsfunktion F(R) und die Wahrscheinlichkeitsdichte ρ(R), siehe Abbildung 13:

Das eben beschriebene Flächenverhältnis ist zugleich die Verteilungsfunktion F(R).
Durch Ableitung erhält man die Wahrscheinlichkeitsdichte ρ(R).

Aufgabe:

Wie müssen die y-Achsen in den Diagrammen in Abbildung 13 skaliert sein, damit hier tatsächlich die beschriebene Wahrscheinlichkeitsdichte und Verteilungsfunktion dargestellt sind?