Spezielle Wahrscheinlichkeitsverteilungen: die geometrische Verteilung

Die geometrische Verteilung wird verwendet, um Wartezeiten zu modellieren. Die grundlegenden Eigenschaften wie Erwartungswert, Varianz, Standardabweichung, die Verteilungsfunktion und insbesondere der Zusammenhang zur Binomialverteilung und die sogenannte Gedächtnislosigkeit werden besprochen.

walter

10 Feb. 2021

Standardabweichung Varianz diskrete Zufallsvariable geometrische Verteilung geometrische Reihe Zufallsvariable Gedächtnislosigkeit geometrische Folge Verteilungsfunktion Erwartungswert

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Spezielle Wahrscheinlichkeitsverteilungen
    - Spezielle Wahrscheinlichkeitsverteilungen: die geometrische Verteilung
    - Spezielle Wahrscheinlichkeitsverteilungen: Lösung von Wartezeitproblemen mit Hilfe der geometrischen Verteilung

Einführung

Die geometrische Verteilung wurde schon in mehreren Kapiteln dieses Kurses verwendet, um spezielle Konzepte zu demonstrieren. Wegen ihrer Relevanz werden ihre Eigenschaften hier im Zusammenhang dargestellt. Diese "Relevanz" kann durch zwei Argumente begründet werden:

Die geometrische Verteilung besitzt Verwandtschaft mit zahlreichen anderen Verteilungen; hier wird nur die Verwandtschaft mit der Binomialverteilung diskutiert.
Sie wird eingesetzt, um Wartezeiten zu modellieren. Auch dazu wird nur ein spezielles Beispiel besprochen: Führt man ein Glücksspiel unter gleichen Bedingungen mehrfach hintereinander aus, so kann man die "Wartezeit" bis zum ersten Gewinn mit der geometrischen Verteilung modellieren.

Ausführlich beschrieben werden allgemeinere Wartezeitprobleme in Spezielle Wahrscheinlichkeitsverteilungen: Lösung von Wartezeitproblemen mit Hilfe der geometrischen Verteilung.

Als Eigenschaften der geometrischen Verteilung zum Parameter p werden besprochen:

Berechnung von Erwartungswert, Varianz und Standardabweichung,
Eindeutigkeit des Zusammenhangs von Erwartungswert beziehungsweise Standardabweichung und Parameter p,
Berechnung der Verteilungsfunktion,
Gedächtnislosigkeit.

Eigenschaften der geometrischen Reihe

Die Wahrscheinlichkeiten der geometrischen Verteilung bilden eine geometrische Folge, wobei in vielen Anwendungen die zugehörige geometrische Reihe benötigt wird. Die entsprechenden Definitionen und später nötigen Aussagen sind in Abbildung 1 zusammengestellt.

Abbildung 1: Definition der endlichen und der unendlichen geometrischen Reihe.

Die Definition der geometrischen Verteilung

Die Definition der geometrischen Verteilung ist in Abbildung 2 zu sehen. Man sagt eine Zufallsvariable X gehorcht der geometrischen Verteilung mit Parameter, wenn sie die Werte 1, 2, ... annehmen kann und die Wahrscheinlichkeiten P(X = i) nach Gleichung (1) berechnet werden. Oft wird die Schreibweise mit q = 1 - p aus Gleichung (2) bevorzugt.

Abbildung 2: Definition der geometrischen Verteilung mit Parameter p. Das Paradebeispiel für eine geometrische Verteilung erhält man mit Hilfe der Zufallsvariable X, die angibt, nach wie vielen Würfen zum ersten Mal eine 6 beim Würfeln erscheint.

Achten Sie beim Umgang mit Literatur und Programm-Bibliotheken genau darauf, wie die geometrische Verteilung definiert ist. Die hier vorgestellte Variante ist nicht die einzig mögliche Definition: Hier gibt die Zufallsvariable X die Anzahl der Würfe an bis der erste Treffer erscheint. (Diese Interpretation wird im nächsten Abschnitt näher erläutert.) Oft wird die geometrische Verteilung als die Verteilung der Zufallsvariable Y definiert, die die Anzahl der Nieten angibt bis der erste Treffer erscheint. Die Zufallsvariable Y nimmt somit die Werte 0, 1, 2, ... an und es ist Y = 0, wenn X = 1 und so weiter. Diese Definition wird hier nicht verwendet.

Beispiel für eine Zufallsvariable mit geometrischer Verteilung

Das Paradebeispiel für eine Zufallsvariable X mit geometrischer Verteilung entsteht immer bei einem Glücksspiel, das unter identischen Bedingungen beliebig oft wiederholt wird. Bezeichnet man mit p die Gewinnwahrscheinlichkeit bei einem Spiel und mit q = 1 - p die Wahrscheinlichkeit für eine Niete, so gehorcht die Zufallsvariable X, die angibt, nach wie vielen Spielen zum ersten Mal ein Treffer erscheint, der geometrischen Verteilung (siehe Gleichung (3) in Abbildung 2; dort für die erste 6 beim Würfeln).

Tritt der erste Treffer nach i Spielen ein, so müssen zuvor i-1 Nieten eingetreten sein und die Wahrscheinlichkeit P(X = i) wird durch

q^i-1·p

berechnet, liefert also genau die geometrische Verteilung.

Verwechseln Sie das Ereignis "der erste Treffer tritt nach i Spielen ein" nicht mit dem Ereignis "innerhalb von i Spielen gibt es genau einen Treffer". Die Wahrscheinlichkeiten für dieses Ereignis sind die kumulierten Wahrscheinlichkeiten von X.

In Abbildung 2 sind für den Spezialfall eines Laplace-Würfels einige Wahrscheinlichkeiten der geometrischen Verteilung berechnet. In Abbildung 3 links sind sie als Histogramm dargestellt.

Abbildung 3: Zwei Beispiele für geometrische Verteilungen. Links mit Parameter p = 1/6, rechts mit p = 1/2. Interpretieren kann man die Wahrscheinlichkeiten etwa mit dem ersten Auftreten einer 6 beim Würfeln oder von Kopf beim Münzwurf.

Zum Vergleich zeigt Abbildung 3 rechts die geometrische Verteilung zu p = 1/2, wie sie etwa beim entsprechenden Münzwurf entsteht (die Münze wird so lange geworfen bis zum ersten Mal Kopf erscheint). In beiden Fällen werden die Wahrscheinlichkeiten bis P(X = i) für i =1, 2, ..., 12 berechnet; zum besseren Vergleich sind die y-Achsen identisch skaliert.

Eigenschaften der geometrischen Verteilung

Erwartungswert und Varianz

An Abbildung 3 kann man leicht den qualitativen Zusammenhang zwischen der Gewinn-Wahrscheinlichkeit p und dem Erwartungswert E (X) der Zufallsvariable X erraten: Bei einer hohen Gewinn-Wahrscheinlichkeit wird der erste Treffer sehr früh eintreten und der Erwartungswert ist sehr klein. Ist dagegen die Gewinn-Wahrscheinlichkeit p sehr klein, benötigt man mehr Versuche bis zum ersten Treffer.

Den quantitativen Zusammenhang zwischen p und dem Erwartungswert μ = E (X) kann man entweder durch die Berechnung des Erwartungswertes aus seiner Definition erhalten, wobei man Gleichung (4) aus Abbildung 1 benötigt. Oder man kann folgende einfache Überlegung anstellen:

Der Erwartungswert μ kann nicht kleiner sein als 1. Man muss genau dann mehr als einmal würfeln, wenn im ersten Wurf kein Treffer erscheint – die Wahrscheinlichkeit dafür beträgt 1 - p. Und jetzt kann man sich fragen: wie viele Würfe wird man im Durchschnitt ausführen müssen, bis der erste Treffer erscheint? Da sich am Würfel nichts geändert hat, ist der Erwartungswert wiederum gleich μ, womit man folgende Bestimmungsgleichung für μ aufgestellt hat:

μ = 1 + (1 - p) μ.

Löst man die Gleichung nach μ auf, erhält man:

μ = 1/p.

Aufgabe: Berechnen Sie den Erwartungswert der Zufallsvariable X (Anzahl der Würfe, nach denen zum ersten Mal eine 6 erscheint) mit Hilfe der Definition des Erwartungswertes und Gleichung (4) aus Abbildung 1.

♦ ♦ ♦

Zur Berechnung der Varianz geht man ähnlich vor wie bei der Berechnung des Erwartungswertes aus dessen Definition. Die Rechnung wurde in Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung gezeigt und soll hier nicht wiederholt werden. Abbildung 4 zeigt lediglich das Ergebnis und in Abbildung 5 sind die geometrischen Verteilungen aus Abbildung 3 nochmals dargestellt, wobei jetzt jeweils Erwartungswert und Standardabweichung eingetragen sind.

Abbildung 4: Erwartungswert, Varianz und Standardabweichung der geometrischen Verteilung mit Parameter p.

Abbildung 5: Darstellung der geometrischen Verteilungen zu den Parametern p = 1/6 und p = 1/2 wie in Abbildung 3; zusätzlich eingetragen sind der Erwartungswert μ (rot) und μ ± σ (grün), wodurch die Standardabweichung erkennbar ist.

Aufgabe: Berechnen Sie den Erwartungswert von X² einer Zufallsvariable X, die der geometrischen Verteilung mit Parameter p gehorcht.

Rekonstruktion der Verteilung aus dem Erwartungswert beziehungsweise der Standardabweichung

In Abbildung 4 Gleichung (3) und (4) wurden der Erwartungswert und die Standardabweichung einer geometrisch verteilten Zufallsvariable X mit Parameter p berechnet. Liest man die jeweils rechte Seite der Gleichungen als Funktion von p, so ist dies eine eindeutige Funktion von p.

Mit anderen Worten: Ist von einer Zufallsvariable X bekannt, dass sie geometrisch verteilt ist und kennt man entweder ihren Erwartungswert oder ihre Standardabweichung, dann kann man daraus den Parameter p eindeutig berechnen.

Dazu muss man entweder μ = 1/p oder σ² = (1-p)/p² nach p auflösen.

In Abbildung 6 werden der Erwartungswert (rot) und die Standardabweichung (grün) als Funktion von p aufgetragen. An der Monotonie der beiden Funktionen erkennt man die Eindeutigkeit von p.

Geht p gegen null, so gehen Erwartungswert und Standardabweichung gegen unendlich. Der Grenzfall p → 1 bedeutet – in der bisher verwendeten Interpretation der geometrischen Verteilung –, dass bereits im ersten Spiel ein Gewinn eintreten muss und somit P(X = i) = 0 für i = 2, 3, ... Daher ist der Erwartungswert gleich 1 und die Standardabweichung gleich null.

Abbildung 6: Erwartungswert (rot) und Standardabweichung (grün) der geometrischen Verteilung als Funktion des Parameters p.

Aufgabe: Geben Sie die Formel an, wie der Parameter aus einem gegebenen σ berechnet wird. Warum ist die Lösung eindeutig?

Die Verteilungsfunktion der geometrischen Verteilung

Bisher wurden zu der geometrisch verteilten Zufallsvariable X die Wahrscheinlichkeiten P(X = i) mit i = 1, 2, ... angegeben. Die Verteilungsfunktion F(x) der Zufallsvariable X berechnet die Wahrscheinlichkeiten:

F(x) = P(X ≤ x), wobei x eine beliebige relle Zahl sein kann.

Dazu sollte man sich – in der Interpretation der geometrischen Verteilung mit einem Glücksspiel mit Gewinn-Wahrscheinlichkeit p – die Bedeutung der folgenden Größen klarmachen:

P(X = i) steht für die Wahrscheinlichkeit dafür, dass genau beim i-ten Spiel der erste Treffer eintritt.
P(X ≤ i) steht für die Wahrscheinlichkeit dafür, dass innerhalb der ersten i Spiele der erste Treffer eintritt. Daher ist P(X ≤ i) = P(X = 1) + P(X = 2) + ... + P(X = i).
P(X > i) steht für die Wahrscheinlichkeit dafür, dass der erste Treffer nicht innerhalb der ersten i Spiele eintritt. Daher ist P(X > i) = 1 - P(X ≤ i).

Da die Wahrscheinlichkeiten P(X = i) eine geometrische Folge bilden, lassen sich die Wahrscheinlichkeiten P(X ≤ i) und P(X > i) leicht berechnen, siehe Abbildung 7.

Abbildung 7: Ausdrückliche Berechnung der Wahrscheinlichkeiten P(X = i), P(X ≤ i) und P(X > i) für die geometrische Verteilung mit Parameter p.

In Abbildung 8 sind die Verteilungsfunktionen der Zufallsvariable X mit den Parametern p = 1/6 (links, Würfel) und p = 1/2 (rechts, Münze) dargestellt. Zum besseren Vergleich mit Abbildung 5 sind wieder der Erwartungswert und die Standardabweichung eingetragen.

Abbildung 8: Darstellung der Verteilungsfunktion F(x) für die Verteilungen aus Abbildung 3 beziehungsweise 5.

Die Gedächtnislosigkeit der geometrischen Verteilung

Das Argument, das oben verwendet wurde, um den Erwartungswert der geometrischen Verteilung zu berechnen, mag aus mehreren Gründen befremden:

Zur Berechnung des Erwartungswertes muss eigentlich eine unendliche Summe ausgewertet werden, hier wird aber ein Ansatz mit nur zwei Summanden verwendet.
Beruht das Argument überhaupt darauf, dass es sich um eine geometrische Verteilung handelt?
Kann man ein derartiges Argument für jede Erwartungswert-Berechnung einsetzen?

Man sollte diesen Fragen ernsthaft nachgehen, denn sie führen zu einem besseren Verständnis der Besonderheit der geometrischen Verteilung – diese Besonderheit wird meist als die Gedächtnislosigkeit der geometrischen Verteilung bezeichnet.

Um diese Eigenschaft zu erklären, werde mit X wieder eine Zufallsvariable bezeichnet, die angibt, wann der erste Treffer bei einem Glücksspiel eintritt; die Spiele werden wieder unabhängig voneinander durchgeführt und die Gewinn-Wahrscheinlichkeit ist jeweils p, 0 < p < 1.

Man kann jetzt folgende Fragen stellen:

Es wurden bereits n Spiele durchgeführt und verloren. Wie groß ist die Wahrscheinlichkeit dafür, dass ein weiteres Spiel verloren wird?
Oder etwas allgemeiner: Es wurden bereits n Spiele durchgeführt und verloren. Wie groß ist die Wahrscheinlichkeit dafür, dass k weitere Spiele verloren werden?

Formuliert man diese Fragen mit Hilfe der Zufallsvariable X, so ist hier nach einer bedingten Wahrscheinlichkeit gefragt, nämlich:

P(X > n+1 | X > n) und
P(X > n+k | X > n).

Da die Spiele unabhängig voneinander durchgeführt werden und "der Zufall kein Gedächtnis hat", liegt nach n verlorenen Spielen keine andere Situation vor als zu Beginn des Spiels und somit gilt:

P(X > n+1 | X > n) = P(X > 1) und
P(X > n+k | X > n) = P(X > k),

wobei man für n und k beliebige ganze Zahlen k, n = 1, 2, ... einsetzen kann.

Dass diese Eigenschaft keine Selbstverständlichkeit ist, kann man durch das folgende Gegenbeispiel zeigen:

In einer Urne befinden sich 6 Kugeln mit der Aufschrift 1, 2, ..., 6. Es wird eine Kugel gezogen und die Kugel wird anschließend nicht wieder in die Urne gelegt. Der Spieler gewinnt, wenn eine 6 gezogen wird. (Wird das Spiel mit Zurücklegen ausgeführt, ist es gleichwertig zum Würfeln.)

Jetzt ist schon für n = 1 obige Eigenschaft der Gedächtnislosigkeit verletzt. Denn im ersten Spiel beträgt die Wahrscheinlichkeit für einen Verlust noch 5/6. Wurde das erste Spiel verloren, befinden sich noch 5 Kugeln in der Urne, von denen 4 nicht mit 6 beschriftet sind. Die Wahrscheinlichkeit für einen weiteren Verlust ist somit 4/5 und damit etwas kleiner als 5/6. Und für größere n werden diese Wahrscheinlichkeiten immer kleiner.

Aufgabe: Drücken Sie die oben gesuchten Wahrscheinlichkeiten P(X > n+1 | X > n) und P(X > n+k | X > n) mit Hilfe von p und q aus (q = 1-p).