Spezielle Wahrscheinlichkeitsverteilungen: die geometrische Verteilung
Die geometrische Verteilung wird verwendet, um Wartezeiten zu modellieren. Die grundlegenden Eigenschaften wie Erwartungswert, Varianz, Standardabweichung, die Verteilungsfunktion und insbesondere der Zusammenhang zur Binomialverteilung und die sogenannte Gedächtnislosigkeit werden besprochen.
- Einordnung des Artikels
- Einführung
- Eigenschaften der geometrischen Reihe
- Die Definition der geometrischen Verteilung
- Beispiel für eine Zufallsvariable mit geometrischer Verteilung
- Eigenschaften der geometrischen Verteilung
- Erwartungswert und Varianz
- Rekonstruktion der Verteilung aus dem Erwartungswert beziehungsweise der Standardabweichung
- Die Verteilungsfunktion der geometrischen Verteilung
- Die Gedächtnislosigkeit der geometrischen Verteilung
Einordnung des Artikels
- Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
- Spezielle Wahrscheinlichkeitsverteilungen
- Spezielle Wahrscheinlichkeitsverteilungen: die geometrische Verteilung
- Spezielle Wahrscheinlichkeitsverteilungen: Lösung von Wartezeitproblemen mit Hilfe der geometrischen Verteilung
- Spezielle Wahrscheinlichkeitsverteilungen
- Wahrscheinlichkeitsrechnung
Einführung
Die geometrische Verteilung wurde schon in mehreren Kapiteln dieses Kurses verwendet, um spezielle Konzepte zu demonstrieren. Wegen ihrer Relevanz werden ihre Eigenschaften hier im Zusammenhang dargestellt. Diese "Relevanz" kann durch zwei Argumente begründet werden:
- Die geometrische Verteilung besitzt Verwandtschaft mit zahlreichen anderen Verteilungen; hier wird nur die Verwandtschaft mit der Binomialverteilung diskutiert.
- Sie wird eingesetzt, um Wartezeiten zu modellieren. Auch dazu wird nur ein spezielles Beispiel besprochen: Führt man ein Glücksspiel unter gleichen Bedingungen mehrfach hintereinander aus, so kann man die "Wartezeit" bis zum ersten Gewinn mit der geometrischen Verteilung modellieren.
Ausführlich beschrieben werden allgemeinere Wartezeitprobleme in Spezielle Wahrscheinlichkeitsverteilungen: Lösung von Wartezeitproblemen mit Hilfe der geometrischen Verteilung.
Als Eigenschaften der geometrischen Verteilung zum Parameter p werden besprochen:
- Berechnung von Erwartungswert, Varianz und Standardabweichung,
- Eindeutigkeit des Zusammenhangs von Erwartungswert beziehungsweise Standardabweichung und Parameter p,
- Berechnung der Verteilungsfunktion,
- Gedächtnislosigkeit.
Eigenschaften der geometrischen Reihe
Die Wahrscheinlichkeiten der geometrischen Verteilung bilden eine geometrische Folge, wobei in vielen Anwendungen die zugehörige geometrische Reihe benötigt wird. Die entsprechenden Definitionen und später nötigen Aussagen sind in Abbildung 1 zusammengestellt.
Die Definition der geometrischen Verteilung
Die Definition der geometrischen Verteilung ist in Abbildung 2 zu sehen. Man sagt eine Zufallsvariable X gehorcht der geometrischen Verteilung mit Parameter, wenn sie die Werte 1, 2, ... annehmen kann und die Wahrscheinlichkeiten P(X = i) nach Gleichung (1) berechnet werden. Oft wird die Schreibweise mit q = 1 - p aus Gleichung (2) bevorzugt.
Achten Sie beim Umgang mit Literatur und Programm-Bibliotheken genau darauf, wie die geometrische Verteilung definiert ist. Die hier vorgestellte Variante ist nicht die einzig mögliche Definition: Hier gibt die Zufallsvariable X die Anzahl der Würfe an bis der erste Treffer erscheint. (Diese Interpretation wird im nächsten Abschnitt näher erläutert.) Oft wird die geometrische Verteilung als die Verteilung der Zufallsvariable Y definiert, die die Anzahl der Nieten angibt bis der erste Treffer erscheint. Die Zufallsvariable Y nimmt somit die Werte 0, 1, 2, ... an und es ist Y = 0, wenn X = 1 und so weiter. Diese Definition wird hier nicht verwendet.
Beispiel für eine Zufallsvariable mit geometrischer Verteilung
Das Paradebeispiel für eine Zufallsvariable X mit geometrischer Verteilung entsteht immer bei einem Glücksspiel, das unter identischen Bedingungen beliebig oft wiederholt wird. Bezeichnet man mit p die Gewinnwahrscheinlichkeit bei einem Spiel und mit q = 1 - p die Wahrscheinlichkeit für eine Niete, so gehorcht die Zufallsvariable X, die angibt, nach wie vielen Spielen zum ersten Mal ein Treffer erscheint, der geometrischen Verteilung (siehe Gleichung (3) in Abbildung 2; dort für die erste 6 beim Würfeln).
Tritt der erste Treffer nach i Spielen ein, so müssen zuvor i-1 Nieten eingetreten sein und die Wahrscheinlichkeit P(X = i) wird durch
qi-1·p
berechnet, liefert also genau die geometrische Verteilung.
Verwechseln Sie das Ereignis "der erste Treffer tritt nach i Spielen ein" nicht mit dem Ereignis "innerhalb von i Spielen gibt es genau einen Treffer". Die Wahrscheinlichkeiten für dieses Ereignis sind die kumulierten Wahrscheinlichkeiten von X.
In Abbildung 2 sind für den Spezialfall eines Laplace-Würfels einige Wahrscheinlichkeiten der geometrischen Verteilung berechnet. In Abbildung 3 links sind sie als Histogramm dargestellt.
Zum Vergleich zeigt Abbildung 3 rechts die geometrische Verteilung zu p = 1/2, wie sie etwa beim entsprechenden Münzwurf entsteht (die Münze wird so lange geworfen bis zum ersten Mal Kopf erscheint). In beiden Fällen werden die Wahrscheinlichkeiten bis P(X = i) für i =1, 2, ..., 12 berechnet; zum besseren Vergleich sind die y-Achsen identisch skaliert.
Eigenschaften der geometrischen Verteilung
Erwartungswert und Varianz
An Abbildung 3 kann man leicht den qualitativen Zusammenhang zwischen der Gewinn-Wahrscheinlichkeit p und dem Erwartungswert E (X) der Zufallsvariable X erraten: Bei einer hohen Gewinn-Wahrscheinlichkeit wird der erste Treffer sehr früh eintreten und der Erwartungswert ist sehr klein. Ist dagegen die Gewinn-Wahrscheinlichkeit p sehr klein, benötigt man mehr Versuche bis zum ersten Treffer.
Den quantitativen Zusammenhang zwischen p und dem Erwartungswert μ = E (X) kann man entweder durch die Berechnung des Erwartungswertes aus seiner Definition erhalten, wobei man Gleichung (4) aus Abbildung 1 benötigt. Oder man kann folgende einfache Überlegung anstellen:
Der Erwartungswert μ kann nicht kleiner sein als 1. Man muss genau dann mehr als einmal würfeln, wenn im ersten Wurf kein Treffer erscheint – die Wahrscheinlichkeit dafür beträgt 1 - p. Und jetzt kann man sich fragen: wie viele Würfe wird man im Durchschnitt ausführen müssen, bis der erste Treffer erscheint? Da sich am Würfel nichts geändert hat, ist der Erwartungswert wiederum gleich μ, womit man folgende Bestimmungsgleichung für μ aufgestellt hat:
μ = 1 + (1 - p) μ.
Löst man die Gleichung nach μ auf, erhält man:
μ = 1/p.
Aufgabe: Berechnen Sie den Erwartungswert der Zufallsvariable X (Anzahl der Würfe, nach denen zum ersten Mal eine 6 erscheint) mit Hilfe der Definition des Erwartungswertes und Gleichung (4) aus Abbildung 1.
♦ ♦ ♦
Zur Berechnung der Varianz geht man ähnlich vor wie bei der Berechnung des Erwartungswertes aus dessen Definition. Die Rechnung wurde in Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung gezeigt und soll hier nicht wiederholt werden. Abbildung 4 zeigt lediglich das Ergebnis und in Abbildung 5 sind die geometrischen Verteilungen aus Abbildung 3 nochmals dargestellt, wobei jetzt jeweils Erwartungswert und Standardabweichung eingetragen sind.
Aufgabe: Berechnen Sie den Erwartungswert von X2 einer Zufallsvariable X, die der geometrischen Verteilung mit Parameter p gehorcht.
Rekonstruktion der Verteilung aus dem Erwartungswert beziehungsweise der Standardabweichung
In Abbildung 4 Gleichung (3) und (4) wurden der Erwartungswert und die Standardabweichung einer geometrisch verteilten Zufallsvariable X mit Parameter p berechnet. Liest man die jeweils rechte Seite der Gleichungen als Funktion von p, so ist dies eine eindeutige Funktion von p.
Mit anderen Worten: Ist von einer Zufallsvariable X bekannt, dass sie geometrisch verteilt ist und kennt man entweder ihren Erwartungswert oder ihre Standardabweichung, dann kann man daraus den Parameter p eindeutig berechnen.
Dazu muss man entweder μ = 1/p oder σ2 = (1-p)/p2 nach p auflösen.
In Abbildung 6 werden der Erwartungswert (rot) und die Standardabweichung (grün) als Funktion von p aufgetragen. An der Monotonie der beiden Funktionen erkennt man die Eindeutigkeit von p.
Geht p gegen null, so gehen Erwartungswert und Standardabweichung gegen unendlich. Der Grenzfall p → 1 bedeutet – in der bisher verwendeten Interpretation der geometrischen Verteilung –, dass bereits im ersten Spiel ein Gewinn eintreten muss und somit P(X = i) = 0 für i = 2, 3, ... Daher ist der Erwartungswert gleich 1 und die Standardabweichung gleich null.
Aufgabe: Geben Sie die Formel an, wie der Parameter aus einem gegebenen σ berechnet wird. Warum ist die Lösung eindeutig?
Die Verteilungsfunktion der geometrischen Verteilung
Bisher wurden zu der geometrisch verteilten Zufallsvariable X die Wahrscheinlichkeiten P(X = i) mit i = 1, 2, ... angegeben. Die Verteilungsfunktion F(x) der Zufallsvariable X berechnet die Wahrscheinlichkeiten:
F(x) = P(X ≤ x), wobei x eine beliebige relle Zahl sein kann.
Dazu sollte man sich – in der Interpretation der geometrischen Verteilung mit einem Glücksspiel mit Gewinn-Wahrscheinlichkeit p – die Bedeutung der folgenden Größen klarmachen:
- P(X = i) steht für die Wahrscheinlichkeit dafür, dass genau beim i-ten Spiel der erste Treffer eintritt.
- P(X ≤ i) steht für die Wahrscheinlichkeit dafür, dass innerhalb der ersten i Spiele der erste Treffer eintritt. Daher ist P(X ≤ i) = P(X = 1) + P(X = 2) + ... + P(X = i).
- P(X > i) steht für die Wahrscheinlichkeit dafür, dass der erste Treffer nicht innerhalb der ersten i Spiele eintritt. Daher ist P(X > i) = 1 - P(X ≤ i).
Da die Wahrscheinlichkeiten P(X = i) eine geometrische Folge bilden, lassen sich die Wahrscheinlichkeiten P(X ≤ i) und P(X > i) leicht berechnen, siehe Abbildung 7.
In Abbildung 8 sind die Verteilungsfunktionen der Zufallsvariable X mit den Parametern p = 1/6 (links, Würfel) und p = 1/2 (rechts, Münze) dargestellt. Zum besseren Vergleich mit Abbildung 5 sind wieder der Erwartungswert und die Standardabweichung eingetragen.
Die Gedächtnislosigkeit der geometrischen Verteilung
Das Argument, das oben verwendet wurde, um den Erwartungswert der geometrischen Verteilung zu berechnen, mag aus mehreren Gründen befremden:
- Zur Berechnung des Erwartungswertes muss eigentlich eine unendliche Summe ausgewertet werden, hier wird aber ein Ansatz mit nur zwei Summanden verwendet.
- Beruht das Argument überhaupt darauf, dass es sich um eine geometrische Verteilung handelt?
- Kann man ein derartiges Argument für jede Erwartungswert-Berechnung einsetzen?
Man sollte diesen Fragen ernsthaft nachgehen, denn sie führen zu einem besseren Verständnis der Besonderheit der geometrischen Verteilung – diese Besonderheit wird meist als die Gedächtnislosigkeit der geometrischen Verteilung bezeichnet.
Um diese Eigenschaft zu erklären, werde mit X wieder eine Zufallsvariable bezeichnet, die angibt, wann der erste Treffer bei einem Glücksspiel eintritt; die Spiele werden wieder unabhängig voneinander durchgeführt und die Gewinn-Wahrscheinlichkeit ist jeweils p, 0 < p < 1.
Man kann jetzt folgende Fragen stellen:
- Es wurden bereits n Spiele durchgeführt und verloren. Wie groß ist die Wahrscheinlichkeit dafür, dass ein weiteres Spiel verloren wird?
- Oder etwas allgemeiner: Es wurden bereits n Spiele durchgeführt und verloren. Wie groß ist die Wahrscheinlichkeit dafür, dass k weitere Spiele verloren werden?
Formuliert man diese Fragen mit Hilfe der Zufallsvariable X, so ist hier nach einer bedingten Wahrscheinlichkeit gefragt, nämlich:
- P(X > n+1 | X > n) und
- P(X > n+k | X > n).
Da die Spiele unabhängig voneinander durchgeführt werden und "der Zufall kein Gedächtnis hat", liegt nach n verlorenen Spielen keine andere Situation vor als zu Beginn des Spiels und somit gilt:
- P(X > n+1 | X > n) = P(X > 1) und
- P(X > n+k | X > n) = P(X > k),
wobei man für n und k beliebige ganze Zahlen k, n = 1, 2, ... einsetzen kann.
Dass diese Eigenschaft keine Selbstverständlichkeit ist, kann man durch das folgende Gegenbeispiel zeigen:
In einer Urne befinden sich 6 Kugeln mit der Aufschrift 1, 2, ..., 6. Es wird eine Kugel gezogen und die Kugel wird anschließend nicht wieder in die Urne gelegt. Der Spieler gewinnt, wenn eine 6 gezogen wird. (Wird das Spiel mit Zurücklegen ausgeführt, ist es gleichwertig zum Würfeln.)
Jetzt ist schon für n = 1 obige Eigenschaft der Gedächtnislosigkeit verletzt. Denn im ersten Spiel beträgt die Wahrscheinlichkeit für einen Verlust noch 5/6. Wurde das erste Spiel verloren, befinden sich noch 5 Kugeln in der Urne, von denen 4 nicht mit 6 beschriftet sind. Die Wahrscheinlichkeit für einen weiteren Verlust ist somit 4/5 und damit etwas kleiner als 5/6. Und für größere n werden diese Wahrscheinlichkeiten immer kleiner.
Aufgabe: Drücken Sie die oben gesuchten Wahrscheinlichkeiten P(X > n+1 | X > n) und P(X > n+k | X > n) mit Hilfe von p und q aus (q = 1-p).