Spezielle Wahrscheinlichkeitsverteilungen: die hypergeometrische Verteilung
Die hypergeometrische Verteilung beschreibt die Wahrscheinlichkeit dafür, dass beim Ziehen ohne Zurücklegen n Treffer aus einer Urne gezogen werden; dazu befinden sich in der Urne anfangs L Treffer und K Nieten und es werden N Lose entnommen. Die Abhängigkeit der Verteilung von den drei Parametern K, L und N erschwert den Zugang zur Berechnung der gesuchten Wahrscheinlichkeiten. Es werden zwei - natürlich gleichwertige - Methoden gezeigt, wie man die Wahrscheinlichkeiten berechnet.
- Einordnung des Artikels
- Bezeichnungen und Definition der hypergeometrischen Verteilung
- Die hypergeometrische Verteilung
- Berechnung der Wahrscheinlichkeiten durch geeignetes Abzählen
- Berechnung der Wahrscheinlichkeiten durch Auswertung des Baumdiagramms
- Beispiel: Zahlenlotto
- Eigenschaften der hypergeometrischen Verteilung
Einordnung des Artikels
- Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
- Grundbegriffe der Wahrscheinlichkeitsrechnung
- Spezielle Wahrscheinlichkeitsverteilungen
- Spezielle Wahrscheinlichkeitsverteilungen: die geometrische Verteilung
- Spezielle Wahrscheinlichkeitsverteilungen: die hypergeometrische Verteilung
- Wahrscheinlichkeitsrechnung
Die Diskussion der hypergeometrischen Verteilung ist sehr viel leichter verständlich, wenn man mit dem Abzählproblem vertraut ist, das in Spezielle Abzählprobleme: Ziehen ohne Zurücklegen besprochen wurde. Kenntnis der geometrischen Verteilung ist hilfreich, aber nicht notwendig.
Bezeichnungen und Definition der hypergeometrischen Verteilung
Im folgenden wird eine Urne betrachtet, die zwei Arten von Kugeln enthält, etwa rote und blaue Kugeln (siehe Abbildung 1 oben für das Beispiel K = 3 und L = 2). Die Anzahl der roten Kugeln werde mit K bezeichnet, die der blauen Kugeln mit L; insgesamt enthält die Urne K + L = M Kugeln.
Oft stellt man sich statt der Kugeln in einer Urne vor, dass es sich um einen Lostopf mit insgesamt M Losen handelt, darunter sind K Nieten (0) und L Treffer (1), siehe Abbildung 1 (Mitte). Die Bezeichnungen 0 und 1 für die Nieten und Treffer wird im Folgenden stets verwendet.
Aus der Urne werden nacheinander Kugeln gezogen, wobei die gezogenen Kugeln nicht zurückgelegt werden.
Mit N wird stets die Anzahl der Ziehungen bezeichnet; und da die Kugeln nicht zurückgelegt werden, kann N nicht größer sein als M = K + L.
In der Tabelle in Abbildung 1 unten sind die 10 Möglichkeiten dargestellt, wenn aus der Urne 5 Kugeln gezogen werden und dabei die Reihenfolge beachtet wird. In der Tabelle zählt die erste Zeile die möglichen Ziehungen; jede der möglichen Ziehungen ist dann in einer Spalte dargestellt.
In Spezielle Abzählprobleme: Ziehen ohne Zurücklegen wurde die Anordnung aus Abbildung 1 verwendet, um ein Abzählproblem zu formulieren und zu lösen: Man sucht die Anzahl A(K, L, N) die möglichen Ergebnisse, wenn aus dem Lostopf mit K Nieten (0) und L Treffern nacheinander N Lose ohne Zurücklegen gezogen werden; dabei ist N ≤ M, da der Lostopf nach M Ziehungen leer ist.
Hier soll die Anordnung aus Abbildung 1 unter dem Aspekt der Wahrscheinlichkeit betrachtet werden. Nimmt man an, dass jedes der Lose mit gleicher Wahrscheinlichkeit gezogen wird (Laplace-Annahme), so ist folgende Fragestellung naheliegend:
Wie groß ist die Wahrscheinlichkeit dafür, dass man bei N Ziehungen genau n Treffer erhält? Dabei wird vorausgesetzt, dass der Lostopf zu Beginn K Nieten und L Treffer enthält und dass stets ohne Zurücklegen gezogen wird.
Die angemessene Formulierung des Problems erfolgt mit Hilfe einer Zufallsvariable XK, L, N, die die Anzahl der Treffer bei N Ziehungen angibt; gesucht sind dann die Wahrscheinlichkeiten:
P(XK, L, N = n), n = 0, 1, ..., L und N ≤ M = K + L sowie K, L ≥ 1.
Suggestiver – und besser geeignet, um später Wahrscheinlichkeiten zu berechnen – ist die Darstellung der möglichen Ziehungen als Baumdiagramm. In Abbildung 2 gibt jeder Knoten des Baumes an, welche Lose bis dorthin gezogen wurden. Das Diagramm ist also folgendermaßen zu lesen:
- Es zeigt 5 Ebenen; auf jeder Ebene N = 1, 2, ..., 5 sind die möglichen Ergebnisse zu sehen, die bei N Ziehungen auftreten können.
- Zählt man die Anzahl der Ergebnisse pro Ebene, so erhält man die Zahlen 2, 4, 7, 10, 10, also die Zahlenwerte von A(K = 3, L = 2, N) für N = 1, 2, ..., 5.
- Würde man mit Zurücklegen ziehen, erhält man die Anzahlen 2N, also 2, 4, 8, 16, ...; da aber im Lostopf irgendwann die Lose einer Art ausgehen, sind die Anzahlen beim Ziehen ohne Zurücklegen kleiner oder gleich 2N.
- Um besser nachzuvollziehen, wie viele Treffer gezogen wurden, werden Farben eingesetzt: Alle Ergebnisse mit keinem Treffer sind rot, mit einem Treffer grün, mit zwei Treffern blau.
Ohne Berechnungen auszuführen, kann man an Abbildung 2 bereits wichtige Hinweise auf die gesuchten Wahrscheinlichkeiten ablesen:
- Die Laplace-Annahme – und vor allem wie man sie falsch verstehen könnte – soll nochmals ausdrücklich formuliert werden: Betrachtet man etwa den einfachsten Fall N = 1, so gibt es zwei mögliche Ergebnisse, nämlich Niete und Treffer. Man könnte diese beiden Ergebnisse als die gleichwahrscheinlichen Elementarereignisse auffassen. Aber das ist falsch. Denn im Lostopf befinden sich anfangs 5 Lose und für jedes dieser 5 Lose ist die Wahrscheinlichkeit gleich groß, dass es im ersten Zug ausgewählt wird (also 1/5). Die beiden Ereignisse Niete und Treffer für N = 1 haben somit die Wahrscheinlichkeiten 3/5 beziehungsweise 2/5. Daher ist es nicht möglich, durch simples Abzählen der gleichfarbigen Knoten in Abbildung 2 die gesuchten Wahrscheinlichkeiten zu bestimmen.
- So wie die Ergebnisse in Abbildung 2 in die Knoten eingetragen sind, ist noch erkennbar, in welcher Reihenfolge die Lose gezogen wurden. Die Fragestellung, also die Berechnung der Wahrscheinlichkeiten P(XK,L,N = n) nimmt aber keine Rücksicht auf die Reihenfolge, in der die Lose gezogen wurden. Auch hieran kann man ablesen, dass das Abzählproblem, also die Berechnung von A(K, L, N), eine andere Fragestellung ist als die Berechnung der Wahrscheinlichkeiten P(XK,L,N = n). Es wird also nötig sein, einen anderen Ansatz zu wählen.
In den folgenden Abschnitten werden dann zwei Wege aufgezeigt, wie man die Wahrscheinlichkeiten P(XK,L,N = n) berechnen kann, nämlich
- Entweder durch reines Abzählen, wobei erst das richtige Abzählproblem formuliert werden muss.
- Oder durch Auswertung des Baumdiagramms, also der direkten Berechnung der Wahrscheinlichkeiten.
Wenn es gelungen ist, die Wahrscheinlichkeiten P(XK,L,N = n) in Abhängigkeit von K, L, N, n zu berechnen, kann man auch definieren, was eine hypergeometrische Verteilung ist: Man sagt eine Zufallsvariable X gehorcht der hypergeometrischen Verteilung zu den Parametern K, L, N, wenn die Wahrscheinlichkeiten P(X = n) mit denen von P(XK,L,N = n) übereinstimmen.
Hier ist nochmals die Übersicht über die häufig benötigten Bezeichnungen beim Ziehen ohne Zurücklegen:
K | Anzahl der Nieten (0) |
L | Anzahl der Treffer (1) |
M | Anzahl aller Lose: M = K + L |
N | Anzahl der Ziehungen: N ≤ M |
XK,L,N | Zufallsvariable, die die Anzahl der Treffer angibt |
P(XK,L,N = n) | Wahrscheinlichkeit für n Treffer |
Die hypergeometrische Verteilung
Berechnung der Wahrscheinlichkeiten durch geeignetes Abzählen
Die Berechnung von Wahrscheinlichkeiten kann immer dann besonders einfach durch geeignetes Abzählen erfolgen, wenn es gelingt gleich wahrscheinliche Elementarereignisse zu identifizieren. Unter der Laplace-Annahme wird jedes aus dem Lostopf mit gleicher Wahrscheinlichkeit gezogen. Dies hat zur Folge, dass die Knoten im Baumdiagramm (Abbildung 2) im Allgemeinen unterschiedliche Wahrscheinlichkeiten besitzen; dazu reicht es, die Knoten in der ersten Ebene mit der Beschriftung 0 und 1 zu betrachten, die unter der Laplace-Annahme mit den Wahrscheinlichkeiten 3/5 beziehungsweise 2/5 auftreten.
In Abbildung 3 wird gezeigt, wie man stattdessen abzählen muss: Die Lose sind wie bereits erklärt als Nieten und Treffer zu unterscheiden. Zusätzlich werden sie von 1 bis M = K + L numeriert; etwa die Nieten von 1 bis K, die Treffer mit den restlichen L Zahlen von K+1 bis M.
Ist X die Zufallsvariable, die die Anzahl der Treffer angibt, wenn sich im Lostopf anfangs K Nieten und L Treffer befinden und N-mal gezogen wird. Dann ist die Wahrscheinlichkeit des Ereignisses X = n gesucht. Dazu benötigt man zwei Anzahlen:
- Die Anzahl aller möglichen Ergebnisse.
- Die Anzahl der Ergebnisse mit genau n Treffern.
Um die Anzahl der möglichen Ergebnisse zu bestimmen, kann man davon absehen, dass die Lose in Nieten und Treffer unterschieden werden. Es handelt sich um eine Auswahlproblem wie beim Zahlenlotto; hier werden N Lose aus M = K + L Losen gezogen und die Anzahl berechnet sich durch den Binomialkoeffizient nach Gleichung (1) in Abbildung 3.
Sollen sich unter den N gezogenen Losen genau n Treffer befinden, dann müssen N - n Nieten enthalten sein – jetzt verwendet man die Unterscheidung zwischen Nieten und Treffern. Die Anzahl der Möglichkeiten, aus L Treffern n auszuwählen ist der Binomialkoeffizient im zweiten Faktor in Gleichung (2), die Anzahl N - n Nieten aus K Nieten auszuwählen der erste Faktor in Gleichung (2). Da man jetzt beliebige Kombinationen herstellen kann, werden die beiden Anzahlen miteinander multipliziert und man erhält insgesamt Gleichung (2).
Dividiert man die soeben berechneten Anzahlen, erhält man die gesuchte Wahrscheinlichkeit P(X = n), siehe Gleichung (3) in Abbildung 3. Mit ihnen lässt sich die hypergeometrische Verteilung einer Zufallsvariable definieren, siehe Gleichung (4).
Die Angabe für die Anzahl der Treffer 0 ≤ n ≤ L mag auf den ersten Blick verwirren. Denn einerseits sind in der Urne nur L Treffer, so dass maximal L Treffer gezogen werden können, andererseits wird N-mal gezogen, so dass die Anzahl der Treffer N nicht übersteigen kann. Streng genommen sollte man daher schreiben - da nicht vorausgesetzt wurde, ob L oder N größer ist:
0 ≤ n ≤ min(L, N).
Man kann Gleichung (4) aber auch so lesen, dass die Wahrscheinlichkeiten P(X = n) gleich 0 sind, wenn n > N, da maximal N-mal gezogen wird. Diese Spitzfindigkeit wird noch öfters auftreten, aber nicht nochmals diskutiert.
Aufgaben:
1. Zahlenlotto:
Berechnen Sie für das Zahlenlotto "6 aus 49" die Wahrscheinlichkeit dafür, dass zwei gerade und vier ungerade Zahlen gezogen werden.
Diskutieren Sie, ob dieses Problem so umformuliert werden kann, dass es sich um einen Spezialfall der Wahrscheinlichkeit (4) in Abbildung 3 handelt.
2. Normierung der Wahrscheinlichkeit:
Zeigen Sie, dass die Summe aller Wahrscheinlichkeiten in Gleichung (4) in Abbildung 3 gleich 1 ergibt, wenn man über alle Werte von n = 0, 1, ..., N summiert.
Hinweis: Verwenden Sie die Vandermonde-Identität, siehe Abbildung 16 und 17 in Einführung des Begriffs der Faltung von Wahrscheinlichkeitsmaßen.
3. Gibt es eine Vereinfachung?
Schreiben Sie den Term für P(X = n) in Gleichung (4) in Abbildung 3 mit Fakultäten anstelle der Binomialkoeffizienten. Kann man den Term dadurch vereinfachen?
4. Die Spezialfälle N = 1 und N = M = K + L:
Geben Sie für die Spezialfälle N = 1 und N = M = K + L an, welche Werte die Anzahl der Treffer n annehmen kann und berechnen Sie jeweils die Wahrscheinlichkeiten P(X = n) der hypergeometrischen Verteilung.
Berechnung der Wahrscheinlichkeiten durch Auswertung des Baumdiagramms
Wenn man das Baumdiagramm (wie in Abbildung 2) vorliegen hat, ist es naheliegender
- die Knoten mit X = n zu gegebener Anzahl von Ziehungen N in der entsprechenden Ebene des Baumdiagramms zu identifizieren und
- anschließend jedem Zweig des Baumes eine Wahrscheinlichkeit zuzuordnen (als Produkt der Wahrscheinlichkeiten der einzelnen Ziehungen, aus denen sich der Zweig zusammensetzt).
Die gesuchten Wahrscheinlichkeiten P(X = n) erhält man dann durch Addition (Summe der Wahrscheinlichkeiten der Zweige, die zu Ereignissen X = n führen).
In Abbildung 2 ist ganz oben – als Wurzelelement des Baumes – die Ausgangssituation des Lostopfes dargestellt: er enthält K = 3 Nieten und L = 2 Treffer. In der ersten Verzweigung (N = 1) kann entweder eine Niete oder ein Treffer gezogen werden; lediglich das Ergebnis der Ziehung ist im Diagramm dargestellt. Eigentlich sollte man für die nächste Ziehung die neue Ausgangssituation darstellen, die aber für jeden Knoten einer Ebene anders ist. Erst ab der zweiten Ebene (N ≥ 2) kann es Knoten mit identischer Belegung des Lostopfes geben (etwa für N = 2, wenn 01 oder 10 gezogen wurde). Wenn man jetzt für jede der im Baumdiagramm dargestellten Ziehungen eine Wahrscheinlichkeit angeben möchte, muss man zuerst aus den bisherigen Ergebnissen die aktuelle Belegung des Lostopfes bestimmen.
Um das Vorgehen zu demonstrieren, sollen zunächst für die Ebene mit N = 2 in Abbildung 2 die Wahrscheinlichkeiten P(X = n) berechnet werden; es wird sich zeigen, dass dieses einfache Beispiel bereits alle Elemente enthält, die zur allgemeinen Berechnung nötig sind.
Beispiel: Berechnung von P(X = n) für N = 2
Die Anzahl der Treffer n kann die Werte 0, 1 und 2 annehmen; die relevanten Elementarereignisse sind 00 für 0 Treffer, 01 und 10 für einen Treffer sowie 11 für 2 Treffer. Ihre Wahrscheinlichkeiten werden in den Gleichungen (1) bis (3) berechnet.
Wählt man wieder N = 2, aber beliebige K und L (lediglich mit der Einschränkung, dass beide größer oder gleich 2 sein sollen), berechnen sich die Wahrscheinlichkeiten P(X = n) durch Gleichung (4) bis (6).
Insbesondere an Gleichung (5) kann man ablesen, wie derartige Wahrscheinlichkeiten im Allgemeinen zu berechnen sind:
- Für jeden Zweig, der zu einem Knoten mit n Treffern führt, ist die Wahrscheinlichkeit pn(K, L, N) identisch – wie sie berechnet wird, folgt sofort.
- Man muss nur noch abzählen, wie viele Knoten mit n Treffern in der N-ten Ebene vorkommen: Eine noch zu berechnende Anzahl An(N).
Für die gesuchte Wahrscheinlichkeit gilt dann:
P(X = n) = An(N) · pn(K, L, N).
Zur Berechnung von pn(K, L, N):
Werden n Treffer gezogen und nimmt man an, dass zuerst die n Treffer und anschließend die N-n Nieten gezogen werden, also die Folge
1 1 ... 1 0 0 ... 0 (mit n Einsen und N-n Nullen)
entsteht, so berechnet sich pn(K, L, N) durch den Bruch in Gleichung (1) in Abbildung 5. Der Term lässt sich einfacher mit Hilfe von Fakultäten schreiben, da für die Treffer n-mal und für die Nieten (N-n)-mal "heruntergezählt" wird, siehe Gleichung (2). Im Nenner wird für die gesamte Anzahl an Losen von M bis M-N heruntergezählt.
Der entscheidende Schritt ist jetzt, dass die in Gleichung (1) beziehungsweise (2) berechnete Wahrscheinlichkeit auch für jede andere Abfolge von N Treffern und N-n Nieten gilt. Denn erscheinen die Treffer und Nieten in einer anderen Reihenfolge, dann werden zur Berechnung der Wahrscheinlichkeit genau die Faktoren wie in Gleichung (1) angesetzt, sie werden lediglich umsortiert.
Man muss jetzt nur noch fragen: Wie viele Ergebnisse gibt es bei N Ziehungen mit n Treffern und N-n Nieten? Da zur Bildung einer Folge wie
1 1 ... 1 0 0 ... 0
n Stellen für die n Treffer aus insgesamt N-n Stellen ausgewählt werden müssen, berechnet sich die Anzahl An(N) durch den Binomialkoeffizient "n aus N" (siehe Gleichung (3) in Abbildung 5).
Damit kann man die gesuchte Wahrscheinlichkeit P(X = n) berechnen und man erhält wieder das Ergebnis aus Gleichung (3) ind Abbildung 3 (siehe Gleichung (4) in Abbildung 5).
Aufgabe: Die Berechnung der Wahrscheinlichkeit P(X = n) in Abbildung 5 zeigt nicht alle Zwischenschritte. Vervollständigen Sie die Berechnung.
Beispiel: Zahlenlotto
Es wird oft diskutiert, ob man beim Zahlenlotto die Zahlen 1 bis 31 überhaupt ankreuzen soll, da diese Zahlen für ein Datum verwendet werden und womöglich häufiger angekreuzt werden als die restlichen Zahlen. Daraus ergibt sich eine Fragestellung, die mit Hilfe der hypergeometrischen Verteilung beantwortet werden kann:
Wie groß sind die Wahrscheinlichkeiten dafür, dass bei einer Ziehung im Zahlenlotto "6 aus 49" genau n = 0, 1, ..., 6 Zahlen aus der Menge {1, 2, ..., 31} stammen?
Beim Zahlenlotto wird ohne Zurücklegen gezogen und man betrachtet hier die Menge {1, 2, ..., 31} als die Treffer und die anderen 18 Zahlen als Nieten. Dann ist
L = 31, K = 49 - 31 = 18 und N = 6.
Die Zufallsvariable X wird definiert durch die Anzahl der Zahlen ber Lotto-Ziehung, die in {1, 2, ..., 31} liegen; sie kann die Werte n = 0, 1, ..., 6 annehmen. Die gesuchten Wahrscheinlichkeiten können mit der hypergeometrischen Verteilung zu den Parametern K, L, N berechnet werden; die folgende Tabelle zeigt die gesuchten Wahrscheinlichkeiten.
n | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
P(X = n) | 0.00133 | 0.01899 | 0.10175 | 0.26230 | 0.34427 | 0.21871 | 0.05265 |
Abbildung 6 zeigt die Wahrscheinlichkeiten P(X = n) gegen n aufgetragen.
In Abbildung 6 ist zusätzlich zu den Wahrscheinlichkeiten P(X = n) der Erwartungswert
E (X) = ∑ n · P(X = n)
(blau) eingezeichnet. Da 31 von 49 Zahlen hier als Treffer betrachtet werden und 6 Zahlen gezogen werden, lautet die naive Schätzung für den Erwartungswert:
E (X) = 6 · 31 / 49 = 3.795918
und die Auswertung der Wahrscheinlichkeiten aus obiger Tabelle liefert genau diesen Wert. Damit stellt sich sofort die nächste Frage zur hypergeometrischen Verteilung: Wie wird ihr Erwartungswert berechnet? Ist obige Übereinstimmung zufällig oder ein Hinweis auf die allgemeine Formel?
Eigenschaften der hypergeometrischen Verteilung
Das letzte Beispiel wirft die Frage auf, wie der Erwartungswert der hypergeometrischen Verteilung berechnet wird und ob sich tatsächlich die einfache Formel
E (X) = N · L / M = N · L / (K + L)
ergibt oder ob dies nur in dem speziellen Beispiel gültig ist; da das Ziehen ohne Zurücklegen erfolgt und es schwer nachvollziehbar ist, wie sich die jeweils neue Ausgangssituation auf den Erwartungswert auswirkt, ist dieses Ergebnis keine Selbstverständlichkeit. Die "einfache" Formel oben wäre für das Ziehen mit Zurücklegen sofort verständlich: Die Wahrscheinlichkeit dafür, dass ein Treffer gezogen wird, beträgt bei jedem Zug L / M und der Erwartungswert bei N Zügen ist dann N · L / M.
Die folgenden Ergebnisse werden ohne Beweis mitgeteilt. Denn die Methode, wie man den Erwartungswert der hypergeometrischen Verteilung berechnet, ist für viele Zufallsvariablen relevant; sie wird dann etwas allgemeiner bei den Eigenschaften von Zufallsvariablen dargestellt.
Die Frage nach dem Erwartungswert zieht sofort die Frage nach der Varianz (und der Standardabweichung) nach sich. Auch diese Formeln werden hier ohne Beweis angegeben.
Abbildung 7 zeigt in Gleichung (1) zuerst nochmals die Wahrscheinlichkeiten P(X = n) einer hypergeometrisch verteilten Zufallsvariable X mit Parametern K, L, N. In Gleichung (2) wird gezeigt, wie man eigentlich den Erwartungswert berechnen muss: in der Summe stehen dann jeweils Produkte, in denen n und zwei Binomialkoeffizienten vorkommen, wobei beide Binomialkoeffizienten von n abhängen.
Da man diese Summe (2) nicht ohne weitere Hilfsmittel berechnen kann, muss man sich hier eine andere Methode überlegen, um eine Formel für den Erwartungswert in Abhängigkeit von K, L und N herzuleiten. Eine einfache Möglichkeit besteht darin, sogenannte Indikatorvariablen einzuführen und X als Summe dieser Indikatorvariablen zu schreiben. Wählt man sie geschickt, kann die Summe sehr einfach berechnet werden. Das Ergebnis ist in Gleichung (3) gezeigt.
Mit dieser Methode kann auch die Varianz berechnet werden, was aber zu eher unübersichtlichen Termen führt. Gleichung (4) zeigt die Varianz; die Standardabweichung erhält man durch Ziehen der Quadratwurzel.
Die Berechnung von Erwartungswert (3) und Varianz (4) der hypergeometrischen Verteilung erfolgt in Berechnung von Erwartungswerten und Varianzen mit Hilfe von Indikatorvariablen.
Aufgabe: Berechnen Sie de Varianz und die Standardabweichung der Zufallsvariable aus dem Beispiel oben zum Ziehen der Lottozahlen (mit Treffer in 1, 2, ..., 31):
- einmal direkt aus den oben angegebenen Wahrscheinlichkeiten,
- einmal mit Formel (4) aus Abbildung 7.