Spezielle Wahrscheinlichkeitsverteilungen: die hypergeometrische Verteilung

Die hypergeometrische Verteilung beschreibt die Wahrscheinlichkeit dafür, dass beim Ziehen ohne Zurücklegen n Treffer aus einer Urne gezogen werden; dazu befinden sich in der Urne anfangs L Treffer und K Nieten und es werden N Lose entnommen. Die Abhängigkeit der Verteilung von den drei Parametern K, L und N erschwert den Zugang zur Berechnung der gesuchten Wahrscheinlichkeiten. Es werden zwei - natürlich gleichwertige - Methoden gezeigt, wie man die Wahrscheinlichkeiten berechnet.

walter

13 Jul. 2021

Standardabweichung Varianz Ziehen ohne Zurücklegen hypergeometrische Verteilung diskrete Zufallsvariable Vandermonde-Identität Zufallsvariable Verteilungsfunktion Erwartungswert Ziehen mit Zurücklegen

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Grundbegriffe der Wahrscheinlichkeitsrechnung
    - Spezielle Abzählprobleme: Ziehen ohne Zurücklegen
  - Spezielle Wahrscheinlichkeitsverteilungen
    - Spezielle Wahrscheinlichkeitsverteilungen: die geometrische Verteilung
    - Spezielle Wahrscheinlichkeitsverteilungen: die hypergeometrische Verteilung

Die Diskussion der hypergeometrischen Verteilung ist sehr viel leichter verständlich, wenn man mit dem Abzählproblem vertraut ist, das in Spezielle Abzählprobleme: Ziehen ohne Zurücklegen besprochen wurde. Kenntnis der geometrischen Verteilung ist hilfreich, aber nicht notwendig.

Bezeichnungen und Definition der hypergeometrischen Verteilung

Im folgenden wird eine Urne betrachtet, die zwei Arten von Kugeln enthält, etwa rote und blaue Kugeln (siehe Abbildung 1 oben für das Beispiel K = 3 und L = 2). Die Anzahl der roten Kugeln werde mit K bezeichnet, die der blauen Kugeln mit L; insgesamt enthält die Urne K + L = M Kugeln.

Oft stellt man sich statt der Kugeln in einer Urne vor, dass es sich um einen Lostopf mit insgesamt M Losen handelt, darunter sind K Nieten (0) und L Treffer (1), siehe Abbildung 1 (Mitte). Die Bezeichnungen 0 und 1 für die Nieten und Treffer wird im Folgenden stets verwendet.

Abbildung 1: In einer Urne befinden sich rote und blaue Kugeln, man kann sich auch einen Lostopf mit Nieten (0) und Treffern (1) vorstellen. Aus dem Lostopf werden nacheinander N Lose ohne Zurücklegen gezogen. Die Tabelle unten zeigt alle möglichen Ergebnisse im Fall K = 3 Nieten, L = 2 Treffer und N = 5 Ziehungen. Dabei werden zwei Ergebnisse als unterschiedlich angesehen, wenn sie sich in der Reihenfolge der gezogenen Lose unterscheiden (siehe etwa zweite und dritte Spalte der Tabelle).

Aus der Urne werden nacheinander Kugeln gezogen, wobei die gezogenen Kugeln nicht zurückgelegt werden.

Mit N wird stets die Anzahl der Ziehungen bezeichnet; und da die Kugeln nicht zurückgelegt werden, kann N nicht größer sein als M = K + L.

In der Tabelle in Abbildung 1 unten sind die 10 Möglichkeiten dargestellt, wenn aus der Urne 5 Kugeln gezogen werden und dabei die Reihenfolge beachtet wird. In der Tabelle zählt die erste Zeile die möglichen Ziehungen; jede der möglichen Ziehungen ist dann in einer Spalte dargestellt.

In Spezielle Abzählprobleme: Ziehen ohne Zurücklegen wurde die Anordnung aus Abbildung 1 verwendet, um ein Abzählproblem zu formulieren und zu lösen: Man sucht die Anzahl A(K, L, N) die möglichen Ergebnisse, wenn aus dem Lostopf mit K Nieten (0) und L Treffern nacheinander N Lose ohne Zurücklegen gezogen werden; dabei ist N ≤ M, da der Lostopf nach M Ziehungen leer ist.

Hier soll die Anordnung aus Abbildung 1 unter dem Aspekt der Wahrscheinlichkeit betrachtet werden. Nimmt man an, dass jedes der Lose mit gleicher Wahrscheinlichkeit gezogen wird (Laplace-Annahme), so ist folgende Fragestellung naheliegend:

Wie groß ist die Wahrscheinlichkeit dafür, dass man bei N Ziehungen genau n Treffer erhält? Dabei wird vorausgesetzt, dass der Lostopf zu Beginn K Nieten und L Treffer enthält und dass stets ohne Zurücklegen gezogen wird.

Die angemessene Formulierung des Problems erfolgt mit Hilfe einer Zufallsvariable X_{K, L, N}, die die Anzahl der Treffer bei N Ziehungen angibt; gesucht sind dann die Wahrscheinlichkeiten:

P(X_{K, L, N} = n), n = 0, 1, ..., L und N ≤ M = K + L sowie K, L ≥ 1.

Suggestiver – und besser geeignet, um später Wahrscheinlichkeiten zu berechnen – ist die Darstellung der möglichen Ziehungen als Baumdiagramm. In Abbildung 2 gibt jeder Knoten des Baumes an, welche Lose bis dorthin gezogen wurden. Das Diagramm ist also folgendermaßen zu lesen:

Es zeigt 5 Ebenen; auf jeder Ebene N = 1, 2, ..., 5 sind die möglichen Ergebnisse zu sehen, die bei N Ziehungen auftreten können.
Zählt man die Anzahl der Ergebnisse pro Ebene, so erhält man die Zahlen 2, 4, 7, 10, 10, also die Zahlenwerte von A(K = 3, L = 2, N) für N = 1, 2, ..., 5.
Würde man mit Zurücklegen ziehen, erhält man die Anzahlen 2^N, also 2, 4, 8, 16, ...; da aber im Lostopf irgendwann die Lose einer Art ausgehen, sind die Anzahlen beim Ziehen ohne Zurücklegen kleiner oder gleich 2^N.
Um besser nachzuvollziehen, wie viele Treffer gezogen wurden, werden Farben eingesetzt: Alle Ergebnisse mit keinem Treffer sind rot, mit einem Treffer grün, mit zwei Treffern blau.

Abbildung 2: Darstellung der Ergebnisse beim Ziehen ohne Zurücklegen. In der Urne befinden sich anfangs K = 3 Nieten und L = 2 Treffer. Jede Ebene (N = 1, 2, ..., 5) zeigt alle möglichen Ergebnisse bei N Ziehungen. Da man aus den Ergebnissen ablesen kann, welche Lose sich noch in der Urne befinden, kann man das Baumdiagramm leicht auswerten und die Wahrscheinlichkeiten aller möglichen Ergebnisse berechnen.

Ohne Berechnungen auszuführen, kann man an Abbildung 2 bereits wichtige Hinweise auf die gesuchten Wahrscheinlichkeiten ablesen:

Die Laplace-Annahme – und vor allem wie man sie falsch verstehen könnte – soll nochmals ausdrücklich formuliert werden: Betrachtet man etwa den einfachsten Fall N = 1, so gibt es zwei mögliche Ergebnisse, nämlich Niete und Treffer. Man könnte diese beiden Ergebnisse als die gleichwahrscheinlichen Elementarereignisse auffassen. Aber das ist falsch. Denn im Lostopf befinden sich anfangs 5 Lose und für jedes dieser 5 Lose ist die Wahrscheinlichkeit gleich groß, dass es im ersten Zug ausgewählt wird (also 1/5). Die beiden Ereignisse Niete und Treffer für N = 1 haben somit die Wahrscheinlichkeiten 3/5 beziehungsweise 2/5. Daher ist es nicht möglich, durch simples Abzählen der gleichfarbigen Knoten in Abbildung 2 die gesuchten Wahrscheinlichkeiten zu bestimmen.
So wie die Ergebnisse in Abbildung 2 in die Knoten eingetragen sind, ist noch erkennbar, in welcher Reihenfolge die Lose gezogen wurden. Die Fragestellung, also die Berechnung der Wahrscheinlichkeiten P(X_K,L,N = n) nimmt aber keine Rücksicht auf die Reihenfolge, in der die Lose gezogen wurden. Auch hieran kann man ablesen, dass das Abzählproblem, also die Berechnung von A(K, L, N), eine andere Fragestellung ist als die Berechnung der Wahrscheinlichkeiten P(X_K,L,N = n). Es wird also nötig sein, einen anderen Ansatz zu wählen.

In den folgenden Abschnitten werden dann zwei Wege aufgezeigt, wie man die Wahrscheinlichkeiten P(X_K,L,N = n) berechnen kann, nämlich

Entweder durch reines Abzählen, wobei erst das richtige Abzählproblem formuliert werden muss.
Oder durch Auswertung des Baumdiagramms, also der direkten Berechnung der Wahrscheinlichkeiten.

Wenn es gelungen ist, die Wahrscheinlichkeiten P(X_K,L,N = n) in Abhängigkeit von K, L, N, n zu berechnen, kann man auch definieren, was eine hypergeometrische Verteilung ist: Man sagt eine Zufallsvariable X gehorcht der hypergeometrischen Verteilung zu den Parametern K, L, N, wenn die Wahrscheinlichkeiten P(X = n) mit denen von P(X_K,L,N = n) übereinstimmen.

Hier ist nochmals die Übersicht über die häufig benötigten Bezeichnungen beim Ziehen ohne Zurücklegen:

K	Anzahl der Nieten (0)
L	Anzahl der Treffer (1)
M	Anzahl aller Lose: M = K + L
N	Anzahl der Ziehungen: N ≤ M
X_K,L,N	Zufallsvariable, die die Anzahl der Treffer angibt
P(X_K,L,N = n)	Wahrscheinlichkeit für n Treffer

Die hypergeometrische Verteilung

Berechnung der Wahrscheinlichkeiten durch geeignetes Abzählen

Die Berechnung von Wahrscheinlichkeiten kann immer dann besonders einfach durch geeignetes Abzählen erfolgen, wenn es gelingt gleich wahrscheinliche Elementarereignisse zu identifizieren. Unter der Laplace-Annahme wird jedes aus dem Lostopf mit gleicher Wahrscheinlichkeit gezogen. Dies hat zur Folge, dass die Knoten im Baumdiagramm (Abbildung 2) im Allgemeinen unterschiedliche Wahrscheinlichkeiten besitzen; dazu reicht es, die Knoten in der ersten Ebene mit der Beschriftung 0 und 1 zu betrachten, die unter der Laplace-Annahme mit den Wahrscheinlichkeiten 3/5 beziehungsweise 2/5 auftreten.

In Abbildung 3 wird gezeigt, wie man stattdessen abzählen muss: Die Lose sind wie bereits erklärt als Nieten und Treffer zu unterscheiden. Zusätzlich werden sie von 1 bis M = K + L numeriert; etwa die Nieten von 1 bis K, die Treffer mit den restlichen L Zahlen von K+1 bis M.

Ist X die Zufallsvariable, die die Anzahl der Treffer angibt, wenn sich im Lostopf anfangs K Nieten und L Treffer befinden und N-mal gezogen wird. Dann ist die Wahrscheinlichkeit des Ereignisses X = n gesucht. Dazu benötigt man zwei Anzahlen:

Die Anzahl aller möglichen Ergebnisse.
Die Anzahl der Ergebnisse mit genau n Treffern.

Abbildung 3: Um die Wahrscheinlichkeit dafür zu berechnen, dass bei N Ziehungen genau n Treffer gezogen werden, werden die Lose numeriert. Jetzt lässt sich das Ereignis "n Treffer" bei N Ziehungen ohne Zurücklegen leicht abzählen (Kombinationen ohne Wiederholungen). Das Ergebnis führt zur Definition der hypergeometrischen Verteilung, siehe Gleichung (4).

Um die Anzahl der möglichen Ergebnisse zu bestimmen, kann man davon absehen, dass die Lose in Nieten und Treffer unterschieden werden. Es handelt sich um eine Auswahlproblem wie beim Zahlenlotto; hier werden N Lose aus M = K + L Losen gezogen und die Anzahl berechnet sich durch den Binomialkoeffizient nach Gleichung (1) in Abbildung 3.

Sollen sich unter den N gezogenen Losen genau n Treffer befinden, dann müssen N - n Nieten enthalten sein – jetzt verwendet man die Unterscheidung zwischen Nieten und Treffern. Die Anzahl der Möglichkeiten, aus L Treffern n auszuwählen ist der Binomialkoeffizient im zweiten Faktor in Gleichung (2), die Anzahl N - n Nieten aus K Nieten auszuwählen der erste Faktor in Gleichung (2). Da man jetzt beliebige Kombinationen herstellen kann, werden die beiden Anzahlen miteinander multipliziert und man erhält insgesamt Gleichung (2).

Dividiert man die soeben berechneten Anzahlen, erhält man die gesuchte Wahrscheinlichkeit P(X = n), siehe Gleichung (3) in Abbildung 3. Mit ihnen lässt sich die hypergeometrische Verteilung einer Zufallsvariable definieren, siehe Gleichung (4).

Die Angabe für die Anzahl der Treffer 0 ≤ n ≤ L mag auf den ersten Blick verwirren. Denn einerseits sind in der Urne nur L Treffer, so dass maximal L Treffer gezogen werden können, andererseits wird N-mal gezogen, so dass die Anzahl der Treffer N nicht übersteigen kann. Streng genommen sollte man daher schreiben - da nicht vorausgesetzt wurde, ob L oder N größer ist:

0 ≤ n ≤ min(L, N).

Man kann Gleichung (4) aber auch so lesen, dass die Wahrscheinlichkeiten P(X = n) gleich 0 sind, wenn n > N, da maximal N-mal gezogen wird. Diese Spitzfindigkeit wird noch öfters auftreten, aber nicht nochmals diskutiert.

Aufgaben:

1. Zahlenlotto:

Berechnen Sie für das Zahlenlotto "6 aus 49" die Wahrscheinlichkeit dafür, dass zwei gerade und vier ungerade Zahlen gezogen werden.

Diskutieren Sie, ob dieses Problem so umformuliert werden kann, dass es sich um einen Spezialfall der Wahrscheinlichkeit (4) in Abbildung 3 handelt.

2. Normierung der Wahrscheinlichkeit:

Zeigen Sie, dass die Summe aller Wahrscheinlichkeiten in Gleichung (4) in Abbildung 3 gleich 1 ergibt, wenn man über alle Werte von n = 0, 1, ..., N summiert.

Hinweis: Verwenden Sie die Vandermonde-Identität, siehe Abbildung 16 und 17 in Einführung des Begriffs der Faltung von Wahrscheinlichkeitsmaßen.

3. Gibt es eine Vereinfachung?

Schreiben Sie den Term für P(X = n) in Gleichung (4) in Abbildung 3 mit Fakultäten anstelle der Binomialkoeffizienten. Kann man den Term dadurch vereinfachen?

4. Die Spezialfälle N = 1 und N = M = K + L:

Geben Sie für die Spezialfälle N = 1 und N = M = K + L an, welche Werte die Anzahl der Treffer n annehmen kann und berechnen Sie jeweils die Wahrscheinlichkeiten P(X = n) der hypergeometrischen Verteilung.

Berechnung der Wahrscheinlichkeiten durch Auswertung des Baumdiagramms

Wenn man das Baumdiagramm (wie in Abbildung 2) vorliegen hat, ist es naheliegender

die Knoten mit X = n zu gegebener Anzahl von Ziehungen N in der entsprechenden Ebene des Baumdiagramms zu identifizieren und
anschließend jedem Zweig des Baumes eine Wahrscheinlichkeit zuzuordnen (als Produkt der Wahrscheinlichkeiten der einzelnen Ziehungen, aus denen sich der Zweig zusammensetzt).

Die gesuchten Wahrscheinlichkeiten P(X = n) erhält man dann durch Addition (Summe der Wahrscheinlichkeiten der Zweige, die zu Ereignissen X = n führen).

In Abbildung 2 ist ganz oben – als Wurzelelement des Baumes – die Ausgangssituation des Lostopfes dargestellt: er enthält K = 3 Nieten und L = 2 Treffer. In der ersten Verzweigung (N = 1) kann entweder eine Niete oder ein Treffer gezogen werden; lediglich das Ergebnis der Ziehung ist im Diagramm dargestellt. Eigentlich sollte man für die nächste Ziehung die neue Ausgangssituation darstellen, die aber für jeden Knoten einer Ebene anders ist. Erst ab der zweiten Ebene (N ≥ 2) kann es Knoten mit identischer Belegung des Lostopfes geben (etwa für N = 2, wenn 01 oder 10 gezogen wurde). Wenn man jetzt für jede der im Baumdiagramm dargestellten Ziehungen eine Wahrscheinlichkeit angeben möchte, muss man zuerst aus den bisherigen Ergebnissen die aktuelle Belegung des Lostopfes bestimmen.

Um das Vorgehen zu demonstrieren, sollen zunächst für die Ebene mit N = 2 in Abbildung 2 die Wahrscheinlichkeiten P(X = n) berechnet werden; es wird sich zeigen, dass dieses einfache Beispiel bereits alle Elemente enthält, die zur allgemeinen Berechnung nötig sind.

Beispiel: Berechnung von P(X = n) für N = 2

Die Anzahl der Treffer n kann die Werte 0, 1 und 2 annehmen; die relevanten Elementarereignisse sind 00 für 0 Treffer, 01 und 10 für einen Treffer sowie 11 für 2 Treffer. Ihre Wahrscheinlichkeiten werden in den Gleichungen (1) bis (3) berechnet.

Wählt man wieder N = 2, aber beliebige K und L (lediglich mit der Einschränkung, dass beide größer oder gleich 2 sein sollen), berechnen sich die Wahrscheinlichkeiten P(X = n) durch Gleichung (4) bis (6).

Abbildung 4: Am Beispiel N = 2 wird demonstriert, wie das Baumdiagramm aus Abbildung 2 ausgewertet wird. Dazu muss man nach jedem Zug angeben, wie die Urne für die nächste Ziehung bestückt ist. Schon an diesem einfachen Beispiel erkennt man eine wichtige Eigenschaft: Ergebnisse mit gleicher Treffer-Anzahl, die sich lediglich in der Reihenfolge unterscheiden, besitzen identische Wahrscheinlichkeit. (Hier sind dies nur die Ergebnisse 01 und 10.) Diese Eigenschaft erleichtert die Herleitung der hypergeometrischen Verteilung.

Insbesondere an Gleichung (5) kann man ablesen, wie derartige Wahrscheinlichkeiten im Allgemeinen zu berechnen sind:

Für jeden Zweig, der zu einem Knoten mit n Treffern führt, ist die Wahrscheinlichkeit p_n(K, L, N) identisch – wie sie berechnet wird, folgt sofort.
Man muss nur noch abzählen, wie viele Knoten mit n Treffern in der N-ten Ebene vorkommen: Eine noch zu berechnende Anzahl A_n(N).

Für die gesuchte Wahrscheinlichkeit gilt dann:

P(X = n) = A_n(N) · p_n(K, L, N).

Zur Berechnung von p_n(K, L, N):

Werden n Treffer gezogen und nimmt man an, dass zuerst die n Treffer und anschließend die N-n Nieten gezogen werden, also die Folge

1 1 ... 1 0 0 ... 0 (mit n Einsen und N-n Nullen)

entsteht, so berechnet sich p_n(K, L, N) durch den Bruch in Gleichung (1) in Abbildung 5. Der Term lässt sich einfacher mit Hilfe von Fakultäten schreiben, da für die Treffer n-mal und für die Nieten (N-n)-mal "heruntergezählt" wird, siehe Gleichung (2). Im Nenner wird für die gesamte Anzahl an Losen von M bis M-N heruntergezählt.

Abbildung 5: Verallgemeinert man die Eigenschaft, die in Abbildung 4 für N = 2 festgestellt wurde, nämlich dass Ergebnisse mit gleicher Treffer-Anzahl identische Wahrscheinlichkeiten besitzen, kann man leicht die Formel für die hypergeometrische Verteilung herleiten: Dazu muss die Wahrscheinlichkeit für n Treffer bei N Ziehungen für eine spezielle Reihenfolge berechnet werden und anschließend abgezählt werden, wie oft n Treffer bei N Ziehungen vorkommen können.

Der entscheidende Schritt ist jetzt, dass die in Gleichung (1) beziehungsweise (2) berechnete Wahrscheinlichkeit auch für jede andere Abfolge von N Treffern und N-n Nieten gilt. Denn erscheinen die Treffer und Nieten in einer anderen Reihenfolge, dann werden zur Berechnung der Wahrscheinlichkeit genau die Faktoren wie in Gleichung (1) angesetzt, sie werden lediglich umsortiert.

Man muss jetzt nur noch fragen: Wie viele Ergebnisse gibt es bei N Ziehungen mit n Treffern und N-n Nieten? Da zur Bildung einer Folge wie

1 1 ... 1 0 0 ... 0

n Stellen für die n Treffer aus insgesamt N-n Stellen ausgewählt werden müssen, berechnet sich die Anzahl A_n(N) durch den Binomialkoeffizient "n aus N" (siehe Gleichung (3) in Abbildung 5).

Damit kann man die gesuchte Wahrscheinlichkeit P(X = n) berechnen und man erhält wieder das Ergebnis aus Gleichung (3) ind Abbildung 3 (siehe Gleichung (4) in Abbildung 5).

Aufgabe: Die Berechnung der Wahrscheinlichkeit P(X = n) in Abbildung 5 zeigt nicht alle Zwischenschritte. Vervollständigen Sie die Berechnung.

Beispiel: Zahlenlotto

Es wird oft diskutiert, ob man beim Zahlenlotto die Zahlen 1 bis 31 überhaupt ankreuzen soll, da diese Zahlen für ein Datum verwendet werden und womöglich häufiger angekreuzt werden als die restlichen Zahlen. Daraus ergibt sich eine Fragestellung, die mit Hilfe der hypergeometrischen Verteilung beantwortet werden kann:

Wie groß sind die Wahrscheinlichkeiten dafür, dass bei einer Ziehung im Zahlenlotto "6 aus 49" genau n = 0, 1, ..., 6 Zahlen aus der Menge {1, 2, ..., 31} stammen?

Beim Zahlenlotto wird ohne Zurücklegen gezogen und man betrachtet hier die Menge {1, 2, ..., 31} als die Treffer und die anderen 18 Zahlen als Nieten. Dann ist

L = 31, K = 49 - 31 = 18 und N = 6.

Die Zufallsvariable X wird definiert durch die Anzahl der Zahlen ber Lotto-Ziehung, die in {1, 2, ..., 31} liegen; sie kann die Werte n = 0, 1, ..., 6 annehmen. Die gesuchten Wahrscheinlichkeiten können mit der hypergeometrischen Verteilung zu den Parametern K, L, N berechnet werden; die folgende Tabelle zeigt die gesuchten Wahrscheinlichkeiten.

n	0	1	2	3	4	5	6
P(X = n)	0.00133	0.01899	0.10175	0.26230	0.34427	0.21871	0.05265

Abbildung 6 zeigt die Wahrscheinlichkeiten P(X = n) gegen n aufgetragen.

Abbildung 6: Rot eingetragen sind die Wahrscheinlichkeiten dafür, dass beim Zahlenlotto "6 aus 49" genau n = 0, 1, .., 6 Zahlen aus 1, 2, ..., 31 gezogen werden. Blau eingezeichnet ist der Erwartungswert der Treffer-Anzahl. Berechnet werden die Wahrscheinlichkeiten mit der hypergeometrischen Verteilung zu den Parametern N = 6 (Anzahl der Ziehungen), L = 31 (Anzahl der Treffer) und K = 18 (Anzahl der Nieten).

In Abbildung 6 ist zusätzlich zu den Wahrscheinlichkeiten P(X = n) der Erwartungswert

E (X) = ∑ n · P(X = n)

(blau) eingezeichnet. Da 31 von 49 Zahlen hier als Treffer betrachtet werden und 6 Zahlen gezogen werden, lautet die naive Schätzung für den Erwartungswert:

E (X) = 6 · 31 / 49 = 3.795918

und die Auswertung der Wahrscheinlichkeiten aus obiger Tabelle liefert genau diesen Wert. Damit stellt sich sofort die nächste Frage zur hypergeometrischen Verteilung: Wie wird ihr Erwartungswert berechnet? Ist obige Übereinstimmung zufällig oder ein Hinweis auf die allgemeine Formel?

Eigenschaften der hypergeometrischen Verteilung

Das letzte Beispiel wirft die Frage auf, wie der Erwartungswert der hypergeometrischen Verteilung berechnet wird und ob sich tatsächlich die einfache Formel

E (X) = N · L / M = N · L / (K + L)

ergibt oder ob dies nur in dem speziellen Beispiel gültig ist; da das Ziehen ohne Zurücklegen erfolgt und es schwer nachvollziehbar ist, wie sich die jeweils neue Ausgangssituation auf den Erwartungswert auswirkt, ist dieses Ergebnis keine Selbstverständlichkeit. Die "einfache" Formel oben wäre für das Ziehen mit Zurücklegen sofort verständlich: Die Wahrscheinlichkeit dafür, dass ein Treffer gezogen wird, beträgt bei jedem Zug L / M und der Erwartungswert bei N Zügen ist dann N · L / M.

Die folgenden Ergebnisse werden ohne Beweis mitgeteilt. Denn die Methode, wie man den Erwartungswert der hypergeometrischen Verteilung berechnet, ist für viele Zufallsvariablen relevant; sie wird dann etwas allgemeiner bei den Eigenschaften von Zufallsvariablen dargestellt.

Die Frage nach dem Erwartungswert zieht sofort die Frage nach der Varianz (und der Standardabweichung) nach sich. Auch diese Formeln werden hier ohne Beweis angegeben.

Abbildung 7 zeigt in Gleichung (1) zuerst nochmals die Wahrscheinlichkeiten P(X = n) einer hypergeometrisch verteilten Zufallsvariable X mit Parametern K, L, N. In Gleichung (2) wird gezeigt, wie man eigentlich den Erwartungswert berechnen muss: in der Summe stehen dann jeweils Produkte, in denen n und zwei Binomialkoeffizienten vorkommen, wobei beide Binomialkoeffizienten von n abhängen.

Da man diese Summe (2) nicht ohne weitere Hilfsmittel berechnen kann, muss man sich hier eine andere Methode überlegen, um eine Formel für den Erwartungswert in Abhängigkeit von K, L und N herzuleiten. Eine einfache Möglichkeit besteht darin, sogenannte Indikatorvariablen einzuführen und X als Summe dieser Indikatorvariablen zu schreiben. Wählt man sie geschickt, kann die Summe sehr einfach berechnet werden. Das Ergebnis ist in Gleichung (3) gezeigt.

Mit dieser Methode kann auch die Varianz berechnet werden, was aber zu eher unübersichtlichen Termen führt. Gleichung (4) zeigt die Varianz; die Standardabweichung erhält man durch Ziehen der Quadratwurzel.

Die Berechnung von Erwartungswert (3) und Varianz (4) der hypergeometrischen Verteilung erfolgt in Berechnung von Erwartungswerten und Varianzen mit Hilfe von Indikatorvariablen.

Abbildung 7: Der Erwartungswert und die Varianz der hypergeometrischen Verteilung. Hier werden nur die Ergebnisse, also die Formeln in Abhängigkeit der Parameter K, L und N angegeben; die Herleitung erfolgt an anderer Stelle.

Aufgabe: Berechnen Sie de Varianz und die Standardabweichung der Zufallsvariable aus dem Beispiel oben zum Ziehen der Lottozahlen (mit Treffer in 1, 2, ..., 31):

einmal direkt aus den oben angegebenen Wahrscheinlichkeiten,
einmal mit Formel (4) aus Abbildung 7.