Spezielle Wahrscheinlichkeitsverteilungen: die hypergeometrische Verteilung

Die hypergeometrische Verteilung beschreibt die Wahrscheinlichkeit dafĂŒr, dass beim Ziehen ohne ZurĂŒcklegen n Treffer aus einer Urne gezogen werden; dazu befinden sich in der Urne anfangs L Treffer und K Nieten und es werden N Lose entnommen. Die AbhĂ€ngigkeit der Verteilung von den drei Parametern K, L und N erschwert den Zugang zur Berechnung der gesuchten Wahrscheinlichkeiten. Es werden zwei - natĂŒrlich gleichwertige - Methoden gezeigt, wie man die Wahrscheinlichkeiten berechnet.
Noch keine Stimmen abgegeben
Noch keine Kommentare

Einordnung des Artikels

Die Diskussion der hypergeometrischen Verteilung ist sehr viel leichter verstĂ€ndlich, wenn man mit dem AbzĂ€hlproblem vertraut ist, das in Spezielle AbzĂ€hlprobleme: Ziehen ohne ZurĂŒcklegen besprochen wurde. Kenntnis der geometrischen Verteilung ist hilfreich, aber nicht notwendig.

Bezeichnungen und Definition der hypergeometrischen Verteilung

Im folgenden wird eine Urne betrachtet, die zwei Arten von Kugeln enthĂ€lt, etwa rote und blaue Kugeln (siehe Abbildung 1 oben fĂŒr das Beispiel K = 3 und L = 2). Die Anzahl der roten Kugeln werde mit K bezeichnet, die der blauen Kugeln mit L; insgesamt enthĂ€lt die Urne K + L = M Kugeln.

Oft stellt man sich statt der Kugeln in einer Urne vor, dass es sich um einen Lostopf mit insgesamt M Losen handelt, darunter sind K Nieten (0) und L Treffer (1), siehe Abbildung 1 (Mitte). Die Bezeichnungen 0 und 1 fĂŒr die Nieten und Treffer wird im Folgenden stets verwendet.

Abbildung 1: In einer Urne befinden sich rote und blaue Kugeln, man kann sich auch einen Lostopf mit Nieten (0) und Treffern (1) vorstellen. Aus dem Lostopf werden nacheinander N Lose ohne ZurĂŒcklegen gezogen. Die Tabelle unten zeigt alle möglichen Ergebnisse im Fall K = 3 Nieten, L = 2 Treffer und N = 5 Ziehungen. Dabei werden zwei Ergebnisse als unterschiedlich angesehen, wenn sie sich in der Reihenfolge der gezogenen Lose unterscheiden (siehe etwa zweite und dritte Spalte der Tabelle).Abbildung 1: In einer Urne befinden sich rote und blaue Kugeln, man kann sich auch einen Lostopf mit Nieten (0) und Treffern (1) vorstellen. Aus dem Lostopf werden nacheinander N Lose ohne ZurĂŒcklegen gezogen. Die Tabelle unten zeigt alle möglichen Ergebnisse im Fall K = 3 Nieten, L = 2 Treffer und N = 5 Ziehungen. Dabei werden zwei Ergebnisse als unterschiedlich angesehen, wenn sie sich in der Reihenfolge der gezogenen Lose unterscheiden (siehe etwa zweite und dritte Spalte der Tabelle).

Aus der Urne werden nacheinander Kugeln gezogen, wobei die gezogenen Kugeln nicht zurĂŒckgelegt werden.

Mit N wird stets die Anzahl der Ziehungen bezeichnet; und da die Kugeln nicht zurĂŒckgelegt werden, kann N nicht grĂ¶ĂŸer sein als M = K + L.

In der Tabelle in Abbildung 1 unten sind die 10 Möglichkeiten dargestellt, wenn aus der Urne 5 Kugeln gezogen werden und dabei die Reihenfolge beachtet wird. In der Tabelle zÀhlt die erste Zeile die möglichen Ziehungen; jede der möglichen Ziehungen ist dann in einer Spalte dargestellt.

In Spezielle AbzĂ€hlprobleme: Ziehen ohne ZurĂŒcklegen wurde die Anordnung aus Abbildung 1 verwendet, um ein AbzĂ€hlproblem zu formulieren und zu lösen: Man sucht die Anzahl A(K, L, N) die möglichen Ergebnisse, wenn aus dem Lostopf mit K Nieten (0) und L Treffern nacheinander N Lose ohne ZurĂŒcklegen gezogen werden; dabei ist N ≀ M, da der Lostopf nach M Ziehungen leer ist.

Hier soll die Anordnung aus Abbildung 1 unter dem Aspekt der Wahrscheinlichkeit betrachtet werden. Nimmt man an, dass jedes der Lose mit gleicher Wahrscheinlichkeit gezogen wird (Laplace-Annahme), so ist folgende Fragestellung naheliegend:

Wie groß ist die Wahrscheinlichkeit dafĂŒr, dass man bei N Ziehungen genau n Treffer erhĂ€lt? Dabei wird vorausgesetzt, dass der Lostopf zu Beginn K Nieten und L Treffer enthĂ€lt und dass stets ohne ZurĂŒcklegen gezogen wird.

Die angemessene Formulierung des Problems erfolgt mit Hilfe einer Zufallsvariable XK, L, N, die die Anzahl der Treffer bei N Ziehungen angibt; gesucht sind dann die Wahrscheinlichkeiten:

P(XK, L, N = n), n = 0, 1, ..., L und N ≀ M = K + L sowie K, L ≄ 1.

Suggestiver – und besser geeignet, um spĂ€ter Wahrscheinlichkeiten zu berechnen – ist die Darstellung der möglichen Ziehungen als Baumdiagramm. In Abbildung 2 gibt jeder Knoten des Baumes an, welche Lose bis dorthin gezogen wurden. Das Diagramm ist also folgendermaßen zu lesen:

  • Es zeigt 5 Ebenen; auf jeder Ebene N = 1, 2, ..., 5 sind die möglichen Ergebnisse zu sehen, die bei N Ziehungen auftreten können.
  • ZĂ€hlt man die Anzahl der Ergebnisse pro Ebene, so erhĂ€lt man die Zahlen 2, 4, 7, 10, 10, also die Zahlenwerte von A(K = 3, L = 2, N) fĂŒr N = 1, 2, ..., 5.
  • WĂŒrde man mit ZurĂŒcklegen ziehen, erhĂ€lt man die Anzahlen 2N, also 2, 4, 8, 16, ...; da aber im Lostopf irgendwann die Lose einer Art ausgehen, sind die Anzahlen beim Ziehen ohne ZurĂŒcklegen kleiner oder gleich 2N.
  • Um besser nachzuvollziehen, wie viele Treffer gezogen wurden, werden Farben eingesetzt: Alle Ergebnisse mit keinem Treffer sind rot, mit einem Treffer grĂŒn, mit zwei Treffern blau.

Abbildung 2: Darstellung der Ergebnisse beim Ziehen ohne ZurĂŒcklegen. In der Urne befinden sich anfangs K = 3 Nieten und L = 2 Treffer. Jede Ebene (N = 1, 2, ..., 5) zeigt alle möglichen Ergebnisse bei N Ziehungen. Da man aus den Ergebnissen ablesen kann, welche Lose sich noch in der Urne befinden, kann man das Baumdiagramm leicht auswerten und die Wahrscheinlichkeiten aller möglichen Ergebnisse berechnen.Abbildung 2: Darstellung der Ergebnisse beim Ziehen ohne ZurĂŒcklegen. In der Urne befinden sich anfangs K = 3 Nieten und L = 2 Treffer. Jede Ebene (N = 1, 2, ..., 5) zeigt alle möglichen Ergebnisse bei N Ziehungen. Da man aus den Ergebnissen ablesen kann, welche Lose sich noch in der Urne befinden, kann man das Baumdiagramm leicht auswerten und die Wahrscheinlichkeiten aller möglichen Ergebnisse berechnen.

Ohne Berechnungen auszufĂŒhren, kann man an Abbildung 2 bereits wichtige Hinweise auf die gesuchten Wahrscheinlichkeiten ablesen:

  1. Die Laplace-Annahme – und vor allem wie man sie falsch verstehen könnte – soll nochmals ausdrĂŒcklich formuliert werden: Betrachtet man etwa den einfachsten Fall N = 1, so gibt es zwei mögliche Ergebnisse, nĂ€mlich Niete und Treffer. Man könnte diese beiden Ergebnisse als die gleichwahrscheinlichen Elementarereignisse auffassen. Aber das ist falsch. Denn im Lostopf befinden sich anfangs 5 Lose und fĂŒr jedes dieser 5 Lose ist die Wahrscheinlichkeit gleich groß, dass es im ersten Zug ausgewĂ€hlt wird (also 1/5). Die beiden Ereignisse Niete und Treffer fĂŒr N = 1 haben somit die Wahrscheinlichkeiten 3/5 beziehungsweise 2/5. Daher ist es nicht möglich, durch simples AbzĂ€hlen der gleichfarbigen Knoten in Abbildung 2 die gesuchten Wahrscheinlichkeiten zu bestimmen.
  2. So wie die Ergebnisse in Abbildung 2 in die Knoten eingetragen sind, ist noch erkennbar, in welcher Reihenfolge die Lose gezogen wurden. Die Fragestellung, also die Berechnung der Wahrscheinlichkeiten P(XK,L,N = n) nimmt aber keine RĂŒcksicht auf die Reihenfolge, in der die Lose gezogen wurden. Auch hieran kann man ablesen, dass das AbzĂ€hlproblem, also die Berechnung von A(K, L, N), eine andere Fragestellung ist als die Berechnung der Wahrscheinlichkeiten P(XK,L,N = n). Es wird also nötig sein, einen anderen Ansatz zu wĂ€hlen.

In den folgenden Abschnitten werden dann zwei Wege aufgezeigt, wie man die Wahrscheinlichkeiten P(XK,L,N = n) berechnen kann, nÀmlich

  1. Entweder durch reines AbzÀhlen, wobei erst das richtige AbzÀhlproblem formuliert werden muss.
  2. Oder durch Auswertung des Baumdiagramms, also der direkten Berechnung der Wahrscheinlichkeiten.

Wenn es gelungen ist, die Wahrscheinlichkeiten P(XK,L,N = n) in AbhĂ€ngigkeit von K, L, N, n zu berechnen, kann man auch definieren, was eine hypergeometrische Verteilung ist: Man sagt eine Zufallsvariable X gehorcht der hypergeometrischen Verteilung zu den Parametern K, L, N, wenn die Wahrscheinlichkeiten P(X = n) mit denen von P(XK,L,N = n) ĂŒbereinstimmen.

Hier ist nochmals die Übersicht ĂŒber die hĂ€ufig benötigten Bezeichnungen beim Ziehen ohne ZurĂŒcklegen:

K Anzahl der Nieten (0)
L Anzahl der Treffer (1)
M Anzahl aller Lose: M = K + L
N Anzahl der Ziehungen: N ≀ M
XK,L,N Zufallsvariable, die die Anzahl der Treffer angibt
P(XK,L,N = n) Wahrscheinlichkeit fĂŒr n Treffer

Die hypergeometrische Verteilung

Berechnung der Wahrscheinlichkeiten durch geeignetes AbzÀhlen

Die Berechnung von Wahrscheinlichkeiten kann immer dann besonders einfach durch geeignetes AbzÀhlen erfolgen, wenn es gelingt gleich wahrscheinliche Elementarereignisse zu identifizieren. Unter der Laplace-Annahme wird jedes aus dem Lostopf mit gleicher Wahrscheinlichkeit gezogen. Dies hat zur Folge, dass die Knoten im Baumdiagramm (Abbildung 2) im Allgemeinen unterschiedliche Wahrscheinlichkeiten besitzen; dazu reicht es, die Knoten in der ersten Ebene mit der Beschriftung 0 und 1 zu betrachten, die unter der Laplace-Annahme mit den Wahrscheinlichkeiten 3/5 beziehungsweise 2/5 auftreten.

In Abbildung 3 wird gezeigt, wie man stattdessen abzÀhlen muss: Die Lose sind wie bereits erklÀrt als Nieten und Treffer zu unterscheiden. ZusÀtzlich werden sie von 1 bis M = K + L numeriert; etwa die Nieten von 1 bis K, die Treffer mit den restlichen L Zahlen von K+1 bis M.

Ist X die Zufallsvariable, die die Anzahl der Treffer angibt, wenn sich im Lostopf anfangs K Nieten und L Treffer befinden und N-mal gezogen wird. Dann ist die Wahrscheinlichkeit des Ereignisses X = n gesucht. Dazu benötigt man zwei Anzahlen:

  1. Die Anzahl aller möglichen Ergebnisse.
  2. Die Anzahl der Ergebnisse mit genau n Treffern.

Abbildung 3: Um die Wahrscheinlichkeit dafĂŒr zu berechnen, dass bei N Ziehungen genau n Treffer gezogen werden, werden die Lose numeriert. Jetzt lĂ€sst sich das Ereignis "n Treffer" bei N Ziehungen ohne ZurĂŒcklegen leicht abzĂ€hlen (Kombinationen ohne Wiederholungen). Das Ergebnis fĂŒhrt zur Definition der hypergeometrischen Verteilung, siehe Gleichung (4).Abbildung 3: Um die Wahrscheinlichkeit dafĂŒr zu berechnen, dass bei N Ziehungen genau n Treffer gezogen werden, werden die Lose numeriert. Jetzt lĂ€sst sich das Ereignis "n Treffer" bei N Ziehungen ohne ZurĂŒcklegen leicht abzĂ€hlen (Kombinationen ohne Wiederholungen). Das Ergebnis fĂŒhrt zur Definition der hypergeometrischen Verteilung, siehe Gleichung (4).

Um die Anzahl der möglichen Ergebnisse zu bestimmen, kann man davon absehen, dass die Lose in Nieten und Treffer unterschieden werden. Es handelt sich um eine Auswahlproblem wie beim Zahlenlotto; hier werden N Lose aus M = K + L Losen gezogen und die Anzahl berechnet sich durch den Binomialkoeffizient nach Gleichung (1) in Abbildung 3.

Sollen sich unter den N gezogenen Losen genau n Treffer befinden, dann mĂŒssen N - n Nieten enthalten sein – jetzt verwendet man die Unterscheidung zwischen Nieten und Treffern. Die Anzahl der Möglichkeiten, aus L Treffern n auszuwĂ€hlen ist der Binomialkoeffizient im zweiten Faktor in Gleichung (2), die Anzahl N - n Nieten aus K Nieten auszuwĂ€hlen der erste Faktor in Gleichung (2). Da man jetzt beliebige Kombinationen herstellen kann, werden die beiden Anzahlen miteinander multipliziert und man erhĂ€lt insgesamt Gleichung (2).

Dividiert man die soeben berechneten Anzahlen, erhÀlt man die gesuchte Wahrscheinlichkeit P(X = n), siehe Gleichung (3) in Abbildung 3. Mit ihnen lÀsst sich die hypergeometrische Verteilung einer Zufallsvariable definieren, siehe Gleichung (4).

Die Angabe fĂŒr die Anzahl der Treffer 0 ≀ n ≀ L mag auf den ersten Blick verwirren. Denn einerseits sind in der Urne nur L Treffer, so dass maximal L Treffer gezogen werden können, andererseits wird N-mal gezogen, so dass die Anzahl der Treffer N nicht ĂŒbersteigen kann. Streng genommen sollte man daher schreiben - da nicht vorausgesetzt wurde, ob L oder N grĂ¶ĂŸer ist:

0 ≀ n ≀ min(L, N).

Man kann Gleichung (4) aber auch so lesen, dass die Wahrscheinlichkeiten P(X = n) gleich 0 sind, wenn n > N, da maximal N-mal gezogen wird. Diese Spitzfindigkeit wird noch öfters auftreten, aber nicht nochmals diskutiert.

Aufgaben:

1. Zahlenlotto:

Berechnen Sie fĂŒr das Zahlenlotto "6 aus 49" die Wahrscheinlichkeit dafĂŒr, dass zwei gerade und vier ungerade Zahlen gezogen werden.

Diskutieren Sie, ob dieses Problem so umformuliert werden kann, dass es sich um einen Spezialfall der Wahrscheinlichkeit (4) in Abbildung 3 handelt.

2. Normierung der Wahrscheinlichkeit:

Zeigen Sie, dass die Summe aller Wahrscheinlichkeiten in Gleichung (4) in Abbildung 3 gleich 1 ergibt, wenn man ĂŒber alle Werte von n = 0, 1, ..., N summiert.

Hinweis: Verwenden Sie die Vandermonde-IdentitĂ€t, siehe Abbildung 16 und 17 in EinfĂŒhrung des Begriffs der Faltung von Wahrscheinlichkeitsmaßen.

3. Gibt es eine Vereinfachung?

Schreiben Sie den Term fĂŒr P(X = n) in Gleichung (4) in Abbildung 3 mit FakultĂ€ten anstelle der Binomialkoeffizienten. Kann man den Term dadurch vereinfachen?

4. Die SpezialfÀlle N = 1 und N = M = K + L:

Geben Sie fĂŒr die SpezialfĂ€lle N = 1 und N = M = K + L an, welche Werte die Anzahl der Treffer n annehmen kann und berechnen Sie jeweils die Wahrscheinlichkeiten P(X = n) der hypergeometrischen Verteilung.

Berechnung der Wahrscheinlichkeiten durch Auswertung des Baumdiagramms

Wenn man das Baumdiagramm (wie in Abbildung 2) vorliegen hat, ist es naheliegender

  • die Knoten mit X = n zu gegebener Anzahl von Ziehungen N in der entsprechenden Ebene des Baumdiagramms zu identifizieren und
  • anschließend jedem Zweig des Baumes eine Wahrscheinlichkeit zuzuordnen (als Produkt der Wahrscheinlichkeiten der einzelnen Ziehungen, aus denen sich der Zweig zusammensetzt).

Die gesuchten Wahrscheinlichkeiten P(X = n) erhĂ€lt man dann durch Addition (Summe der Wahrscheinlichkeiten der Zweige, die zu Ereignissen X = n fĂŒhren).

In Abbildung 2 ist ganz oben – als Wurzelelement des Baumes – die Ausgangssituation des Lostopfes dargestellt: er enthĂ€lt K = 3 Nieten und L = 2 Treffer. In der ersten Verzweigung (N = 1) kann entweder eine Niete oder ein Treffer gezogen werden; lediglich das Ergebnis der Ziehung ist im Diagramm dargestellt. Eigentlich sollte man fĂŒr die nĂ€chste Ziehung die neue Ausgangssituation darstellen, die aber fĂŒr jeden Knoten einer Ebene anders ist. Erst ab der zweiten Ebene (N ≄ 2) kann es Knoten mit identischer Belegung des Lostopfes geben (etwa fĂŒr N = 2, wenn 01 oder 10 gezogen wurde). Wenn man jetzt fĂŒr jede der im Baumdiagramm dargestellten Ziehungen eine Wahrscheinlichkeit angeben möchte, muss man zuerst aus den bisherigen Ergebnissen die aktuelle Belegung des Lostopfes bestimmen.

Um das Vorgehen zu demonstrieren, sollen zunĂ€chst fĂŒr die Ebene mit N = 2 in Abbildung 2 die Wahrscheinlichkeiten P(X = n) berechnet werden; es wird sich zeigen, dass dieses einfache Beispiel bereits alle Elemente enthĂ€lt, die zur allgemeinen Berechnung nötig sind.

Beispiel: Berechnung von P(X = n) fĂŒr N = 2

Die Anzahl der Treffer n kann die Werte 0, 1 und 2 annehmen; die relevanten Elementarereignisse sind 00 fĂŒr 0 Treffer, 01 und 10 fĂŒr einen Treffer sowie 11 fĂŒr 2 Treffer. Ihre Wahrscheinlichkeiten werden in den Gleichungen (1) bis (3) berechnet.

WĂ€hlt man wieder N = 2, aber beliebige K und L (lediglich mit der EinschrĂ€nkung, dass beide grĂ¶ĂŸer oder gleich 2 sein sollen), berechnen sich die Wahrscheinlichkeiten P(X = n) durch Gleichung (4) bis (6).

Abbildung 4: Am Beispiel N = 2 wird demonstriert, wie das Baumdiagramm aus Abbildung 2 ausgewertet wird. Dazu muss man nach jedem Zug angeben, wie die Urne fĂŒr die nĂ€chste Ziehung bestĂŒckt ist. Schon an diesem einfachen Beispiel erkennt man eine wichtige Eigenschaft: Ergebnisse mit gleicher Treffer-Anzahl, die sich lediglich in der Reihenfolge unterscheiden, besitzen identische Wahrscheinlichkeit. (Hier sind dies nur die Ergebnisse 01 und 10.) Diese Eigenschaft erleichtert die Herleitung der hypergeometrischen Verteilung.Abbildung 4: Am Beispiel N = 2 wird demonstriert, wie das Baumdiagramm aus Abbildung 2 ausgewertet wird. Dazu muss man nach jedem Zug angeben, wie die Urne fĂŒr die nĂ€chste Ziehung bestĂŒckt ist. Schon an diesem einfachen Beispiel erkennt man eine wichtige Eigenschaft: Ergebnisse mit gleicher Treffer-Anzahl, die sich lediglich in der Reihenfolge unterscheiden, besitzen identische Wahrscheinlichkeit. (Hier sind dies nur die Ergebnisse 01 und 10.) Diese Eigenschaft erleichtert die Herleitung der hypergeometrischen Verteilung.

Insbesondere an Gleichung (5) kann man ablesen, wie derartige Wahrscheinlichkeiten im Allgemeinen zu berechnen sind:

  • FĂŒr jeden Zweig, der zu einem Knoten mit n Treffern fĂŒhrt, ist die Wahrscheinlichkeit pn(K, L, N) identisch – wie sie berechnet wird, folgt sofort.
  • Man muss nur noch abzĂ€hlen, wie viele Knoten mit n Treffern in der N-ten Ebene vorkommen: Eine noch zu berechnende Anzahl An(N).

FĂŒr die gesuchte Wahrscheinlichkeit gilt dann:

P(X = n) = An(N) · pn(K, L, N).

Zur Berechnung von pn(K, L, N):

Werden n Treffer gezogen und nimmt man an, dass zuerst die n Treffer und anschließend die N-n Nieten gezogen werden, also die Folge

1 1 ... 1 0 0 ... 0 (mit n Einsen und N-n Nullen)

entsteht, so berechnet sich pn(K, L, N) durch den Bruch in Gleichung (1) in Abbildung 5. Der Term lĂ€sst sich einfacher mit Hilfe von FakultĂ€ten schreiben, da fĂŒr die Treffer n-mal und fĂŒr die Nieten (N-n)-mal "heruntergezĂ€hlt" wird, siehe Gleichung (2). Im Nenner wird fĂŒr die gesamte Anzahl an Losen von M bis M-N heruntergezĂ€hlt.

Abbildung 5: Verallgemeinert man die Eigenschaft, die in Abbildung 4 fĂŒr N = 2 festgestellt wurde, nĂ€mlich dass Ergebnisse mit gleicher Treffer-Anzahl identische Wahrscheinlichkeiten besitzen, kann man leicht die Formel fĂŒr die hypergeometrische Verteilung herleiten: Dazu muss die Wahrscheinlichkeit fĂŒr n Treffer bei N Ziehungen fĂŒr eine spezielle Reihenfolge berechnet werden und anschließend abgezĂ€hlt werden, wie oft n Treffer bei N Ziehungen vorkommen können.Abbildung 5: Verallgemeinert man die Eigenschaft, die in Abbildung 4 fĂŒr N = 2 festgestellt wurde, nĂ€mlich dass Ergebnisse mit gleicher Treffer-Anzahl identische Wahrscheinlichkeiten besitzen, kann man leicht die Formel fĂŒr die hypergeometrische Verteilung herleiten: Dazu muss die Wahrscheinlichkeit fĂŒr n Treffer bei N Ziehungen fĂŒr eine spezielle Reihenfolge berechnet werden und anschließend abgezĂ€hlt werden, wie oft n Treffer bei N Ziehungen vorkommen können.

Der entscheidende Schritt ist jetzt, dass die in Gleichung (1) beziehungsweise (2) berechnete Wahrscheinlichkeit auch fĂŒr jede andere Abfolge von N Treffern und N-n Nieten gilt. Denn erscheinen die Treffer und Nieten in einer anderen Reihenfolge, dann werden zur Berechnung der Wahrscheinlichkeit genau die Faktoren wie in Gleichung (1) angesetzt, sie werden lediglich umsortiert.

Man muss jetzt nur noch fragen: Wie viele Ergebnisse gibt es bei N Ziehungen mit n Treffern und N-n Nieten? Da zur Bildung einer Folge wie

1 1 ... 1 0 0 ... 0

n Stellen fĂŒr die n Treffer aus insgesamt N-n Stellen ausgewĂ€hlt werden mĂŒssen, berechnet sich die Anzahl An(N) durch den Binomialkoeffizient "n aus N" (siehe Gleichung (3) in Abbildung 5).

Damit kann man die gesuchte Wahrscheinlichkeit P(X = n) berechnen und man erhÀlt wieder das Ergebnis aus Gleichung (3) ind Abbildung 3 (siehe Gleichung (4) in Abbildung 5).

Aufgabe: Die Berechnung der Wahrscheinlichkeit P(X = n) in Abbildung 5 zeigt nicht alle Zwischenschritte. VervollstÀndigen Sie die Berechnung.

Beispiel: Zahlenlotto

Es wird oft diskutiert, ob man beim Zahlenlotto die Zahlen 1 bis 31 ĂŒberhaupt ankreuzen soll, da diese Zahlen fĂŒr ein Datum verwendet werden und womöglich hĂ€ufiger angekreuzt werden als die restlichen Zahlen. Daraus ergibt sich eine Fragestellung, die mit Hilfe der hypergeometrischen Verteilung beantwortet werden kann:

Wie groß sind die Wahrscheinlichkeiten dafĂŒr, dass bei einer Ziehung im Zahlenlotto "6 aus 49" genau n = 0, 1, ..., 6 Zahlen aus der Menge {1, 2, ..., 31} stammen?

Beim Zahlenlotto wird ohne ZurĂŒcklegen gezogen und man betrachtet hier die Menge {1, 2, ..., 31} als die Treffer und die anderen 18 Zahlen als Nieten. Dann ist

L = 31, K = 49 - 31 = 18 und N = 6.

Die Zufallsvariable X wird definiert durch die Anzahl der Zahlen ber Lotto-Ziehung, die in {1, 2, ..., 31} liegen; sie kann die Werte n = 0, 1, ..., 6 annehmen. Die gesuchten Wahrscheinlichkeiten können mit der hypergeometrischen Verteilung zu den Parametern K, L, N berechnet werden; die folgende Tabelle zeigt die gesuchten Wahrscheinlichkeiten.

n 0 1 2 3 4 5 6
P(X = n) 0.00133 0.01899 0.10175 0.26230 0.34427 0.21871 0.05265

Abbildung 6 zeigt die Wahrscheinlichkeiten P(X = n) gegen n aufgetragen.

Abbildung 6: Rot eingetragen sind die Wahrscheinlichkeiten dafĂŒr, dass beim Zahlenlotto "6 aus 49" genau n = 0, 1, .., 6 Zahlen aus 1, 2, ..., 31 gezogen werden. Blau eingezeichnet ist der Erwartungswert der Treffer-Anzahl. Berechnet werden die Wahrscheinlichkeiten mit der hypergeometrischen Verteilung zu den Parametern N = 6 (Anzahl der Ziehungen), L = 31 (Anzahl der Treffer) und K = 18 (Anzahl der Nieten).Abbildung 6: Rot eingetragen sind die Wahrscheinlichkeiten dafĂŒr, dass beim Zahlenlotto "6 aus 49" genau n = 0, 1, .., 6 Zahlen aus 1, 2, ..., 31 gezogen werden. Blau eingezeichnet ist der Erwartungswert der Treffer-Anzahl. Berechnet werden die Wahrscheinlichkeiten mit der hypergeometrischen Verteilung zu den Parametern N = 6 (Anzahl der Ziehungen), L = 31 (Anzahl der Treffer) und K = 18 (Anzahl der Nieten).

In Abbildung 6 ist zusÀtzlich zu den Wahrscheinlichkeiten P(X = n) der Erwartungswert

E (X) = ∑ n · P(X = n)

(blau) eingezeichnet. Da 31 von 49 Zahlen hier als Treffer betrachtet werden und 6 Zahlen gezogen werden, lautet die naive SchĂ€tzung fĂŒr den Erwartungswert:

E (X) = 6 · 31 / 49 = 3.795918

und die Auswertung der Wahrscheinlichkeiten aus obiger Tabelle liefert genau diesen Wert. Damit stellt sich sofort die nĂ€chste Frage zur hypergeometrischen Verteilung: Wie wird ihr Erwartungswert berechnet? Ist obige Übereinstimmung zufĂ€llig oder ein Hinweis auf die allgemeine Formel?

Eigenschaften der hypergeometrischen Verteilung

Das letzte Beispiel wirft die Frage auf, wie der Erwartungswert der hypergeometrischen Verteilung berechnet wird und ob sich tatsÀchlich die einfache Formel

E (X) = N · L / M = N · L / (K + L)

ergibt oder ob dies nur in dem speziellen Beispiel gĂŒltig ist; da das Ziehen ohne ZurĂŒcklegen erfolgt und es schwer nachvollziehbar ist, wie sich die jeweils neue Ausgangssituation auf den Erwartungswert auswirkt, ist dieses Ergebnis keine SelbstverstĂ€ndlichkeit. Die "einfache" Formel oben wĂ€re fĂŒr das Ziehen mit ZurĂŒcklegen sofort verstĂ€ndlich: Die Wahrscheinlichkeit dafĂŒr, dass ein Treffer gezogen wird, betrĂ€gt bei jedem Zug L / M und der Erwartungswert bei N ZĂŒgen ist dann N · L / M.

Die folgenden Ergebnisse werden ohne Beweis mitgeteilt. Denn die Methode, wie man den Erwartungswert der hypergeometrischen Verteilung berechnet, ist fĂŒr viele Zufallsvariablen relevant; sie wird dann etwas allgemeiner bei den Eigenschaften von Zufallsvariablen dargestellt.

Die Frage nach dem Erwartungswert zieht sofort die Frage nach der Varianz (und der Standardabweichung) nach sich. Auch diese Formeln werden hier ohne Beweis angegeben.

Abbildung 7 zeigt in Gleichung (1) zuerst nochmals die Wahrscheinlichkeiten P(X = n) einer hypergeometrisch verteilten Zufallsvariable X mit Parametern K, L, N. In Gleichung (2) wird gezeigt, wie man eigentlich den Erwartungswert berechnen muss: in der Summe stehen dann jeweils Produkte, in denen n und zwei Binomialkoeffizienten vorkommen, wobei beide Binomialkoeffizienten von n abhÀngen.

Da man diese Summe (2) nicht ohne weitere Hilfsmittel berechnen kann, muss man sich hier eine andere Methode ĂŒberlegen, um eine Formel fĂŒr den Erwartungswert in AbhĂ€ngigkeit von K, L und N herzuleiten. Eine einfache Möglichkeit besteht darin, sogenannte Indikatorvariablen einzufĂŒhren und X als Summe dieser Indikatorvariablen zu schreiben. WĂ€hlt man sie geschickt, kann die Summe sehr einfach berechnet werden. Das Ergebnis ist in Gleichung (3) gezeigt.

Mit dieser Methode kann auch die Varianz berechnet werden, was aber zu eher unĂŒbersichtlichen Termen fĂŒhrt. Gleichung (4) zeigt die Varianz; die Standardabweichung erhĂ€lt man durch Ziehen der Quadratwurzel.

Die Berechnung von Erwartungswert (3) und Varianz (4) der hypergeometrischen Verteilung erfolgt in Berechnung von Erwartungswerten und Varianzen mit Hilfe von Indikatorvariablen.

Abbildung 7: Der Erwartungswert und die Varianz der hypergeometrischen Verteilung. Hier werden nur die Ergebnisse, also die Formeln in AbhÀngigkeit der Parameter K, L und N angegeben; die Herleitung erfolgt an anderer Stelle.Abbildung 7: Der Erwartungswert und die Varianz der hypergeometrischen Verteilung. Hier werden nur die Ergebnisse, also die Formeln in AbhÀngigkeit der Parameter K, L und N angegeben; die Herleitung erfolgt an anderer Stelle.

Aufgabe: Berechnen Sie de Varianz und die Standardabweichung der Zufallsvariable aus dem Beispiel oben zum Ziehen der Lottozahlen (mit Treffer in 1, 2, ..., 31):

  • einmal direkt aus den oben angegebenen Wahrscheinlichkeiten,
  • einmal mit Formel (4) aus Abbildung 7.