Einführung des Begriffs der Faltung von Wahrscheinlichkeitsmaßen

Die Faltung von Wahrscheinlichkeitsmaßen ist eine der wichtigsten Begriffsbildungen, um Summen von unabhängigen Zufallsvariablen zu beschreiben, da sich mit ihr viele Eigenschaften von Zufallsvariablen und Wahrscheinlichkeitsverteilungen prägnant formulieren lassen und zahlreiche Bezüge zu anderen (scheinbar entfernten) Begriffen und Aussagen herstellen lassen. In diesem einführenden Kapitel wird auf exakte mathematische Definitionen und Beweise verzichtet, stattdessen soll der Begriff der Faltung an typischen Beispielen motiviert werden.

walter

09 Sep. 2020

Normalverteilung diskrete Zufallsvariable Vandermonde-Identität Standard-Normalverteilung Wahrscheinlichkeitsmaß Binomialverteilung Faltung Wahrscheinlichkeitsraum Gleichverteilung Zufallsvariable Faltungsintegral Unabhängigkeit Summe von Zufallsvariablen stetige Zufallsvariable

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Eigenschaften von Zufallsvariablen
    - Einführung des Begriffs der Faltung von Wahrscheinlichkeitsmaßen

Vorausgesetzt werden Kenntnisse über Zufallsvariablen, vor allem Erwartungswert, Varianz und Standardabweichung.

Einführung

Zahlreiche Probleme aus der Wahrscheinlichkeitsrechnung können so modelliert werden, dass mehrere unabhängige Zufallsvariablen X₁, X₂, ..., X_n und anschließend deren Summe

S_n = X₁ + X₂ + ... + X_n

diskutiert werden muss.

Als Beispiel denke man an ein Glücksspiel, das mehrfach ausgeführt wird und bei dem X_i den Nettogewinn eines Spieles beschreibt, für den Spieler aber die Summe aller Nettogewinne relevant ist.

Um die Summe von n Zufallsvariablen besser zu verstehen, wird man zuerst die Summe von zwei unabhängigen Zufallsvariablen Z = X₁ + X₂ untersuchen: Kann man für die Zufallsvariable Z berechnen, welche Werte sie mit welchen Wahrscheinlichkeiten annimmt, so wird man daraus einen Formalismus ableiten können, wie man die Wahrscheinlichkeitsverteilung der Summe der unabhängigen Zufallsvariablen X₁ + X₂ + ... + X_n berechnet.

Etwas abstrakter formuliert: Man sucht zu den Wahrscheinlichkeitsmaßen, die die Zufallsvariablen X₁ beziehungsweise X₂ induzieren, das Wahrscheinlichkeitsmaß, das die Zufallsvariable

Z = X₁ + X₂

induziert. Dieses neue Wahrscheinlichkeitsmaß wird als die Faltung der gegebenen Wahrscheinlichkeitsmaße bezeichnet. Und kennt man die Faltung von zwei Wahrscheinlichkeitsmaßen, kann man für beliebige Summen X₁ + X₂ + ... + X_n von unabhängigen Zufallsvariablen die Wahrscheinlichkeitsverteilung berechnen.

Die folgenden (einfachen) Beispiele sollen einen Eindruck vermitteln,

wie man eine Faltung berechnet,
welche Eigenschaften sie hat und speziell
welche Invarianz-Eigenschaft manche Wahrscheinlichkeitsmaße haben.

Das erste Beispiel ist als Aufgabe formuliert und soll in die Problematik einführen. Je nachdem mit welchen Mitteln man sie zu lösen versucht, erscheint ihre Lösung sehr kompliziert bis trivial. Die anderen Beispiele werden ausführlich besprochen und sollen zum Begriff der Faltung hinführen.

Aufgabe: Werfen zweier Münzen

Die Problemstellung

Gegeben sind zwei Münzen, die wie üblich mit Kopf und Zahl beschriftet sind, was aber im Folgenden meist mit 0 und 1 abgekürzt wird. Die Wahrscheinlichkeiten beider Münzen für 0 und 1 seien unbekannt. Für die erste Münze wird die Wahrscheinlichkeit für 1 mit p₁ bezeichnet, für die zweite Münze mit p₂. Entsprechend lauten die Wahrscheinlichkeiten für 0:

q₁ = 1 - p₁ und q₂ = 1 - p₂.

Bei dem folgenden Glücksspiel werden beide Münzen gleichzeitig geworfen und die Anzahl der 1 (Zahl) wird bestimmt. Die entsprechende Zufallsvariable werde mit Z bezeichnet; sie kann die Werte 0, 1 und 2 annehmen.

Man kann jetzt folgende Aufgabe formulieren:

Wie groß müssen die Wahrscheinlichkeiten für 0 und 1 der beiden Münzen sein, damit sich für die Werte von Z eine Gleichverteilung ergibt?

Man kann die Frage auch detaillierter formulieren:

Gibt es eine Kombination der Wahrscheinlichkeiten p₁ und p₂, so dass die Werte von Z gleichverteilt sind?
Falls ja: Wie lautet diese Kombination und ist sie eindeutig?
Falls nein: warum ist eine derartige Kombination nicht möglich?

Modellierung des Zufallsexperimentes

Für die erste Münze wird ein Wahrscheinlichkeitsraum Ω_x gewählt, auf dem die Zufallsvariable X definiert ist. Die Zufallsvariable X nimmt den Wert 0 an, wenn Kopf (= 0) geworfen wird und den Wert 1, wenn Zahl (= 1) geworfen wird.

Entsprechend wird der zweite Münzwurf durch einen Wahrscheinlichkeitsraum Ω_y modelliert und das Ergebnis des Wurfes wird mit der Zufallsvariable Y beschrieben; sie nimmt die selben Werte an wie X. Allerdings unterscheiden sich die Münzen (und damit die Zufallsvariablen X und Y) in den Wahrscheinlichkeiten, mit denen die Werte 0 oder 1 angenommen werden.

Abbildung 1: Darstellung der Wahrscheinlichkeitsräume und der relevanten Zufallsvariablen für den zweimaligen Münzwurf. Die Bezeichnungen werden im Text erklärt.

In Abbildung 1 werden links die beiden Wahrscheinlichkeitsräume Ω_x und Ω_y sowie die Zufallsvariablen X und Y dargestellt. In die Wahrscheinlichkeitsräume sind die Wahrscheinlichkeiten der relevanten Ereignisse eingetragen, zum Beispiel

P(X = 0) = q₁.

Das zusammengesetzte Experiment, bei dem beide Münzen geworfen werden, wird durch den Wahrscheinlichkeitsraum

Ω = Ω_x × Ω_y

beschrieben (siehe Abbildung 1 mitte). Die Zufallsvariable Z, die die Anzahl der geworfenen Zahl beschreibt, kann durch

Z = X + Y

ausgedrückt werden. Rechts in Abbildung 1 sind die relevanten Wahrscheinlichkeiten berechnet:

P(Z = 0), P(Z = 1), P(Z = 2).

Für ihre Berechnung verwendet man die Unabhängigkeit der beiden Münzwürfe.

Mit Hilfe dieser Modellierung lässt sich die oben gestellte Frage konkretisieren:

Lassen sich Werte für p₁ und p₂ finden, so dass P(Z = 0) = P(Z = 1) = P(Z = 2) = 1/3?

Aufgabe:

Setzt man die Wahrscheinlichkeiten aus Abbildung 1 rechts gleich 1/3, entsteht ein Gleichungssystem mit 2 Unbekannten. Gibt es dafür eine, mehrere oder keine Lösung?

Lässt sich das hier gestellte Problem einfacher lösen?

Erstes Beispiel: Augensumme beim zweimaligen Würfeln

Beschreiben die beiden Zufallsvariablen X₁ und X₂ das Ergebnis des ersten beziehungsweise zweiten Wurfes beim Würfeln, dann sind die Verbund-Wahrscheinlichkeiten

P(X₁ = x₁, X₂ = x₂)

in Tabelle 1 in Abbildung 2 dargestellt. Dabei werden zwei Voraussetzungen gemacht:

Es handelt sich um einen Laplace-Würfel.
Die beiden Würfe erfolgen unabhängig voneinander.

Abbildung 2: Die Bezeichnungen für das zweimalige Werfen eines Laplace-Würfels. In der Tabelle sind die Verbund-Wahrscheinlichkeiten aller Kombinationen von Elementarereignissen dargestellt. Unten wird gezeigt, wie man aus der Tabelle die Wahrscheinlichkeiten dafür berechnet, dass die Augensumme S₂ = X₁ + X₂ einen speziellen Wert s annimmt. Dies wird besser verständlich, wenn man die Tabelle 1 mit Abbildung 3 in Verbindung bringt.

Möchte man jetzt berechnen, mit welchen Wahrscheinlichkeiten die Werte s der Zufallsvariable

S₂ = X₁ + X₂

angenommen werden, so zeigt Abbildung 3 die Vorgehensweise. Dargestellt sind in Abbildung 3 die Elementarereignisse (x₁, x₂) beim zweimaligen Würfeln als rote Punkte. Gibt man sich jetzt einen Wert s von S₂, so kann man die zugehörigen Elementarereignisse leicht identifizieren. So liegen etwa die Elementarereignisse zu s = 4 auf der blauen Gerade, es sind die Elementarereignisse:

(1, 3), (2, 2), (3, 1).

Die zugehörigen Wahrscheinlichkeiten kann man jetzt aus Tabelle 1 in Abbildung 2 ablesen. (Es ist klar, dass alle gleich 1/36 sind, aber im allgemeinen Fall müsste man jetzt die entsprechenden Verbund-Wahrscheinlichkeiten berechnen.) Die Wahrscheinlichkeit dafür, dass S₂ den Wert 4 annimmt, ist somit 3/36 = 1/12.

Abbildung 3: Darstellung der Elementarereignisse beim zweimaligen Würfeln. Elementarereignisse mit gleicher Augensumme liegen auf einer Geraden mit Steigung -1. Wenn alle Elementarereignisse die Wahrscheinlichkeit 1/36 besitzen, kann man durch Abzählen die Wahrscheinlichkeiten von Ereignissen der Art P(S₂ = s) bestimmen.

Egal welchen Wert für s man sich vorgibt, die zugehörigen Elementarereignisse liegen in Abbildung 3 immer auf einer Geraden mit Steigung -1. Die meisten Kombinationen von Elementarereignissen gibt es für s = 7, nämlich 6, daher ist

P(S₂ = 7) = 6/36 = 1/6.

In Abbildung 2 sind in den Gleichungen (3, 4, 5) einige Berechnungen derartiger Wahrscheinlichkeiten aufgeführt. Die allgemeine Formel zur Berechnung von P(S₂ = s) zeigt Gleichung (2) in Abbildung 2. (Die Schreibweise suggeriert, dass es immer 6 Summanden gibt, aber die Wahrscheinlichkeiten einiger Ereignisse in der Summe können gleich 0 sein.)

In Abbildung 4 wird versucht, eine dreidimensionale Darstellung der Berechnung der Wahrscheinlichkeiten P(S₂ = s) zu geben. Dazu werden die Verbund-Wahrscheinlichkeiten P(X₁ = x₁, X₂ = x₂) als Histogramm (Stabdiagramm) aufgetragen. Die unterschiedlichen Farben stehen dabei für die Werte s, die die Summe X₁ + X₂ annimmt.

Damit die "Nebendiagonalen" mit identischen s-Werten leichter nachzuvollziehen sind, werden die Balken in benachbarten Nebendiagonalen jeweils mit unterschiedlicher Dicke gezeichnet.

Abbildung 4: Dreidimensionale Darstellung der Elementarereignisse beim zweimaligen Würfeln. Ihre Wahrscheinlichkeiten sind auf der z-Achse aufgetragen. Ereignisse mit gleicher Augensumme haben gleiche Farben und sind in der xy-Ebene durch Geraden in der entsprechenden Farbe verbunden. Dass die Strichdicken unterschiedlich sind, hat keine inhaltliche Bedeutung und dient der besseren Erkennbarkeit.

Addiert man jetzt in Abbildung 4 die Wahrscheinlichkeiten der "gleichfarbigen Elementarereignisse", erhält man die Wahrscheinlichkeiten P(S₂ = s), die in Abbildung 5 dargestellt sind; dabei sind die Farben so gewählt, das man sofort die Beziehung zwischen den Elementarereignissen und dem Wert von S₂ herstellen kann. (Diese Vorgehensweise entspricht Gleichung (2) in Abbildung 2.)

Abbildung 5: Darstellung der Wahrscheinlichkeiten P(S<sub>2</sub> = s), also der Verteilung der Augensumme beim zweimaligen Würfeln. Über die Farben können die entsprechenden Elementarereignisse in Abbildung 4 zugeordnet werden.

Abbildung 5: Darstellung der Wahrscheinlichkeiten P(S₂ = s), also der Verteilung der Augensumme beim zweimaligen Würfeln. Über die Farben können die entsprechenden Elementarereignisse in Abbildung 4 zugeordnet werden.

Aufgabe: Oben wurde als Aufgabe formuliert, ob man die Wahrscheinlichkeiten bei zwei Münzen so wählen kann, dass sich beim zweimaligen Werfen für die Anzahl von Zahl eine Gleichverteilung ergibt. Die entsprechende Frage kann man jetzt beim Würfeln stellen:

Kann man die Einzel-Wahrscheinlichkeiten der Augenzahlen zweier Würfel so wählen, dass die Augensumme gleichverteilt ist?

Falls ja: Wie lautet die Lösung und ist sie eindeutig?

Falls nein: Wie kann man möglichst einfach begründen, dass es keine Lösung gibt?

Zweites Beispiel: Augensumme beim n-maligen Würfeln

Die Vorgehensweise, wie man die Wahrscheinlichkeiten für gewisse Augensummen beim zweimaligen Würfeln berechnet, kann man natürlich beliebig fortsetzen und die Wahrscheinlichkeiten für Augensummen beim n-maligen Würfeln berechnen.

Dreimaliges Würfeln

Die Summe

S₃ = X₁ + X₂ + X₃

wird jetzt als

S₃ = S₂ + X₃

geschrieben. Und da S₂ und X₃ unabhängig voneinander sind, kann die Vorgehensweise, die für die Berechnung der Verteilung von S₂ entwickelt wurde, fortgeführt werden.

Abbildung 6 zeigt das Stabdiagramm für das dreimalige Würfeln; auf der x-Achse sind die Werte von S₂ aufgetragen (sie laufen von s = 2 bis s = 12), auf der y-Achse die Werte von X₃ (also das Ergebnis des dritten Wurfes).

Die Verbund-Wahrscheinlichkeiten P(S₂ = s, X₃ = x₃) sind auf der z-Achse aufgetragen.

Abbildung 6: Stabdiagramm zur Berechnung der Wahrscheinlichkeitsverteilung der Augensumme beim dreimaligen Würfeln. Die Augensumme beim zweimaligen Würfeln ist auf der x-Achse aufgetragen, die Augenzahl beim dritten Wurf auf der y-Achse; die daraus gebildeten Verbund-Wahrscheinlichkeiten auf der z-Achse.

Abbildung 7 zeigt dann das Histogramm für

S₃ = X₁ + X₂ + X₃.

Abbildung 7: Darstellung der Einzel-Wahrscheinlichkeiten für die Augensumme beim dreimaligen Würfeln. Die möglichen Summenwerte laufen jetzt von 3 bis 18. Über die Farben der Stäbe ist wieder die Zuordnung zu den Verbund-Wahrscheinlichkeiten aus Abbildung 6 möglich.

Aufgabe: Begründen Sie, warum die Zufallsvariablen S₂ und X₃ unabhängig voneinander sind.

Viermaliges Würfeln

Setzt man das Verfahren fort, so hat man für

S₄ = X₁ + X₂ + X₃ + X₄

verschieden Möglichkeiten:

man kann die Wahrscheinlichkeiten für S₄ aus S₂ und S₂ berechnen, oder
aus S₃ und X₄.
Letzteres ist natürlich gleichwertig zu X₁ und S₃.

Abbildung 8 zeigt das "symmetrische" Diagramm, in dem auf der x- und y-Achse jeweils die Werte von S₂ dargestellt sind. Abbildung 9 zeigt das zugehörige Stabdiagramm für die Wahrscheinlichkeiten von S₄.

Abbildung 8: Darstellung der Verbund-Wahrscheinlichkeiten von S<sub>2</sub> und S<sub>2</sub>.

Abbildung 8: Darstellung der Verbund-Wahrscheinlichkeiten von S₂ und S₂.

Abbildung 9: Darstellung der Einzel-Wahrscheinlichkeiten für die Augensumme beim viermaligen Würfeln. Die möglichen Summenwerte laufen jetzt von 4 bis 24.

Abbildung 10 zeigt die Alternative: auf der x-Achse sind die Werte von S₃ aufgetragen, auf der y-Achse die Werte von X₄. Das Stabdiagramm, das für S₄ entsteht, ist natürlich identisch zu dem in Abbildung 9.

Abbildung 10: Darstellung der Verbund-Wahrscheinlichkeiten von S<sub>3</sub> und X<sub>4</sub>.

Abbildung 10: Darstellung der Verbund-Wahrscheinlichkeiten von S₃ und X₄.

Achtmaliges Würfeln

Die Berechnungen können – wie oben schon gesagt – beliebig fortgeführt werden, vor allem die Darstellung der Verbund-Wahrscheinlichkeiten wird aber immer unübersichtlicher. Zuletzt sollen noch die Diagramme für das achtmalige Würfeln gezeigt werden.

In Abbildung 11 sind auf der x- und y-Achse die Werte von S₄ aufgetragen, die Wahrscheinlichkeiten der entsprechenden Kombinationen auf der z-Achse.

Abbildung 11: Darstellung der Verbund-Wahrscheinlichkeiten von S<sub>4</sub> und S<sub>4</sub> zur Berechnung der Wahrscheinlichkeitsverteilung für die Augensumme beim achtmaligen Würfeln.

Abbildung 11: Darstellung der Verbund-Wahrscheinlichkeiten von S₄ und S₄ zur Berechnung der Wahrscheinlichkeitsverteilung für die Augensumme beim achtmaligen Würfeln.

In Abbildung 12 das Histogramm für S₈.

Abbildung 12: Darstellung der Einzel-Wahrscheinlichkeiten für die Augensumme beim achtmaligen Würfeln. Die möglichen Summenwerte laufen jetzt von 8 bis 48.

Um im Vergleich zu Abbildung 11 wieder eine übersichtliche Darstellung der Verbund-Wahrscheinlichkeiten zu erhalten, werden sie wie eine kontinuierliche Funktion (von zwei Variablen) aufgetragen. An den Gitterpunkten in Abbildung 13 befinden sich die "Stäbe" des Stabdiagramms, die dazwischen liegenden Flächen suggerieren, dass es sich um eine kontinuierliche Funktion handelt.

Abbildung 13: Die Verbund-Wahrscheinlichkeiten aus Abbildung 11, jetzt aber dargestellt wie bei einer kontinuierlichen Funktion. Die interpolierenden Flächen sind eigentlich ohne Bedeutung.

Was ist eine Faltung?

Welche Objekte werden bei einer Faltung verknüpft?

Bei den bisherigen Beispielen wurde betont, wie man bei der Berechnung einer Faltung vorgeht. Dazu wurde die Summe zweier unabhängiger Zufallsvariablen gebildet, Z = X + X, und die Formel motiviert, wie man zu einem gegebenen Wert z die Wahrscheinlichkeit P(Z = z) berechnet. Um zu einer Definition der Faltung zu gelangen, muss man zunächst klären, welche Voraussetzungen vorliegen müssen, um eine Faltung zu berechnen und welche Objekte bei der Operation Faltung eigentlich miteinander verknüpft werden.

Dazu ist in Abbildung 14 zunächst die Ausgangssituation gezeigt:

Gegeben sind zwei reelle Zufallsvariablen X und Y, von denen angenommen wird, dass sie unabhängig voneinander sind.
Damit X und Y tatsächlich Zufallsvariablen sind, muss es entsprechende Wahrscheinlichkeitsräume geben, also Mengen Ω_x und Ω_y, die mit Ereignisalgebren A_x und A_y ausgestattet sind.
Laut Definition einer Zufallsvariable müssen Urbilder von Teilmengen der reellen Zahlen in der Ereignisalgebra enthalten sein.
Ist auf den Ereignisalgebren ein Wahrscheinlichkeitsmaß P_x beziehungsweise P_y definiert, so induzieren die Zufallsvariablen X und Y Wahrscheinlichkeitsmaße auf den reellen Zahlen; diese Wahrscheinlichkeitsmaße werden mit P_X beziehungsweise P_Y bezeichnet. Meist nennt man sie die Wahrscheinlichkeitsverteilungen der Zufallsvariablen X beziehungsweise Y.

Abbildung 14: Graphischen Darstellung der zu einer Faltung vorausgesetzten Objekte; unabhängige, reelle Zufallsvariablen auf Wahrscheinlichkeitsräumen (genauere Erklärung im Text).

Die Faltung soll jetzt aus diesen beiden Wahrscheinlichkeitsverteilungen P_X und P_Y die Wahrscheinlichkeitsverteilung

P_Z = P_{X + Y}

der Zufallsvariable

Z = X + Y

berechnen. Dazu muss man aber erst klären, was die Summe der Zufallsvariablen X + Y bedeutet und welches Objekt P_Z ist. In Abbildung 15 soll dies dargestellt werden.

Die Zufallsvariable Z = X + Y ist eigentlich auf dem Kreuzprodukt der beiden Wahrscheinlichkeitsräume Ω_x und Ω_y definiert:

Ω = Ω_x × Ω_y.

Dazu werden auch die Zufallsvariablen X und Y als Zufallsvariablen auf diesem Wahrscheinlichkeitsraum Ω betrachtet, der ein zusammengesetztes Zufallsexperiment beschreibt. Zu einem gegebenen Wert z der Zufallsvariable Z kann man jetzt alle Kombinationen (x, y) mit z = x + y aufsuchen und die Wahrscheinlichkeit P(Z = z) berechnen (dazu benötigt man die Unabhängigkeit der Zufallsvariablen X und Y; diese Vorgehensweise wurde in den Beispielen oben ausführlich diskutiert). Insgesamt wird damit die Wahrscheinlichkeitsverteilung P_Z der Zufallsvariable Z berechnet.

Im Fall, dass sowohl X als auch Y eine Wertemenge mit endlich vielen Elementen besitzen, ist es sinnvoll zu fragen, welche Mächtigkeit die Wertemenge von Z hat. Es sind höchstens so viele Elemente wie man Kombinationen aus den Werten von X und Y bilden kann; es können aber auch weniger sein, wenn einige Kombinationen von x und y zur identischen Summe x + y führen. Dies wird im nächsten Unterabschnitt unter dem Stichwort Aggregation diskutiert.

Abbildung 15: Faltung von Wahrscheinlichkeitsverteilungen bedeutet, dass man aus gegebenen Wahrscheinlichkeitsverteilungen der unabhängigen Zufallsvariablen X und Y die Wahrscheinlichkeitsverteilung von X + Y berechnet. Dazu muss X + Y auf dem Wahrscheinlichkeitsraum Ω = Ω_x × Ω_y definiert werden.

Symbolisch wird die Faltung der gegebenen Wahrscheinlichkeitsverteilungen P_X und P_Y durch den ∗-Operator ausgedrückt:

P_Z = P_{X + Y} = P_X ∗ P_Y.

Wie wird eine Faltung berechnet?

Nachdem geklärt ist, welche Objekte eine Rolle spielen, um die Faltung zu definieren, kann man sich nochmal vergegenwärtigen, wie sie berechnet wird. Man sollte drei Schritte unterscheiden:

Kombinationen bilden.
Die Kombinationen mit Wahrscheinlichkeiten gewichten.
Aggregation der Kombinationen.

Genauer:

Kombinationen der Werte x und y bilden, wobei alle Elemente der entsprechenden Wertemengen W_X und W_X zugelassen sind.
Jede Kombination (x, y) wird mit der Wahrscheinlichkeit P(X = x) · P(Y = y) gewichtet.
Da unterschiedliche Kombinationen (x, y) zu identischem z = x + y führen können, ist eine Aggregation der Kombinationen nötig: Es werden zu gegebenem z alle Wahrscheinlichkeiten P(X = x) · P(Y = y) addiert, wenn z = x + y.

Damit ist P(Z = z) für jedes z aus der Wertemenge W_Z bekannt und somit die Wahrscheinlichkeitsverteilung von Z.

Naheliegend ist es zu fragen, wie viele Werte Z annehmen kann, wenn die Mächtigkeiten der Wertemengen von X und Y bekannt sind – interessant ist diese Frage natürlich nur, wenn W_X und W_X endlich viele Elemente besitzen.

Da im ersten Schritt alle Kombinationen (x, y) gebildet werden, gibt es maximal |W_X| · |W_Y| Kombinationen (Produkt der Mächtigkeiten). Durch die Aggregation aus dem dritten Schritt kann die Mächtigkeit von W_Z aber kleiner werden. Die minimale Mächtigkeit von W_Z wird erreicht, wenn eine der Zufallsvariablen X oder Y mit Wahrscheinlichkeit 1 den Wert 0 annimmt. Dann ist stimmt |W_X| mit der größeren der beiden Mächtigkeiten |W_X| beziehungsweise |W_Y| überein. Insgesamt gilt:

max(|W_X|, |W_X|) ≤ |W_Z| ≤ |W_X| · |W_Y|.

Beispiele:

1. Für den Fall

W_X = {1, 2} und W_Y = {0},

gilt:

W_Z = W_X.

2. Den andere Grenzfall aus obigen Ungleichungen erhält man für:

W_X = {1, 3} und W_Y = {1, 2},

denn jetzt ist

W_Z = {2, 3, 4, 5}, also |W_Z| = |W_X| · |W_Y|.

3. Beim zweimaligen Würfeln gilt |W_X| = 6 = |W_Y|, aber |W_{X + Y}| = |{2, 3, ..., 12}| = 11,

womit keiner der Grenzfälle der Ungleichungen eintritt.

Eine R-Implementierung der Berechnung der Faltung für Zufallsvariablen mit endlicher Wertemenge findet sich inDie Familie der apply-Funktionen in R Teil 3: Weitere mit apply() verwandte Funktionen. Diese Implementierung realisiert die drei oben genannten Schritte in der Berechnung der Faltung.

Drittes Beispiel: Anzahl der Gewinne beim Glücksspiel

Die Invarianz-Eigenschaft der Faltung

Vergleicht man die Verteilungen der Augensumme für das einmalige, zweimalige oder n-malige Werfen eines Würfels (siehe Abbildungen oben), so erkennt man die typischen Züge der Verteilungen, die durch die wiederholte Summenbildung entstehen:

Aus einer anfangs gleichverteilten Zufallsvariable entsteht eine Verteilung mit einem Maximum im Erwartungswert. Dies beschreibt die für die Summenbildung charakteristische "Tendenz zur Mitte". Mit den höchsten Wahrscheinlichkeiten werden Werte in der Nähe des Erwartungswertes angenommen, da es dafür die meisten Kombinationen gibt.
Allerdings werden die Absolutwerte der Wahrscheinlichkeiten in der Nähe des Maximums mit zunehmender Anzahl von Würfen immer kleiner, da es mehr Möglichkeiten gibt, welche Summenwerte angenommen werden. Dies ist beim Vergleich der Abbildungen oben auf den ersten Blick nicht zu erkennen, da zur besseren Darstellung für jede Abbildung eine geeignete Skalierung der y-Achse vorgenommen wurde.
Weiter ist zu erkennen, dass die "extremen Werte", also sehr kleine oder sehr große Summenwerte zwar immer noch vorkommen, ihre Wahrscheinlichkeiten (im Vergleich zu den Maximalwerten) aber sehr klein werden.
Da sich die Varianzen der unabhängigen Würfe addieren, wachsen die Standardabweichungen langsamer als proportional zur Anzahl n der Würfe (genauer: sie wachsen proportional zur Wurzel aus n), das heißt die Standardabweichung wächst bei zunehmenden n langsamer als der Wertebereich (der ja proportional zu n größer wird).

Geht man davon aus, dass die n-fache Faltung einer Verteilung mit sich selbst zu Verteilungen führt, die immer mehr die "Tendenz zur Mitte" zeigen, so drängt sich eine Frage auf:

Gibt es eine – oder sogar mehrere – Verteilung, die schon eine Form besitzt wie es mit der "Tendenz zur Mitte" beschrieben wurde, und die bei Faltung mit sich selbst reproduziert wird?

Etwas abstrakter würde man diese Frage vielleicht so formulieren:

Gibt es Verteilungen, die unter der Faltung invariant sind?

Die folgenden Beispiele werden zeigen, dass die Binomialverteilung B(N, p, k) tatsächlich in folgendem Sinn invariant unter der Faltung ist: Sind zwei Zufallsvariablen X und Y binomialverteilt und unabhängig (gemäß B(N, p, k) beziehungsweise B(M, p, k), also mit gleicher Trefferwahrscheinlichkeit p), so ist die Summe X + Y wieder binomialverteilt gemäß B(N + M, p, k).

Anzahl der Treffer beim Glücksspiel

Ein Glücksspiel werde N mal nacheinander ausgeführt, wobei alle Ergebnisse unabhängig voneinander sind. Die Gewinnwahrscheinlichkeit bei einem Spiel betrage p und bleibe unverändert. Die Zufallsvariable X beschreibe die Anzahl der Gewinne (oder Treffer) bei N Spielen.

Die Zufallsvariable X kann die Werte 0, 1, 2, ..., N annehmen und die Wahrscheinlichkeit dafür, dass P(X = k) wird durch die Binomialverteilung B(N, p, k) berechnet (siehe Gleichung (1) in Abbildung 16

Die Zufallsvariable Y beschreibe die Anzahl der Gewinne einer weiteren Serie von M Spielen des selben Glücksspiels. Es ist klar, dass auch Y binomialverteilt ist gemäß B(M, p, k). Aber welche Verteilung besitzt die Zufallsvariable

Z = X + Y,

die die Anzahl der Gewinne bei N + M Realisierungen des Glücksspiels beschreibt?

In Abbildung 16 wird durch eine Faltung der Binomialverteilungen von X und Y (Ansatz in Gleichung (2)) die Verteilung der Zufallsvariable Z berechnet. Man setzt die Binomialverteilungen ein, vereinfacht so weit wie möglich und erhält schließlich eine Summation über Produkte von Binomialkoeffizienten (siehe Gleichung (3) links). Diese Summe kann wiederum durch einen Binomialkoeffizienten ausgedrückt werden (Gleichung (3), rechte Seite); dahinter verbirgt sich die sogenannte Vandermonde-Identität, siehe Gleichung (5). Dadurch entsteht für die Verteilung von Z die Binomialverteilung B(N + M, p, k) (siehe Gleichung (4)).

Abbildung 16: Nachweis, dass durch die Faltung zweier Binomialverteilungen wieder eine Binomialverteilung entsteht. Dazu wird die Vandermonde-Identität verwendet, die in Abbildung 17 veranschaulicht wird.

Der Beweis der Vandermonde-Identität soll hier nur angedeutet werden; er verwendet eine einfache kombinatorische Überlegung:

Der Binomialkoeffizient auf der linken Seite in Gleichung (5) beschreibt die Anzahl der Möglichkeiten, aus N + M Objekten genau k Objekte auszuwählen. Dazu stellt man sich vor, dass sich die N + M Objekte in zwei Gruppen einteilen lassen, eine Gruppe mit N und eine mit M Objekten. Werden insgesamt k Objekte ausgewählt, so kann man dies durch folgende – sich gegenseitig ausschließende – Möglichkeiten realisieren:

0 Objekte stammen aus der ersten und k Objekte aus der zweiten Gruppe oder
1 Objekt stammt aus der ersten Gruppe und k - 1 Objekte aus der zweiten Gruppe oder
...
k Objekte stammen aus der ersten und kein Objekt aus der zweiten Gruppe.

Die Terme aus dieser Liste beschreiben gerade die k + 1 Summanden auf der rechten Seite in Gleichung (5).

Die folgende Abbildung versucht die Vandermonde-Identität im Pascalschen Dreieck darzustellen.

Abbildung 17 Die Vandermonde-Identität und ihre Veranschaulichung im Pascalschen Dreieck. Links: Das Pascalsche Dreieck mit den Binomialkoeffizienten. Rechts: Jeder Eintrag im Pascalschen Dreieck wird durch eine Raute symbolisiert. Zur Berechnung des grün gekennzeichneten Eintrages (Binomialkoeffizient "k aus N + M") werden k + 1 Summanden gebildet: Jeder Summand besteht aus einem Produkt zweier Binomialkoeffizienten (die jeweils durch die gleiche Farbe gekennzeichnet sind), wobei ein Faktor aus der Zeile N und ein Faktor aus der Zeile M stammt.

Die Frage, ob es neben der Binomialverteilung weitere diskrete Verteilungen gibt die unter der Faltung invariant sind, soll hier nicht weiter vertieft werden, sie ist aber relevant, um die oben beschriebene "Tendenz zur Mitte" besser zu verstehen. Stattdessen soll jetzt die Faltung von stetigen Wahrscheinlichkeitsverteilungen untersucht werden.

Faltung von stetigen Wahrscheinlichkeitsverteilungen

Der Übergang von diskreten zu stetigen Zufallsvariablen

Es wurde bereits an mehreren Stellen diskutiert, dass für viele Operationen in der Wahrscheinlichkeitsrechnung der Übergang von diskreten zu stetigen Zufallsvariablen leicht zu vollziehen ist. Paradebeispiel ist die Berechnung des Erwartungswertes einer Zufallsvariable, der im diskreten Fall durch eine Summe, im stetigen Fall durch eine Integration erfolgt.

Um diesen Übergang bei der Berechnung der Faltung zu vollziehen, werden unten in Abbildung 18 (ähnlich wie in Abbildung 13) die Verbund-Wahrscheinlichkeiten beim 32-maligen Würfeln dargestellt (also das Produkt der Wahrscheinlichkeiten P(S₁₆ = x) · P(S₁₆ = y), wobei S₁₆ Werte von 16 bis 96 annehmen kann). Das Histogramm erscheint auf den ersten Blick wie die Darstellung einer kontinuierlichen zweidimensionalen Funktion.

Abbildung 18: Die Verbund-Wahrscheinlichkeiten beim 32-maligen Würfeln, die aus dem Produkt der Verteilungen des 16-maligen Würfelns gebildet werden. Wie in Abbildung 13 wird eine Darstellung gewählt, die eine kontinuierliche Funktion und kein Stabdiagramm suggeriert.

Man kann aus Abbildung 18 leicht erraten, welche Integration zur Berechnung der Faltung von zwei stetigen Wahrscheinlichkeitsverteilungen durchzuführen ist: Sind f(x) und g(y) die Wahrscheinlichkeitsdichten der Zufallsvariablen X und Y, so wird die Funktion f(x) · g(y) als "Gebirge" über der xy-Ebene aufgetragen.

Bei der Faltung von diskreten Wahrscheinlichkeitsverteilungen wurden zur Berechnung von P(Z = z) Verbund-Wahrscheinlichkeiten entlang der Gerade z = x + y addiert, nämlich

P(Z = z) = ∑_{x ∈}_W(X) P(X = x) · P(Y = z - x),

wobei x den Wertebereich W(X) der Zufallsvariable X durchläuft.

Um die Wahrscheinlichkeitsdichte h(z) der Faltung der Wahrscheinlichkeitsverteilungen zu berechnen, wird über den Wertebereich der Zufallsvariable X integriert und der Integrand ist das Produkt der Wahrscheinlichkeitsdichten

f(x) · g(z - x),

das heißt die Funktion f wird an der Stelle x und die Funktion g an der Stelle y = z - x ausgewertet, siehe Gleichung (1) in Abbildung 19.

Man beachte, dass hier kein Linienintegral entlang der Gerade y = z - x in der zweidimensionalen xy-Ebene berechnet wird, wie es vielleicht die Geraden in Abbildung 3 suggerieren. Denn so wie im diskreten Fall über den Wertebereich von X summiert wird, wird jetzt über die x-Werte integriert.

Alle nötigen Bezeichnungen, Voraussetzungen und Formeln sind in Abbildung 19 angegeben:

Für die Zufallsvariablen X und Y wird wieder vorausgesetzt, dass sie unabhängig voneinander sind.
Die Wahrscheinlichkeitsdichte der Zufallsvariable Z = X + Y wird mit h(z) bezeichnet und sie wird nach Gleichung (1) berechnet.
Die Faltung ist eigentlich ein Operator, der zwei Wahrscheinlichkeitsverteilungen miteinander verknüpft (siehe Gleichung (2)), der ∗-Operator kann aber auch als Operator aufgefasst werden, der die Wahrscheinlichkeitsdichten miteinander verknüpft (siehe Gleichung (3) in Abbildung 19). Das Integral in Gleichung (1) wird daher auch als Faltungsintegral bezeichnet.

Abbildung 19 Voraussetzungen, Bezeichnungen und Formeln zur Faltung von stetigen Wahrscheinlichkeitsverteilungen, insbesondere das Faltungsintegral in Gleichung (1).

Viertes Beispiel: Faltung von Standard-Normalverteilungen

In der folgenden Abbildung 20 wird die Faltung zweier Standard-Normalverteilungen berechnet, also Gauß-Verteilungen mit Erwartungswert μ = 0 und Standardabweichung σ = 1. (Lediglich die Details der Integration sind nicht ausgeführt.) Die allgemeine Form der Normalverteilung ist in Gleichung (4) angegeben.

Abbildung 20: Gleichung (1): Wahrscheinlichkeitsdichte der Standard-Normalverteilung. Gleichung (2): Ansatz zur Berechnung der Faltung zweier Standard-Normalverteilungen. Gleichung (3): Wahrscheinlichkeitsdichte h(z) der Faltung zweier Standard-Normalverteilungen. Gleichung (4): Wahrscheinlichkeitsdichte einer beliebigen Normalverteilung.

Das Ergebnis ist wieder eine Normalverteilung mit Erwartungswert 0, jetzt aber mit Standardabweichung σ = √2.

Dies legt die Vermutung nahe, dass sämtliche Normalverteilungen unter der Faltung invariant sind, was man mit ähnlichen Methoden wie der Berechnung des Faltungsintegrals zeigen kann.

Die folgenden Abbildungen sollen helfen, die Berechnungen in Abbildung 20 besser nachzuvollziehen:

Abbildung 21 zeigt das "Gebirge" über der xy-Ebene, das entsteht, wenn man das Produkt f(x) · f(y) bildet, wobei für f jeweils die Wahrscheinlichkeitsdichte der Standard-Normalverteilung eingesetzt wird. Die Farben sollen wieder die Integranden andeuten: jedem z-Wert ist eine Farbe zugeordnet und der Integrand durchläuft die Werte auf der Geraden, wenn bei der Integration x den Wertebereich von X durchläuft.
Die Darstellung in Abbildung 22 hat den Vorteil, dass immer noch das "Gebirge" zu sehen ist (unterschiedliche Höhen in z-Richtung sind mit unterschiedlichen Farben dargestellt), man jetzt aber den Definitionsbereich in der xy-Ebene besser erkennt. Insbesondere kann man die Integranden in den Faltungsintegralen besser veranschaulichen (siehe Aufgaben unten). Gezeichnet werden die Höhen für x- und y-Werte zwischen -3 und 3.
In Abbildung 23 ist oben die Wahrscheinlichkeitsdichte der Standard-Normalverteilung gezeigt und unten die Wahrscheinlichkeitsdichte, die bei der Faltung von N(0, 1) mit sich selbst entsteht (Gleichung (3) in Abbildung 20).

Abbildung 21: Dreidimensionale Darstellung des Produktes der Wahrscheinlichkeitsdichten zweier Standard-Normalverteilungen.

Abbildung 22: Darstellung des Produktes der Wahrscheinlichkeitsdichten zweier Standard-Normalverteilungen. Die Funktionswerte sind an den unterschiedlichen Farben erkennbar (siehe Legende).

Abbildung 23: Oben: Wahrscheinlichkeitsdichte der Standard-Normalverteilung. Unten: Wahrscheinlichkeitsdichte der Faltung der Standard-Normalverteilung mit sich selbt; man erhält wieder eine Normalverteilung, aber mit anderer Standardabweichung.

Aufgaben:

1. Führen Sie die in Abbildung 20 angesetzte Berechnung des Faltungsintegrals aus; verwenden Sie dazu eine geeignete Substitution und das zutreffende Gauß-Integrale aus Wahrscheinlichkeitsverteilungen in R.

2. Für z = 0 ist die Berechnung der Faltung in Abbildung 20 besonders einfach. Überprüfen Sie diesen Fall und identifizieren Sie die Gerade z = 0 in der xy-Ebene in den Abbildungen 21 und 22.

3. Zeigen Sie mit ähnlichen Methoden, dass die Faltung zweier Normalverteilungen wieder eine Normalverteilung ergibt. (Hinweis: sowohl die Erwartungswerte als auch die Varianzen addieren sich.)

Fünftes Beispiel: Faltung von stetigen Gleichverteilungen

Um die Augensumme beim zweimaligen Würfeln zu berechnen, wird eine diskrete Gleichverteilung mit sich selbst gefaltet. Das kontinuierliche Analogon zeigt Abbildung 24: Die Faltung einer stetigen Gleichverteilung mit sich selbst. Dazu sind:

Oben die Wahrscheinlichkeitsdichten der Gleichverteilungen gezeigt.
In der Mitte die Skizze, die helfen soll, die Integration durchzuführen sowie die Ergebnisse der Berechnungen (um das Faltungsintegral zu berechnen, muss man eine Fallunterscheidung bezüglich z vornehmen).
Unten ist die Wahrscheinlichkeitsdichte der Faltung gezeigt.

Abbildung 24: Die Berechnung der Faltung zweier stetiger Gleichverteilungen.

Aufgaben:

1. Die Integrationsgrenzen in den Faltungsintegralen zur Berechnung von h(z) in Abbildung 24 (mitte rechts) wurden nicht erklärt. Geben Sie eine Begründung für sie an und stellen Sie einen Zusammenhang mit den beiden Geraden (mit Steigung -1) in Abbildung 24 (mitte links) her.

2. Zu welchen z-Werten gehören die beiden eingezeichneten Geraden?

3. Welche Gerade erhält man für z = 1 und wie wird dann h(z) mit einem Faltungsintegral berechnet?