Eigenschaften von Zufallsvariablen: Der Erwartungswert von diskreten und stetigen Zufallsvariablen

Der Erwartungswert einer Zufallsvariable ist die wichtigste Kennzahl, um Ergebnisse von Zufallsexperimenten zu beschreiben. Seine Definition und Eigenschaften werden ausführlich erläutert. An zahlreichen Beispielen wird seine Berechnung vorgeführt; dabei werden nebenbei wichtige Wahrscheinlichkeits-Verteilungen vorgestellt.

walter

31 Jul. 2020

Normalverteilung Exponentialverteilung diskrete Zufallsvariable empirischer Mittelwert Poisson-Verteilung Erwartungswert Schwerpunkt Stichprobe geometrische Verteilung Zufallsvariable Summe von Zufallsvariablen stetige Zufallsvariable

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Eigenschaften von Zufallsvariablen
    - Eigenschaften von Zufallsvariablen: Der Erwartungswert von diskreten und stetigen Zufallsvariablen
    - Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung

Varianz und Standardabweichung als Streuungsmaße für Verteilungen werden im Artikel Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung besprochen. Dort werden auch nahezu alle hier vorgestellten Beispiele fortgeführt.

Mathematische Voraussetzungen: Um diskrete Zufallsvariablen mit abzählbar unendlich vielen Werten zu diskutierten, sind elementare Kenntnisse über unendliche Reihen nötig; für stetige Zufallsvariablen Kenntnisse über die Integration von Exponentialfunktionen und partielle Integration.

Eine spezielle und sehr wichtige Methode den Erwartungswert einer Zufallsvariable X zu berechnen, besteht darin, X als Summe von Indikatorvariablen darzustellen. Dann kann der Erwartungswert ohne die Kenntnis der Verteilung von X berechnet werden. Diese Methode (mit mehreren Beispielen) wird diskutiert in Berechnung von Erwartungswerten und Varianzen mit Hilfe von Indikatorvariablen.

Einführung

Sowohl in der Wahrscheinlichkeitsrechnung als auch in der Statistik muss man mit komplizierten Verteilungen und großen Datenmengen arbeiten, die man mit Hilfe von möglichst wenigen, aber aussagekräftigen Kennzahlen beschreiben möchte. Die wichtigsten Kennzahlen sind der Erwartungswert und die Standardabweichung (die Eigenschaften Letzterer lassen sich leichter mit Hilfe der Varianz formulieren).

Ihre Bedeutung kann man kurz am Glücksspiel klarmachen. Da man den Ausgang des nächsten Spiels nicht vorhersehen kann, versucht man dennoch sich eine Strategie zurechtlegen, die auf lange Sicht einen Gewinn verspricht. Die Strategie kann mit einer Zufallsvariable beschrieben werden; wie groß der langfristige Gewinn pro Spiel ist, wird durch einen Erwartungswert ausgedrückt. Die Standardabweichung dagegen beschreibt, wie weit die Auszahlungsbeträge um den Erwartungswert streuen – sie könnte auch als ein Maß für den "Nervenkitzel" des Spiels bezeichnet werden.

In den folgenden Abschnitten wird die allgemeine Definition des Erwartungswertes gegeben und seine Eigenschaften werden untersucht. Zudem werden Beispiele sowohl für diskrete als auch stetige Zufallsvariablen angeführt.

Der Erwartungswert einer diskreten Zufallsvariable

Definition des Erwartungswertes

Zufallsvariablen kann man sich besonders gut bei Glücksspielen veranschaulichen: Das Spiel wird nach festgelegten Regeln durchgeführt und es wird je nach Ausgang des Spieles ein gewisser Gewinn oder Verlust vereinbart. Beschreiben kann man dies durch eine diskrete Zufallsvariable X, die bestimmte Werte (reelle Zahlen) x₁, x₂, ..., x_n mit den Wahrscheinlichkeiten p₁, p₂, ..., p_n annimmt. Damit es sich um Wahrscheinlichkeiten handelt, darf keines der p_i negativ sein und sie müssen sich zu 1 addieren. Die x-Werte können sowohl positiv (Gewinn) als auch negativ (Verlust) sein.

Später werden Beispiele behandelt, bei denen die Zufallsvariable X abzählbar viele Werte x_i annehmen kann.

Der Glücksspieler möchte natürlich gerne wissen, welches Ergebnis das nächste Spiel liefert – aber es ist gerade der Reiz eines (echten) Glücksspiels, dass kein Teilnehmer diese Information besitzt. Die nächste Frage ist dann: Wird man bei vielen Wiederholungen des Spiels "im Durchschnitt" gewinnen oder verlieren? Aber was heißt "im Durchschnitt"?

Durchschnittsbildung heißt hier, dass man alle möglichen Werte x_i der Zufallsvariable X mit ihrer Wahrscheinlichkeit p_i gewichtet und anschließend aufsummiert, siehe Gleichung (1) in Abbildung 1. Die Summe wird als der Erwartungswert E(X) der Zufallsvariable X bezeichnet.

Abbildung 1: Definition des Erwartungswertes und seine Berechnung bei einfachen Beispielen.

Wenn aus dem Zusammenhang klar ersichtlich ist, von welcher Zufallsvariable die Rede ist, wird ihr Erwartungswert oft mit μ bezeichnet (μ soll an Mittelwert erinnern). Oder man schreibt μ_X, um zu kennzeichnen, von welcher Zufallsvariable der Erwartungswert berechnet wird.

Der Begriff Mittelwert sollte besser nicht für den Erwartungswert verwendet werden, da er meist bei Stichproben angewendet wird. Wird etwa ein Glücksspiel N mal durchgeführt und sind für die möglichen Ergebnisse x₁, x₂, ..., x_n die absoluten Häufigkeiten h₁, h₂, ..., h_n bekannt, mit denen sie eingetreten sind, wobei

h₁ + x₂ + ... + h_n = N,

dann kann man mit

(h₁ · x₁ + h₂ · x₂ + ... + h_n · x_n) / N

der Stichproben-Mittelwert berechnet werden. Alternativ kann man die relativen Häufigkeiten r_i einführen und den Stichproben-Mittelwert nach Gleichung (2) in Abbildung 1 berechnen. Ihn darf man nicht mit dem Erwartungswert verwechseln, da er von der Realisierung der Werte der Zufallsvariable in den N Experimenten abhängig und nicht reproduzierbar ist. Um dies auszudrücken, wird er oft als empirischer Mittelwert bezeichnet.

Es sollen hier nicht die Eigenschaften des empirischen Mittelwertes besprochen werden, er wird deswegen betont, weil er leicht mit dem Erwartungswert verwechselt werden kann.

Bevor Beispiele zur Berechnung des Erwartungswertes besprochen werden, soll noch eine Bemerkung über Zufallsvariablen mit abzählbar vielen Werten gemacht werden. Wie die Summe in Gleichung (1) in Abbildung 1 abzuändern ist, ist klar: Die Summe erstreckt sich über abzählbar viele Indizes und erfasst somit alle Werte der Zufallsvariable X (und ihre Wahrscheinlichkeiten). Unklar ist aber, ob diese unendliche Summe existiert. Das einfachste Kriterium für die Existenz derartiger Summen ist die absolute Konvergenz: Wenn die Summe der Beträge existiert, dann existiert mit Sicherheit auch die Summe in (1). Im Folgenden werden nur Beispiele betrachtet, bei denen dies erfüllt ist.

1. Beispiel: Laplace-Würfel

Bei einem symmetrischen Würfel gibt es keinen Grund zur Annahme, dass die Augenzahlen mit unterschiedlichen Wahrscheinlichkeiten angenommen werden. Die Zufallsvariable X, die die Augenzahl beim Würfeln beschreibt, gehorcht demnach einer Gleichverteilung und besitzt den Erwartungswert

E(X) = (1 + 2 + ... + 6) / 6 = 3.5

(siehe auch Gleichung (3) in Abbildung 1).

Abbildung 2 zeigt das links Stabdiagramm, in dem (blau) die Einzel-Wahrscheinlichkeiten der Werte der Zufallsvariable X und der Erwartungswert (rot) dargestellt sind.

Abbildung 2: Links: Stabdiagramm für die Wahrscheinlichkeiten, mit denen die Augenzahlen eines Laplace-Würfels angenommen werden; rot eingetragen ist der Erwartungswert der Augenzahl. Rechts: das entsprechende Diagramm für den gezinkten Würfel aus Beispiel 2.

2. Beispiel: Gezinkter Würfel

Ein Würfel sei derart verändert, dass er die Augenzahlen mit den in der folgenden Tabelle angegebenen Wahrscheinlichkeiten liefert.

X	1	2	3	4	5	6
P(X = x)	1/12	1/6	1/6	1/6	1/6	3/12

Berechnet man jetzt den Erwartungswert, erhält man mit Gleichung (4) in Abbildung 1 einen größeren Wert als 3.5, angenähert etwa 3.917.

Das Stabdiagramm für die Zufallsvariable, die die Augenzahl beschreibt, ist in Abbildung 2 rechts zu sehen.

3. Beispiel: Stichprobe mit dem gezinkten Würfel

Mit dem gezinkten Würfel aus Beispiel 2 werde eine Stichprobe aufgenommen, bei der die Augenzahlen aufgenommen werden. Die folgende Tabelle zeigt die absoluten und (gerundeten) relativen Häufigkeiten der Augenzahlen bei einer Stichprobenlänge 600.

X	1	2	3	4	5	6
h_i	55	92	99	110	82	162
r_i	0.0917	0.1533	0.1650	0.1833	0.1367	0.2700

Der Stichproben-Mittelwert berechnet sich wie der Erwartungswert, mit dem Unterschied, dass anstelle der Wahrscheinlichkeiten p_i die relativen Häufigkeiten r_i eingesetzt werden; man erhält für den Stichproben-Mittelwert 3.93.

Abbildung 3: Darstellung der relativen Häufigkeiten der Augenzahlen in der Stichprobe der Länge 600. Rot eingetragen ist der empirische Mittelwert.

4. Beispiel: Glücksspiel mit einem Laplace-Würfel beziehungsweise einem gezinkten Würfel

In Grundbegriffe der Wahrscheinlichkeitsrechnung: Diskrete und stetige Zufallsvariablen wurde der Begriff der Zufallsvariable an verschiedenen Strategien erklärt, die man beim Würfeln anwenden kann. Die Herren Forsch und Scheu setzen jeweils auf die 6 beziehungsweise auf "gerade Zahl". Der Einsatz pro Spiel beträgt 1 EUR, im Falle eines Gewinnes werden 6 EUR beziehungsweise 2 EUR ausbezahlt. Die folgende Tabelle beschreibt den Nettogewinn in Abhängigkeit der gewürfelten Augenzahl. Damit werden die Zufallsvariablen F und S definiert.

ω	1	2	3	4	5	6
F(ω)	-1	-1	-1	-1	-1	+5
S(ω)	-1	+1	-1	+1	-1	+1

Setzt man voraus, dass ein Laplace-Würfel verwendet wird, ergeben sich für die Zufallsvariablen F und S, die den Nettogewinn der beiden Strategien beschreiben, die Wahrscheinlichkeiten:

P(F = +5) = 1/6, P(F = -1) = 5/6

P(S = +1) = 1/2, P(S = -1) = 1/2.

Damit lassen sich die Erwartungswerte berechnen:

E(F) = 5/6 - 5/6 = 0,

E(S) = 1/2 - 1/2 = 0.

Ein Glücksspiel, bei dem der Erwartungswert des Nettogewinnes genau 0 beträgt, wird auch als faires Spiel bezeichnet.

Verwendet man stattdessen den gezinkten Würfel aus dem 2. Beispiel, erhält man die Gewinn- und Verlust-Wahrscheinlichkeiten sowie die Erwartungswerte:

P(F = +5) = 3/12 = 1/4, P(F = -1) = 3/4

P(S = +1) = 7/12, P(s = -1) = 5/12.

E(F) = 5/4 - 3/4 = 0.5,

E(S) = 7/12 - 5/12 = 1/6.

Jetzt sind beide Erwartungswerte positiv, das heißt beide Strategien sollten auf lange Sicht erfolgreich sein.

Man kann aus dem Ergebnis noch mehr ablesen:

E(F) > E(S),

das heißt Herr Forsch wird auf lange Sicht mehr gewinnen als Herr Scheu, da seine Strategie am Besten die Schlagseite des gezinkten Würfels ausnützt.

5. Beispiel: Fortsetzung: Stichprobe mit einem gezinkten Würfel

Für die Stichprobe aus dem 3. Beispiel lassen sich jetzt die empirischen Mittelwerte der beiden Strategien F und S berechnen. Für die Gesamtgewinne bei den 600 Spielen ist es einfacher mit den absoluten Häufigkeiten zu rechnen:

Gesamtgewinn von Herrn Forsch: 162 · 5 - (600 - 162) = 372.

Empirischer Mittelwert des Gewinns pro Spiel für Herrn Forsch: 372 / 600 = 0.62.

Gesamtgewinn von Herrn Scheu: (92 + 110 + 162) - (55 + 99 + 82) = 128.

Empirischer Mittelwert des Gewinns pro Spiel für Herrn Scheu: 182 / 600 = 0.3033.

Analogie: Massenmittelpunkt

Veranschaulichen kann man sich den Erwartungswert sehr gut am Stabdiagramm, das eine andere Interpretation suggeriert: Dazu stelle man sich die x-Achse als (masselosen) Stab vor, der an den Stellen x_i mit Massen der Größe p_i belegt ist. An welcher Stelle muss man den Stab unterstützen, damit er im Gleichgewicht ist? Klar am Schwerpunkt (oder Massenmittelpunkt) – die Berechnung des Erwartungswertes ist also identisch zur Berechnung des Schwerpunktes einer diskreten Massenverteilung.

Für eine Translationsbewegung des gesamten Körpers kann man sich die Massenverteilung durch die Gesamtmasse M am Schwerpunkt ersetzt denken; die Gesamtmasse ist einfach sie Summe aller Einzel-Massen m_i.

Da sich die Massen nicht wie die Wahrscheinlichkeiten zu 1 addieren müssen, wird in der Schwerpunktberechnung die Ortskoordinate x_i mit der Masse m_i multipliziert; nach der Summation wird durch die Gesamtmasse geteilt. Somit entspricht dem Anteil einer Einzel-Masse m_i an der Gesamtmasse, also m_i/M, der Wahrscheinlichkeit p_i. Die Ortskoordinaten x_i der Einzel-Massen entsprechen den Werten der Zufallsvariable X.

Und so wie keine Würfelseite mit 3.5 beschriftet ist, kann ein Körper seinen Schwerpunkt dort haben, wo keine Masse sitzt, wie etwa bei einem Ring.

Beispiele für die Berechnung des Erwartungswertes für spezielle Verteilungen

Die geometrische Verteilung

In Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Axiome von Kolmogorov und Grundbegriffe der Wahrscheinlichkeitsrechnung: Diskrete und stetige Zufallsvariablen wurde bereits die geometrische Verteilung eingeführt. Um Berechnungen mit ihr auszuführen, benötigt man Kenntnisse über die geometrische Reihe, die hier nicht ausdrücklich besprochen werden, siehe Gleichung (1) und (2) in Abbildung 4.

Abbildung 4: Die Formeln für die endliche und unendliche geometrische Reihe, die Definition der geometrischen Verteilung und die Berechnung des Erwartungswertes der geometrischen Verteilung.

Die geometrische Verteilung besitzt abzählbar unendlich viele Werte, nämlich 1, 2, ..., und hängt von einem Parameter p, 0 < p < 1, ab. Man sagt eine Zufallsvariable gehorcht der geometrischen Verteilung, wenn Gleichung (3) in Abbildung 4 gilt (was für viele Anwendungen besser mit Hilfe von q = 1 - p ausgedrückt wird, siehe Gleichung (4)).

In Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Axiome von Kolmogorov wurde die einfachste Interpretation der geometrischen Verteilung diskutiert: Beträgt die Wahrscheinlichkeit p für eine 6 beim Würfeln 1/6, dann beschreibt P(X = n) die Wahrscheinlichkeit dafür, dass man im n-ten Wurf die erste 6 würfelt. (Man kann dieses Paradebeispiel für die geometrische Verteilung natürlich geeignet umformulieren.)

Die Berechnung des Erwartungswertes E(X) der geometrischen Verteilung erfordert einiges Geschick im Umgang mit der geometrischen Reihe: Der formale Ansatz in Gleichung (5) in Abbildung 4 ist noch klar. Weiter umformen lässt er sich nur, wenn man erkennt, dass unter der Summe eine Ableitung steht. Wenn man jetzt Summenbildung und Differentiation vertauscht – was natürlich noch zu rechtfertigen ist –, kann man die Formel für geometrische Reihe einsetzen und erhält (Gleichung (6)):

E(X) = 1/p.

Beim Würfeln bedeutet dies: Im Durchschnitt erscheint die erste 6 beim sechsten Wurf.

Die Einfachheit dieses Ergebnisses sollte stutzig machen: muss man, um diese Selbstverständlichkeit zu zeigen, tatsächlich die Berechnung in Gleichung (5) und (6) durchführen? Natürlich nicht! Es gibt unzählige "einfache" Überlegungen, die ebenfalls zu diesem Resultat führen. Hier ist "einfach" aber in Anführungsstriche gesetzt, da bei diesen Überlegungen oft nicht erkennbar ist, welche Annahmen zwischen den Zeilen gemacht werden.

Abbildung 5 zeigt die geometrische Verteilung für p = 1/6 (blau) und den Erwartungswert (rot).

Abbildung 5: Die ersten 12 Werte der geometrischen Verteilung zu p = 1/6 (blau). Der Erwartungswert μ = 6 ist rot gekennzeichnet.

Aufgaben:

1. Wie muss man argumentieren, um die Vertauschung von Differentiation und Summation in Gleichung (5), (6) in Abbildung 4 zu rechtfertigen?

2. Versuchen Sie den Erwartungswert der geometrischen Verteilung ohne die unendliche Summe wie in Abbildung 4 herzuleiten.

3. Begründen Sie, ob der "stochastische Dreisatz" richtig ist oder nicht:

Wenn beim Würfeln im Durchschnitt nach 6 Würfen die 6 zum ersten Mal erscheint, dann erscheint die 5 im Durchschnitt zum ersten Mal nach 5 Würfen.

Die Poisson-Verteilung

Die Poisson-Verteilung wurde in Grundbegriffe der Wahrscheinlichkeitsrechnung: Diskrete und stetige Zufallsvariablen eingeführt. Eine Zufallsvariable X_λ, die ihr gehorcht, kann abzählbar unendlich viele Werte annehmen, jetzt aber beginnend bei k = 0. Sie hängt von einem Parameter λ > 0 ab. Die Wahrscheinlichkeiten P(X_λ = k), k = 0, 1, 2, ..., sind in Gleichung (1) in Abbildung 6 angegeben.

Abbildung 6: Eigenschaften der Poisson-Verteilung: Definition, Normierung und Berechnung des Erwartungswertes.

Zur Berechnung des Erwartungswertes E(X_λ) sind einige Umformungen nötig (siehe Gleichung (3) und (4) in Abbildung 6):

Der Faktor k wird gekürzt,
der Faktor λ wird vor die Summe gezogen,
der Summationsindex wird umbenannt (hier j = k - 1),
die Normierung als Wahrscheinlichkeit aus Gleichung (2) wird eingesetzt.

Insgesamt erhält man:

E(X_λ) = λ.

Die folgende Abbildung 7 zeigt die Poisson-Verteilungen zu λ = 1, 2, 3, 4 für die k-Werte 0, 1, ..., 10; jede Verteilung wird einmal ohne den Erwartungswert und einmal mit dem Erwartungswert (rot) dargestellt.

Damit die Verteilungen untereinander besser vergleichbar sind, wird die y-Achse jeweils identisch skaliert.

Abbildung 7: Darstellung der Einzel-Wahrscheinlichkeiten für 4 Poisson-Verteilungen mit Parameter λ = 1, 2, 3, 4 und k = 0, 1, ..., 10. Jeweils links sind nur die Wahrscheinlichkeiten eingetragen, rechts zusätzlich der Erwartungswert (rot).

Eigenschaften des Erwartungswertes

Ausgehend von der Definition des Erwartungswertes für diskrete Zufallsvariablen (siehe Gleichung (1) in Abbildung 1) werden jetzt Eigenschaften des Erwartungswertes hergeleitet. Diese Eigenschaften gelten dann auch für stetige Zufallsvariablen und werden dort nicht mehr ausführlich besprochen.

Addition einer Konstanten zu einer Zufallsvariable

Eine wichtige Eigenschaft des Erwartungswertes macht man sich häufig zunutze, wenn man den Mittelwert einer Zahlenfolge berechnet.

Beispiel

Wie lautet der Mittelwert der Zahlen

3987, 4003, 3997, 4013?

Es ist auf einen Blick zu erkennen, dass diese vier Zahlen gleichmäßig um die 4000 verstreut sind: es gibt

eine Abweichung um 13 nach unten und nach oben,
sowie eine Abweichung um 3 nach oben und nach unten.

Das heisst der Mittelwert der um 4000 verschobenen Zahlenfolge

-13, 3, -3, 13

und der gesuchte Mittelwert unterscheiden sich um 4000.

Diese Eigenschaft gilt nicht nur für eine Mittelwertberechnung, bei der alle Summanden gleich gewichtet sind, sie gilt auch bei der Berechnung eines Erwartungswertes einer beliebigen Zufallsvariable, wenn die Werte mit beliebigen Wahrscheinlichkeiten gewichtet werden.

Oder wenn man an die Analogie der Schwerpunktberechnung denkt: werden alle Massenpunkte gleichzeitig um eine Strecke b verschoben, wandert der Schwerpunkt ebenfalls um die Strecke b.

Werden alle Werte einer diskreten Zufallsvariable X um den Wert b verschoben, so verschiebt sich auch der Erwartungswert um b:

E(X + b) = E(X) + b.

Beispiel: Nettogewinn und Auszahlungsbetrag

Bisher musste immer, wenn die Strategien der Herren Forsch und Scheu beschrieben wurde, umständlich erklärt werden, ob die Zufallsvariablen F und S den Nettogewinn oder den Auszahlungsbetrag beschreiben. Da sich diese nur um den Einsatz unterscheiden und dieser bei jedem Spiel als eine konstante Größe angenommen wurde, kann man die Aussage E(X + b) = E(X) + b verwenden, um zwischen dem Erwartungswert des Nettogewinnes und dem Erwartungswert des Auszahlungsbetrages umzurechnen.

Aufgabe: Leiten Sie E(X + b) = E(X) + b aus der formalen Definition des Erwartungswertes her (Gleichung (1) in Abbildung 1).

Multiplikation einer Zufallsvariable mit einem konstanten Faktor

Beispiel: Verdoppelter Einsatz

Im Beispiel unseres Glücksspiels hat Herr Forsch pro Spiel immer einen EUR eingesetzt. Wie ändert sich der Erwartungswert, wenn er seinen Einsatz verdoppelt (oder ein beliebiges Vielfaches einsetzt)? Mit dem fairen Würfel war sein Erwartungswert gleich null, daher wird sich am Erwartungswert wohl nichts ändern, wenn er den Einsatz erhöht – ein Spiel mit verdoppeltem Einsatz ist ja gleichwertig zu zwei Spielen, die gleichzeitig durchgeführt werden und eine identische Strategie verfolgen.

Diese Argumentation kann man auf den gezinkten Würfel übertragen: Wenn alle Auszahlungsbeträge und Verluste verdoppelt werden, wird auch der Erwartungswert verdoppelt.

Diese Eigenschaft des Erwartungswertes gilt natürlich für jede diskrete Zufallsvariable.

Werden alle Werte einer diskreten Zufallsvariable X mit dem Wert a multipliziert, so wird auch der Erwartungswert mit a multipliziert:

E(a · X) = a · E(X).

Aufgabe: Leiten Sie die letzte Aussage aus der formalen Definition des Erwartungswertes her (Gleichung (1) in Abbildung 1).

♦ ♦ ♦

Fasst man die letzten beiden Ergebnisse zusammen, so gilt:

E(a · X + b) = a · E(X) + b.

Der Erwartungswert der Summe zweier Zufallsvariablen

Was unter der Summe zweier Zufallsvariablen zu verstehen ist, wird sich als nicht ganz einfach herausstellen. Zunächst soll ein Beispiel betrachtet werden, bei dem keine Unklarheiten bestehen sollten.

Beispiel: Herr Forsch und Herr Scheu verbünden sich

Herr Forsch ist mit seiner Strategie (er setzt immer auf die 6) unzufrieden und blickt neidisch auf Herrn Scheu (der immer auf gerade Zahl setzt), der viel öfter gewinnt. Umgekehrt würde Herr Scheu gerne so hohe Gewinne einfahren wie Herr Forsch. Die beiden Herren beschließen "zusammenzulegen", also ihren Einsatz gemeinsam zu bezahlen und jeden Gewinn zu teilen.

Durch welche Zufallsvariable G wird das gemeinsame Spiel der beiden Herren beschrieben (bevor sie den Gewinn teilen)?
Welchen Erwartungswert hat G?
Wie hängt dieser Erwartungswert mit den Erwartungswerten von F und S zusammen?

Lösung:

Die relevanten Ereignisse sind jetzt:

Ereignis	Beschreibung	G(ω)
{6}	Herr Forsch gewinnt; Herr Scheu gewinnt	+6
{2, 4}	Herr Forsch verliert; Herr Scheu gewinnt	0
{1, 3, 5}	Herr Forsch verliert; Herr Scheu verliert	-2

Diese drei Ereignisse erzeugen eine Zerlegung von Ω = {1, 2, 3, 4, 5, 6} und die Zufallsvariable G nimmt für jede der drei Mengen einen eindeutigen Wert an; und diese Werte setzen sich jeweils aus der Summe der Zufallsvariablen F und S zusammen:

G(ω) = F(ω) + S(ω).

Um den Erwartungswert von G zu berechnen, muss man den drei Ereignissen aus der Tabelle jeweils eine Wahrscheinlichkeit zuordnen. Für einen Laplace-Würfel gilt:

P(G = 6) = 1/6,

P(G = 0) = 1/3,

P(G = -2) = 1/2.

Der Erwartungswert berechnet sich dann zu:

E(G) = 6/6 + 0/3 - 2/2 = 0.

Da auf jeder der drei Mengen der Zerlegung die Zufallsvariablen F und S einen eindeutigen Wert besitzen, kann man in dieser Erwartungswert-Bildung stets G als Summe von F und S schreiben und erhält dann die Summe der Erwartungswerte von F und S.

Allgemein gilt daher:

Für die Summe zweier diskreter Zufallsvariablen X und Y gilt:

E(X + Y) = E(X) + E(Y).

♦ ♦ ♦

Dieses erste Beispiel für die Summe zweier Zufallsvariablen war so einfach gewählt, dass sofort klar ist, wie die Summe im Zweifelsfall zu bilden ist: man betrachtet jedes Elementarereignis ω und bildet

G(ω) = F(ω) + S(ω).

Und jetzt kann man leicht zur Erwartungswert-Bildung übergehen und erhält

E(G) = E(F) + E(S).

Bei dem folgenden Beispiel ist auf den ersten Blick nicht zu erkennen, dass man es identisch behandeln kann.

Beispiel: Augensumme beim zweimaligen Würfeln

Ein Laplace-Würfel wird zweimal nacheinander geworfen. Die Zufallsvariable X beschreibt das Ergebnis des ersten Wurfes, die Zufallsvariable Y das Ergebnis des zweiten Wurfes.

Wie bildet man hier die Summe der Zufallsvariablen X + Y?
Wie berechnet man den Erwartungswert von X + Y?

Lösung:

Das Problem scheint sich auf den ersten Blick vom vorhergehenden grundlegend zu unterscheiden, da in

(X + Y)(ω) = X(ω) + Y(ω)

nicht klar ist, was ω bedeuten soll: im ersten Summanden auf der rechten Seite muss es das Ergebnis das ersten Wurfes sein, im zweiten Summanden das Ergebnis des zweiten Wurfes stehen. Und links ist somit die Bedeutung von ω völlig unklar.

Dieser Ansatz beschreibt das Zufallsexperiment falsch. Richtig, dass der Wahrscheinlichkeitsraum aus 2 Komponenten gebildet werden muss. Dazu schreibt man

ω = (ω₁, ω₂),

wobei ω₁ für das Elementarereignis des ersten Wurfes steht und ω₂ für den zweiten Wurf. Die Zufallsvariablen X und Y sind dann wieder als Funktionen auf der Menge der Elementarereignisse definiert:

X(ω) = X(ω₁, ω₂) = ω₁,

Y(ω) = Y(ω₁, ω₂) = ω₂.

Damit ist auch die Summe der Zufallsvariablen eindeutig definiert:

(X + Y)(ω) = (X + Y)(ω₁, ω₂) = ω₁ + ω₂.

Nachdem die Bedeutung der Summe der Zufallsvariablen hier geklärt ist, ist auch die Berechnung des Erwartungswertes wieder einfach und führt zu

E(X + Y) = E(X) + E(Y).

Man beachte, dass in dieser Aussage auch die Aussage

E(X + b) = E(X) + b

für eine beliebige Zahl b enthalten ist. Denn die Zufallsvariable Y oben kann auch die sehr spezielle Zufallsvariable sein, die nur den Wert Y = b annimmt.

Linearität des Erwartungswertes

Fasst man alle bisher gewonnenen Aussagen über den Erwartungswert zusammen, erhält man den Satz 1 in Abbildung 8, den man kurz wie folgt schreibt:

Satz 1:

X, Y Zufallsvariablen, a, b beliebige reelle Zahlen, dann gilt

E(a · X + b · Y) = a · E(X) + b · E(Y).

♦ ♦ ♦

Abbildung 8: Satz 1 fasst die Linearitätseigenschaften von Zufallsvariablen zusammen. Satz 2 besagt, wie man den Erwartungswert berechnet, wenn auf die Zufallsvariable X eine (im Allgemeinen) nichtlineare Funktion g angewendet wird.

Man beachte den Unterschied in der saloppen Formulierung von Satz 1 oben und der Formulierung in Abbildung 8: Damit man die Summe der Zufallsvariablen überhaupt bilden kann, müssen sie auf einem gemeinsamen Wahrscheinlichkeitsraum Ω definiert sein. Wie die Diskussion oben über die Bedeutung der Summe zweier Zufallsvariablen gezeigt hat, kann man nur so die Summe sinnvoll bilden.

Wegen der Bedeutung von Satz 1 soll der Beweis hier kurz angeführt werden.

Die Zufallsvariable X induziert auf dem Wahrscheinlichkeitsraum Ω eine Zerlegung (A_i), also ein System von Teilmengen von Ω, wobei

die Mengen untereinander disjunkt sind,
ihre Vereinigungsmenge das gesamte Ω ergibt (siehe (2) in Abbildung 8) und
die Zufallsvariable X auf jeder der Mengen A_i einen konstanten Wert x_i annimmt (siehe (4)).

Entsprechend gibt es für die Zufallsvariable Y eine Zerlegung (B_i) von Ω (siehe Gleichungen (3, 5) in Abbildung 8). Mit Hilfe dieser Zerlegungen lässt sich der Erwartungswert E(a · X + b · Y) auf die Erwartungswerte von X und Y zurückführen (siehe (7, 8, 9) in Abbildung 8).

In den beiden letzten Umformungen wird verwendet, dass (A_i) und (B_i) Zerlegungen sind und somit kein Elementarereignis in der Summe mehrfach auftauchen kann. Dann kann die Definition des Erwartungswertes für X und Y eingesetzt werden.

Erwartungswert einer beliebigen Funktion einer Zufallsvariable

Bisher wurden lediglich Linearitätseigenschaften für Zufallsvariable verwendet, oft möchte man aber auch nichtlineare Funktionen auf eine Zufallsvariable anwenden und dann den Erwartungswert bilden, also etwa

E(|X|), E(X²) oder E(exp(X)).

Die Grundlage hierfür bildet Satz 2 in Abbildung 8.

Überraschend in Satz 2 ist, dass zur Berechnung des Erwartungswertes von g(X) die Einzel-Wahrscheinlichkeiten P(X = x_i) herangezogen werden und nicht die Einzel-Wahrscheinlichkeiten von g(X), also P(g(X) = y_i).

Weiter beachte man, Satz 2 sagt nur aus, dass für eine Zufallsvariable X auf Ω und eine reelle Funktion g(x):

g(X) wiederum eine Zufallsvariable auf dem Wahrscheinlichkeitsraum Ω ist.
Die Formel angegeben wird, wie der Erwartungswert E(g(X)) zu berechnen ist.

Der Beweis ist nicht schwer, wenn man sich das Beweisverfahren von Satz vergegenwärtigt. Ist g eine eindeutige Funktion, so induziert g(X) dieselbe Zerlegung von Ω wie X und E(g(X)) ergibt sich, indem man in die Definition des Erwartungswertes einsetzt. Ist g nicht eindeutig, geht man der Zerlegung (A_i) aus, die die Zufallsvariable X erzeugt und vergröbert sie, indem man Mengen A_i und A_j vereinigt, auf denen g(X) identische Werte annimmt.

♦ ♦ ♦

Man beachte, dass im Allgemeinen

E(g(X)) ≠ g(E(X)).

Satz 2 behauptet nicht, dass hier eine Gleichheit gilt.

Aufgabe: Zeigen Sie, dass für die Zufallsvariable S, die den Nettogewinn von Herrn Scheu beschreibt gilt:

E(S) = 0, E(|S|) = 1, E(S²) = 1,

falls mit einem Laplace-Würfel gespielt wird. Somit hat man für S zwei Funktionen, nämlich

g(x) = |x| und g(x) = x²

gefunden, für die

E(g(S)) ≠ g(E(S)).

Der Erwartungswert einer stetigen Zufallsvariable

Definition und Eigenschaften des Erwartungswertes

Bei einer diskreten Zufallsvariable X gibt es für die endlich oder abzählbar unendlich vielen Werte x_i von X entsprechend endlich oder abzählbar unendlich viele Wahrscheinlichkeiten p_i = P(X = x_i), die sich zu 1 addieren (Normierung).

Eine stetige Zufallsvariable X wird mit Hilfe einer Wahrscheinlichkeitsdichte f(x) beschrieben, also einer nicht-negativen Funktion (siehe Gleichung (1) in Abbildung 9), die als Normierungsbedingung Gleichung (2) erfüllen muss.

Der Funktionswert f(x) kann nicht als Wahrscheinlichkeit eines Ereignisses interpretiert werden und Wahrscheinlichkeiten der Art P(X = x) sind bei einer stetigen Zufallsvariable stets gleich 0. Eine Wahrscheinlichkeit ungleich null kann man für Intervalle erhalten:

P(a ≤ X ≤ b), mit reellen Zahlen a < b.

Berechnet wird eine derartige Wahrscheinlichkeit als Integral wie in Gleichung (3) in Abbildung 9. Da die Wahrscheinlichkeitsdichte f(x) ≥ 0, ist auch die Wahrscheinlichkeit P(a ≤ X ≤ b) ≥ 0.

Abbildung 9: Die Bedingungen an eine Wahrscheinlichkeitsdichte f(x) für eine stetige Zufallsvariable X (1 und 2) und die Berechnung von Wahrscheinlichkeiten der Art P(a ≤ X ≤ b) als Integral (3). Der Erwartungswert von X wird ebenfalls durch Integration berechnet (4). Der Erwartungswert für stetige Zufallsvariablen erfüllt die Linearitätseigenschaften, die auch für diskrete Zufallsvariablen gelten (5).

Auch bei der Berechnung des Erwartungswertes muss man von einer Summe zu einem Integral übergehen:

Aus den einzelnen Summanden x_i · p_i wird das Produkt von x · f(x).
Aus der Summation wird eine Integration. Sie erstreckt sich über den Wertebereich von X; setzt man f(x) außerhalb gleich null, kann man über alle reelle Zahlen integrieren.

Gleichung (4) in Abbildung 9 zeigt die Definition des Erwartungswertes für eine stetige Zufallsvariable X.

Die Eigenschaften, die oben für diskrete Zufallsvariablen diskutiert wurden, gelten auch für stetige Zufallsvariablen, siehe Gleichung (5) in Abbildung 9. Sie folgen aus der Linearität des Integrals und werden auch als die Linearitätseigenschaften des Erwartungswertes bezeichnet.

Beispiele zur Berechnung des Erwartungswertes

Die Normalverteilung

Eine stetige Zufallsvariable X gehorcht der Normalverteilung, wenn sie die Wahrscheinlichkeitsdichte f(x) aus Gleichung (1) in Abbildung 10 besitzt.

Abbildung 10: Definition und einfache Eigenschaften der Normalverteilung.

Es ist klar, dass f(x) ≥ 0, da die Exponentialfunktion nur positive Werte annehmen kann. Der Nachweis, dass die Wahrscheinlichkeitsdichte f(x) normiert ist (Gleichung (2) in Abbildung 10), ist keineswegs einfach, da man zu f(x) keinen geschlossenen Ausdruck für die Stammfunktion angeben kann, der aus elementaren Funktionen aufgebaut ist. Wie man dazu vorgeht, soll hier nicht diskutiert werden. Dies geschieht ausführlich in Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung, wenn dort die Normalverteilung besprochen wird.

In der Wahrscheinlichkeitsdichte f(x) sind die Zahlen μ und σ vorerst Parameter, deren Eigenschaften man durch Kurvendiskussion bestimmen kann. Ihre Bedeutung für die Wahrscheinlichkeitsrechnung wird zwar durch ihre Bezeichnung suggeriert, ist aber keineswegs am Funktionsterm (1) offensichtlich.

An der Stelle x = μ besitzt f(x) eine waagrechte Tangente und wie man sich aus den Grenzwerten von f(x) leicht überlegt (siehe Gleichung (3) in Abbildung 10), muss f(μ) ein Maximum sein.

An den Stellen x = μ ± σ ist die zweite Ableitung von f(x) gleich null, daher befinden sich dort Wendepunkte, die für die typische Glockenform von f(x) sorgen.

Die folgende Abbildung zeigt vier Wahrscheinlichkeitsdichten zu unterschiedlichen Werten von μ und σ (Beschriftung der Diagramme beachten). Die vier Diagramme sind identisch skaliert, so dass man die Kurvenverläufe bei unterschiedlicher Wahl der Parameter μ und λ besser vergleichen kann.

Abbildung 11: Vier Gaußsche Glockenkurven mit den Werten μ = 0 beziehungsweise 2 sowie σ = 1 beziehungsweise 2. Die Verteilung mit μ = 0 und σ = 1 wird als Standardnormalverteilung bezeichnet. Zusätzlich eingezeichnet ist jeweils x = μ, die Stellen x = μ ± σ sind als Wendepunkte leicht erkennbar.

Durch die Interpretation des Schwerpunktes als Massenmittelpunkt ist die Berechnung des Erwartungswertes einer normalverteilten Zufallsvariable X eigentlich überflüssig: Aufgrund der Symmetrie der Wahrscheinlichkeitsdichte f(x) kann der Erwartungswert nur bei x = μ liegen:

E(X) = μ.

Aufgabe:

Berechnen Sie die erste und zweite Ableitung der Wahrscheinlichkeitsdichte f(x) aus Gleichung (1) in Abbildung 10.

Berechnen Sie die Koordinaten des Maximums und der Wendepunkte.

Die Exponentialverteilung

Eine Zufallsvariable X gehorcht der Exponentialverteilung, wenn ihre Wahrscheinlichkeitsdichte wie in Gleichung (1) in Abbildung 12 lautet. Der Zusatz einseitig wird oft verwendet, um zu betonen, dass die Wahrscheinlichkeitsdichte nur für x ≥ 0 definiert ist.

Da für den Parameter λ nur positive Werte zugelassen sind, kann die Funktion g(x) nicht negativ werden. Die Normierungsbedingung kann man leicht nachrechnen, siehe Gleichung (2) in Abbildung 12.

Abbildung 12: Definition und Eigenschaften der Wahrscheinlichkeitsdichte der Exponentialverteilung. Berechnung des Erwartungswertes der Exponentialverteilung.

Die Wahrscheinlichkeitsdichte g(x) ist monoton fallend und geht gegen 0, wenn x gegen unendlich geht. Und je größer der Parameter λ ist, umso größer ist g(0) und umso steiler der Abfall bei g(0). Daher muss der Erwartungswert kleiner werden (und gegen 0 gehen), wenn λ größer wird.

Die formale Berechnung des Erwartungswertes einer exponential-verteilten Zufallsvariable X bestätigt dies, siehe Gleichung (3) und (4) in Abbildung 12. Die Berechnung verwendet partielle Integration (der Faktor x wird abgeleitet, der Faktor exp(-λ x) wird integriert).

Die folgende Abbildung zeigt vier Wahrscheinlichkeitsdichten für die Werte λ = 1, 2, 3, 4.

Abbildung 13: Die Wahrscheinlichkeitsdichte der Exponentialverteilung für λ = 1, 2, 3, 4. Zusätzlich eingetragen ist jeweils der Erwartungswert.