Konzentrations-Ungleichungen: Die Tschebyscheff-Ungleichung

Die Tschebyscheff-Ungleichung als einfachste Konzentrations-Ungleichung wird aus mehreren Perspektiven beleuchtet: Es werden Beispiele für ihre typische Anwendung besprochen; es wird ein direkter Beweis gegeben; es wird gezeigt, dass sie als Spezialfall der verallgemeinerten Markov-Ungleichung aufgefasst werden kann; es wird diskutiert, wie gut die Abschätzung ist, die sie liefert. In den R-Skripten werden die Berechnungen aus den Anwendungsbeispielen ausgeführt, die man ohne Programmierung kaum bewältigen könnte.

walter

20 Apr. 2020

Konzentrations-Ungleichung Standardabweichung Varianz Faltung diskrete Zufallsvariable seltenes Ereignis Zufallsvariable Erwartungswert Markov-Ungleichung Tschebyscheff-Ungleichung

Inhaltsverzeichnis

Einordnung des Artikels

Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
  - Eigenschaften von Zufallsvariablen
    - Konzentrations-Ungleichungen: Die Tschebyscheff-Ungleichung

Vorausgesetzt werden Kenntnisse über Zufallsvariablen, vor allem Erwartungswert, Varianz und Standardabweichung.

Einführung

In vielen Anwendungen der Wahrscheinlichkeitsrechnung arbeitet man mit Zufallsvariablen, deren Einzelwahrscheinlichkeiten ein typisches Verhalten zeigen, das auch in Abbildung 1 zu erkennen ist:

die Wahrscheinlichkeiten konzentrieren sich in der Umgebung des Erwartungswertes μ,
weit weg vom Erwartungswert fallen die Wahrscheinlichkeiten schnell ab, werden aber erst in großem Abstand gleich null.

Abbildung 1: Darstellung der Einzelwahrscheinlichkeiten einer beliebigen Zufallsvariable. Gekennzeichnet sind die Wahrscheinlichkeiten dafür, dass die Zufallsvariable einen Wert innerhalb eines Intervalls der Länge 2a um den Erwartungswert annimmt und das entsprechende Gegenereignis.

Oft ist man an folgenden Fragen interessiert:

Wie stark konzentrieren sich die Wahrscheinlichkeiten in einem Intervall der Länge 2a um den Erwartungswert?
Wie groß ist die Wahrscheinlichkeit dafür, dass die Zufallsvariable Werte außerhalb eines Intervalls der Länge 2a um den Erwartungswert annimmt? (Hier wird lediglich das Gegenereignis zur ersten Frage charakterisiert).
Dabei wird häufig a = σ, a = 2 · σ oder a = 3 · σ gesetzt, wobei σ die Standardabweichung der Zufallsvariable ist.

Ist die exakte Beantwortung dieser Fragen sehr aufwendig, begnügt man sich mit Abschätzungen für die gesuchten Wahrscheinlichkeiten. Ungleichungen, die diese Fragen beantworten, werden meist als Konzentrations-Ungleichungen bezeichnet. Die Tschebyscheff-Ungleichung ist ein sehr einfacher Vertreter dieser Klasse von Ungleichungen.

In den folgenden Abschnitten wird sie sehr ausführlich vorgestellt; dabei wird man zahlreiche methodisch wichtige Vorgehensweisen beim Umgang mit Abschätzungen für Wahrscheinlichkeiten kennenlernen. Insbesondere werden zwei völlig unterschiedliche Beweise vorgestellt:

Der Beweis, der sehr unmittelbar vorgeht und und eigentlich schon aus Abbildung 1 zu erahnen ist.
Ein weiterer Beweis, der die Tschebyscheff-Ungleichung als Spezialfall der Markov-Ungleichung auffasst.

Die Tschebyscheff-Ungleichung

Die Tschebyscheff-Ungleichung wird als erste der Konzentrations-Ungleichungen besprochen; sie liefert in vielen Fällen nur sehr grobe Abschätzungen. Ihre Vorteile liegen darin, dass

man von der zu untersuchenden Zufallsvariable nur Erwartungswert und Varianz kennen muss und
daraus mit sehr wenig Aufwand Abschätzungen für die Wahrscheinlichkeiten von typischen (oder untypischen) Ereignissen berechnen kann.

Der Nachteil der Tschebyscheff-Ungleichung soll aber nicht verschwiegen werden: Da sie sehr wenig voraussetzt, also einen großen Gültigkeitsbereich hat, sind die von ihr gelieferten Abschätzungen oft sehr grob oder sogar unbrauchbar.

Ein erstes Beispiel: Anzahl der Treffer bei N Spielen

Um einen Eindruck zu gewinnen, was man unter Konzentrations-Ungleichungen versteht und speziell bei welchen Fragestellungen die Tschebyscheff-Ungleichung zum Einsatz kommt, können die beiden folgende Beispiele gewählt werden.

1. Beispiel: N-fache unabhängige Wiederholung eines Glücksspiels; Abschätzung der Anzahl der Treffer

Ein Glücksspiel soll N mal wiederholt werden, wobei folgende Bedingungen gelten:

Die einzelnen Spiele sind unabhängig voneinander.
Die Gewinn-Wahrscheinlichkeit werde mit p bezeichnet, die Verlust-Wahrscheinlichkeit mit q = 1 - p (es gibt kein unentschieden).
Die Gewinn-Wahrscheinlichkeit p ist für jedes Spiel identisch.

Realisieren könnte man ein derartiges Spiel etwa als Münzwurf oder durch Würfeln.

Ist N eine sehr große Zahl, so wird man etwa k = p · N Spiele gewinnen und die anderen N - k Spiele verlieren. Die genaue Anzahl der Gewinne (oder Treffer) lässt sich nicht berechnen – man kann lediglich Wahrscheinlichkeiten berechnen, etwa für das Ereignis "k Treffer bei N Spielen".

Ist speziell p = 1/2 und N = 100, so wird man ungefähr 50 Treffer erwarten und mehr als 80 Treffer als "großes Glück" bezeichnen.

Naheliegend sind dann Fragen der Art:

Wie groß ist die Wahrscheinlichkeit dafür, 80 oder mehr Treffer zu erzielen?
Wie groß ist die Wahrscheinlichkeit für ein Extrem-Ereignis der Art: "die Anzahl der Treffer ist kleiner gleich 10 oder größer gleich 90"?
In welchem Intervall (mit Mittelpunkt k = 50) liegen mit 90 Prozent Wahrscheinlichkeit die Trefferzahlen?

Dieses Beispiel ist so einfach gewählt, dass man die exakten Ergebnisse – mit etwas Aufwand – berechnen kann. Es sollte aber auch klar sein, dass man die Voraussetzungen leicht abändern kann, so dass eine exakte Berechnung unangemessen aufwendig wird. Jetzt wird man sich mit Abschätzungen für die in den Fragen genannten Wahrscheinlichkeiten zufrieden geben. Weiter unten wird das Beispiel aufgegriffen, um zu klären, ob die Tschebyscheff-Ungleichung hier brauchbare Abschätzungen liefern kann.

Zuvor sollen die genannten Ereignisse veranschaulicht werden.

Abbildung 2 zeigt die Wahrscheinlichkeit für k Treffer, wenn insgesamt N = 100 Spiele durchgeführt werden und die Gewinn-Wahrscheinlichkeit beim einzelnen Spiel p = 1/2 beträgt. Die Trefferanzahl k kann die Werte k = 0, 1, ..., 100 annehmen. Berechnet werden diese Wahrscheinlichkeiten mit Hilfe der Binomialverteilung B(N, p, k).

Abbildung 2: Die Binomialverteilung B(N = 100, p = 1/2, k), wobei k = 0, 1, ..., 100 (blau). Rot eingezeichnet ist die Standardabweichung, die weiter unten berechnet wird.

Die oben gestellten Fragen könnte man jetzt beantworten, indem man die beschriebenen Ereignisse in Abbildung 2 identifiziert und die entsprechenden Wahrscheinlichkeiten addiert. Erleichtert wird dies, wenn man die Verteilungsfunktion der Binomialverteilung bildet, also (beginnend bei k = 0) die kumulierten Summen der Einzelwahrscheinlichkeiten berechnet. Die Verteilungsfunktion ist in Abbildung 3 dargestellt.

Abbildung 3: Die Verteilungsfunktion der Binomialverteilung B(N = 100, p = 1/2, k), wobei k = 0, 1, ..., 100 (blau). Rot eingezeichnet ist wieder die Standardabweichung.

Allerdings beschreiben die ersten beiden Fragen Ereignisse mit derart kleinen Wahrscheinlichkeiten, dass man sie in der üblichen Skalierung nicht mehr ablesen kann. Für die Wahrscheinlichkeit des Ereignisses "mindestens 80 Treffer" müsste man so vorgehen:

Aus Symmetriegründen stimmen die Wahrscheinlichkeiten für "mindestens 80 Treffer" und "höchstens 20 Treffer" überein.
Daher ist die Wahrscheinlichkeiten für "mindestens 80 Treffer" gleich dem Wert der Verteilungsfunktion bei k = 20.

Analog kann man die Wahrscheinlichkeit für "die Anzahl der Treffer ist kleiner gleich 10 oder größer gleich 90" bestimmen.

Die Frage, in welchem Intervall (um k = 50) die Trefferzahlen mit einer Wahrscheinlichkeit von 90 Prozent liegen, kann man sogar aus Abbildung 2 ablesen: Außerhalb des Intervalls müssen 10 Prozent der Wahrscheinlichkeit liegen; wegen der Symmetrie der Binomialverteilung liegen also je 5 Prozent links und rechts des gesuchten Intervalls. Jetzt muss man nur nachsehen, wo die Gerade y = 0.05 beziehungsweise y = 0.95 die Verteilungsfunktion der Binomialverteilung schneidet. Die Schnittpunkte liegen etwa bei k₁ = 43 und k₂ = 67.

Ein zweites Beispiel: mittlerer Nettogewinn pro Spiel bei N Spielen

2. Beispiel: Jetzt soll ein Würfelspiel mit folgenden Regeln untersucht werden (alle Beträge werden in einer willkürlichen Einheit angegeben):

Der Einsatz beträgt 2 pro Spiel.
Würfelt der Spieler eine 1, 2, 3 oder 4 geht sein Einsatz verloren (der Nettogewinn beträgt -2).
Würfelt er eine 5, wird ein Betrag von 5 ausbezahlt (Nettogewinn 3).
Würfelt er eine 6, wird ein Betrag von 7 ausbezahlt (Nettogewinn 5).

Für die folgenden Berechnungen wird angenommen:

Es werden insgesamt N = 100 Spiele durchgeführt.
Die Spiele sind unabhängig voneinander.
Der Würfel wird als Laplace-Würfel modelliert.

Aus der letzten Annahme folgt, dass der Erwartungswert für den Nettogewinn genau gleich 0 ist.

In Abbildung 4 sind die Einzelwahrscheinlichkeiten der Zufallsvariable dargestellt, die ein einziges Spiel beschreibt.

Abbildung 4: Einzelwahrscheinlichkeiten für den Nettogewinn beim oben beschriebenen Würfelspiel (mit einem Laplace-Würfel ist es ein faires Spiel).

Abbildung 5 zeigt die Einzelwahrscheinlichkeiten für die möglichen Gewinne, wenn das Spiel N = 100 mal wiederholt wird.

Abbildung 5: Blau eingezeichnet sind die Wahrscheinlichkeiten für die Zufallsvariable, die den Nettogewinn bei N = 100 Spielen beschreibt. Der höchste Gewinn beträgt 500 (alle Spiele werden gewonnen). Rot eingezeichnet ist wieder die Standardabweichung.

In Abbildung 6 wird der Gewinn pro Spiel aufgetragen; dabei wird lediglich die x-Achse um den Faktor 100 gestaucht.

Abbildung 6: Gewinn pro Spiel für das beschriebene Würfelspiel, das N = 100 mal durchgeführt wird (blau). Rot eingezeichnet ist wieder die Standardabweichung.

Abbildung 7 zeigt die zu Abbildung 6 gehörige Verteilungsfunktion.

Abbildung 7: Verteilungsfunktion für die Zufallsvariable aus Abbildung 6 (blau). Rot eingezeichnet ist wieder die Standardabweichung.

Ähnlich wie beim ersten Beispiel kann man jetzt Fragen stellen über die Wahrscheinlichkeiten von seltenen Ereignissen:

Wie groß ist die Wahrscheinlichkeit dafür, dass der Nettogewinn größer ist als 1 beziehungsweise kleiner ist als -1?
Oder allgemeiner: Wie groß ist die Wahrscheinlichkeit dafür, dass der Nettogewinn größer ist als a beziehungsweise kleiner ist als -a (mit a > 0)?

Der Unterschied zum ersten Beispiel sollte auch klar sein: In diesem Beispiel lassen sich die exakten Wahrscheinlichkeiten nur mit deutlich höherem Aufwand berechnen. Sofern man nur eine grobe Abschätzung benötigt, wird man sich mit einer Näherung zufrieden geben.

Formulierung und Beweis der Tschebyscheff-Ungleichung

An den oben vorgestellten Beispielen und den diskutierten Fragestellungen sollte klar geworden sein, an welcher Aussage man interessiert ist: Sind für eine Zufallsvariable X der Erwartungswert E(X) und die Varianz Var(X) gegeben – und somit die Standardabweichung σ(X) als Wurzel der Varianz – so möchte man die Wahrscheinlichkeit von Ereignissen abschätzen, bei denen die Werte von X deutlich vom Erwartungswert abweichen. Der in Abbildung 8 dargestellte Satz, die Tschebyscheff-Ungleichung, liefert genau die gesuchte Aussage.

Abbildung 8: Die Tschebyscheff-Ungleichung und ihr Beweis.

Der Beweis soll mit Hilfe der folgenden Abbildungen veranschaulicht werden.

Abbildung 9 zeigt das Histogramm einer (beliebigen) Zufallsvariable X mit ihrem Erwartungswert μ = E(X), der grün eingezeichnet ist. Ferner ist die Standardabweichung σ zu erkennen; dazu sind rot eingetragen die Werte μ - σ und μ + σ. Orange eingetragen sind die Werte μ - a und μ + a (hier mit a = 3).

Abbildung 9: Zur Veranschaulichung des Beweises der Tschebyscheff-Ungleichung: Einzelwahrscheinlichkeiten einer Zufallsvariable X (blau) mit Erwartungswert (grün), Standardabweichung (rot) und einem vorgegebenen Intervall (orange); es soll die Wahrscheinlichkeit dafür abgeschätzt werden, dass die Werte von X außerhalb dieses Intervalls liegen.

Um besser nachvollziehen zu können, wie im Beweis (in Abbildung 8) vorgegangen wird, wird mit

Y = (X - E(X))² = (X - μ)²

eine neue Zufallsvariable definiert. Die Zufallsvariable X wird zentriert und anschließend quadriert. In Abbildung 9 gilt:

μ = 3.85, σ ≈ 1.605.

Das Zentrieren und Quadrieren hat zur Folge, dass die Varianz von X zugleich der Erwartungswert von Y ist – so ist gerade die Varianz definiert:

E(Y) = Var(X) = σ² ≈ 2.58.

Die Zufallsvariable Y ist in Abbildung 10 dargestellt. Dort sind zusätzlich eingezeichnet:

Der Erwartungswert von Y (grün),
die Schranke a² = 9 (orange).

Abbildung 10: Die Einzelwahrscheinlichkeiten für die Zufallsvariable Y mit ihrem Erwartungswert (grün) und dem Quadrat von a (orange).

Die Tschebyscheff-Ungleichung liefert eine Abschätzung für die Wahrscheinlichkeit auf der linken Seite in Gleichung (1) in Abbildung 8. Man kann diese Wahrscheinlichkeit in Abbildung 9 berechnen, indem man die Einzel-Wahrscheinlichkeiten addiert, die sich außerhalb der Schranken μ - a und μ + a (orange) befinden. Möchte man diese Wahrscheinlichkeit in Abbildung 10 identifizierten, muss man a ² = 9 eintragen und die Einzel-Wahrscheinlichkeiten rechts davon addieren.

Jetzt sind die Schritte und Abschätzungen aus dem Beweis (aus Abbildung 8) leicht zu verstehen:

Anstelle von Var(X) wird E(Y) berechnet.
Dabei werden die Summanden mit y_i < a² = 9 vernachlässigt.
In den verbleibenden Summanden wird y_i durch a² abgeschätzt.

Die Ungleichung, die so entsteht, ist – nach Umstellen – gerade die Tschebyscheff-Ungleichung.

Man beachte, dass man die Tschebyscheff-Ungleichung auch umgekehrt lesen kann, nämlich als Abschätzung für die Varianz einer Zufallsvariable X: Ist Var(X) nicht bekannt, aber man weiß, dass Wahrscheinlichkeiten von Ereignissen groß sind, bei denen X weit vom Erwartungswert μ abweicht, dann muss auch die Varianz groß sein.

Dies ist die Sichtweise, die in der Statistik eingenommen wird: dort möchte man aus Stichproben die Kennzahlen einer Verteilung schätzen (wie etwa die Varianz).

Leider liefert der Satz keine Aussage darüber, wie gut die Abschätzung ist. Man erkennt aber am Beweis, dass zwei Näherungen eingegangen sind:

Die Wahrscheinlichkeit dafür, dass der Wert von X um weniger als a vom Erwartungswert E(X) abweicht, wurde gleich 0 gesetzt.
Für deren Komplement wurde |x_i - μ| = a gesetzt.

Wenn diese Näherungen nicht zutreffen, wird die Tschebyscheff-Ungleichung nur eine sehr ungenaue Abschätzung liefern – darauf wird unten bei der Besprechung der Beispiele eingegangen.

Aufgaben:

1. Die Veranschaulichung des Beweises der Tschebyscheff-Ungleichung in den Abbildungen 9 und 10 verwendet eine Zufallsvariable X, die nur positive Werte annimmt.

Diskutieren Sie: Ändert sich die oben gegebene Argumentation, wenn X auch negative Werte annehmen kann?

2. Formulieren und beweisen Sie die Tschebyscheff-Ungleichung für stetige Zufallsvariablen!

Beispiele für die Anwendung der Tschebyscheff-Ungleichung

Jetzt sollen die eingangs vorgestellten Beispiele aufgegriffen werden, um

einfache Anwendungen der Tschebyscheff-Ungleichung kennenzulernen und gleichzeitig
einen Eindruck zu gewinnen, wie gut die mit ihr berechneten Abschätzungen sind.

1. Beispiel: Anzahl der Treffer bei N Spielen

In Abbildung 2 wurden die Wahrscheinlichkeiten dargestellt, bei N = 100 Spielen eines Glücksspiels k Treffer zu erzielen, wenn die Gewinn-Wahrscheinlichkeit p = 1/2 beträgt. Diese Wahrscheinlichkeiten lassen sich mit Hilfe der Binomialverteilung B(N, p, k) exakt berechnen.

Die einfachste der bei Abbildung 2 gestellten Fragen lautet:

1. Frage: Wie groß ist die Wahrscheinlichkeit dafür, 80 oder mehr Treffer zu erzielen?

Die exakte Antwort liefert die Binomialverteilung: siehe Gleichung (1) in Abbildung 11.

Abbildung 11: Die Berechnung der Wahrscheinlichkeit dafür, 80 oder mehr Treffer bei 100 Spielen zu erzielen; exakte Berechnung (Gleichung 1 und 2) und Näherung mit der Tschebyscheff-Ungleichung (Gleichung 7).

Mit B(N, p, k) berechnet man die Wahrscheinlichkeit dafür, bei N Spielen genau k Treffer zu erzielen, wenn die Gewinn-Wahrscheinlichkeit p beträgt (Gleichung 1 in Abbildung 11). Um die Wahrscheinlichkeit für das gesuchte Ereignis zu berechnen, wird N = 100 und p = 1/2 gesetzt und über k von 80 bis 100 summiert (Gleichung 2 in Abbildung 11).

Stellt man die Zufallsvariable X (Anzahl der Treffer bei 100 Spielen) als Summe von Zufallsvariablen dar, die die einzelnen Spiele beschreiben, kann man leicht den Erwartungswert, die Varianz und die Standardabweichung von X berechnen (Gleichung 3, 4 und 5).

Jetzt muss man nur noch die Schranke a bestimmen, sie ist durch den Abstand von 80 zum Erwartungswert 50 gegeben. Die Tschebyscheff-Ungleichung berechnet eigentlich die Wahrscheinlichkeit für Ereignisse der Form |X - μ| ≥ a; hier werden aber nur Trefferzahlen auf einer Seite des Erwartungswertes berechnet. Wegen der Symmetrie der Verteilung, kann man dies mit dem Faktor 1/2 in Gleichung 7 richtigstellen.

Vergleicht man das exakte Ergebnis (Gleichung 2) mit dem Wert aus der Tschebyscheff-Ungleichung, so kann man festhalten:

Einerseits besagt die Näherung zumindest, dass die gesuchte Wahrscheinlichkeit sehr gering ist.
Andererseits weicht es um mehrere Zehnerpotenzen vom exakten Ergebnis ab.

Letzteres sollte nicht verwundern, da in der Herleitung grobe Abschätzungen vorgenommen wurden. Später wird dann noch gezeigt, wie man erkennen kann, wann die Tschebyscheff-Ungleichung unsinnige Ergebnisse liefert.

2. Frage: Sucht man nach die Wahrscheinlichkeit dafür, dass die Anzahl der Treffer kleiner gleich 10 oder größer gleich 90 ist, muss man den Faktor 1/2 nicht einfügen, man muss das zugehörige a bestimmen und kann direkt in die Tschebyscheff-Ungleichung einsetzen (siehe Gleichung 1 in Abbildung 12). Das exakte Ergebnis (Gleichung 2 in Abbildung 12) weicht jetzt noch stärker von der Näherung ab als bei der ersten Berechnung.

Abbildung 12: Frage 2: Die Berechnung der Wahrscheinlichkeit eines seltenen Ereignisses, nämlich mindestens 90 oder höchstens 10 Treffer bei 100 Spielen zu erzielen; Näherung mit der Tschebyscheff-Ungleichung (Gleichung 1) und exakte Berechnung aus der Binomialverteilung (Gleichung 2). Frage 3: Berechnung des Intervalls um den Erwartungswert, in dem sich die Trefferzahlen mit einer Wahrscheinlichkeit von 90 Prozent befinden.

3. Frage: Bei der letzten Frage soll das Intervall gesucht werden, in dem sich die Trefferzahlen mit einer Wahrscheinlichkeit von 90 Prozent befinden. Hier ist also eine Wahrscheinlichkeit gegeben und die Schranke a gesucht. Zur Lösung muss man das Gegenereignis zu |X - μ| ≥ a bilden und dann in der Tschebyscheff-Ungleichung beide Ungleichheitszeichen umdrehen, siehe Gleichung (3) in Abbildung 12. Durch Auflösen nach a erhält man a = 16, das heißt mit 90 Prozent Wahrscheinlichkeit liegen die Trefferzahlen zwischen k = 34 und k = 66 – sofern man die Tschebyscheff-Ungleichung zugrunde legt.

Für die exakte Berechnung benötigt man die Verteilungsfunktion der Binomialverteilung; die entsprechende Auswertung liefert ein deutlich kleineres Intervall, nämlich von k = 42 bis k = 58 (zur Veranschaulichung: siehe die Verteilungsfunktion der Binomialverteilung in Abbildung 3).

Berechnet umgekehrt, mit welcher Wahrscheinlichkeit die Trefferzahlen zwischen k = 34 und k = 66 liegen, so liefert die Binomialverteilung 99,91 Prozent (siehe Abbildung 12 unten).

2. Beispiel: mittlerer Nettogewinn pro Spiel bei N Spielen

Methodisch sind die Lösungen nicht anders als beim ersten Beispiel, das oben ausführlich besprochen wurde. Der Unterschied besteht darin, dass die exakten Lösungen jetzt deutlich schwieriger zu berechnen sind, da man nicht auf die Binomialverteilung zurückgreifen kann, sondern die Verteilung der Zufallsvariable, die das Ergebnis von 100 Spielen beschreibt erst durch Faltung berechnen muss. Die Anwendung der Tschebyscheff-Ungleichung wird daher nicht nochmal erklärt – es werden nur die Ansätze und Ergebnisse mitgeteilt.

Die Zufallsvariable X_i, die den Nettogewinn bei einem Spiel beschreibt, ist in Abbildung 4 dargestellt; sie nimmt die Werte -2, 3, 5 mit den Wahrscheinlichkeiten 2/3, 1/6, 1/6 an. Den Nettogewinn bei 100 Spielen, die wieder unabhängig voneinander durchgeführt werden, kann dann durch

S₁₀₀ = X₁ + ... + X₁₀₀

beschrieben werden. Dies ist jetzt keine Binomialverteilung; die Verteilung der Zufallsvariable X muss aus den Faltungen der Verteilungen der Zufallsvariablen X₁, ..., X₁₀₀ berechnet werden. Das Ergebnis ist in Abbildung 5 dargestellt, die Berechnung der Faltung wird unten in den R-Skripten gezeigt.

Man muss sich aber auch klarmachen: Die Verteilung von S₁₀₀ benötigt man nur, wenn man exakte Ergebnisse berechnen möchte, für die Anwendung der Ungleichungen von Tschebyscheff benötigt man nur Erwartungswert und Varianz einer Verteilung.

Geht man zum Nettogewinn pro Spiel über, wird lediglich durch die Anzahl der Spiele geteilt (siehe Abbildung 5):

Z_N = (X₁ + ... + X_N) / N = S_N / N.

In Abbildung 13 sind alle Rechenschritte aufgeführt. Es fehlt lediglich der Schritt, wie die exakte Berechnung der Wahrscheinlichkeit in Gleichung (7) erfolgt; denn hier benötigt man die Verteilungsfunktion von Z₁₀₀, die man wie oben angedeutet durch Faltungen berechnen muss.

Abbildung 13: Berechnungen zum zweiten Beispiel.

Beim Vergleich der Wahrscheinlichkeiten in Gleichung (7) und (8) erkennt man wieder:

die genäherte Wahrscheinlichkeit ist zwar sehr klein,
aber sie weicht deutlich von der exakten Wahrscheinlichkeit ab.

Eine andere Sichtweise: Die Tschebyscheff-Ungleichung als Verallgemeinerung der Markov-Ungleichung

Zur Einführung: eine einfache Abschätzung

In einer Stadt A besitze jeder Haushalt im Durchschnitt ein Auto. Wie viele Haushalte besitzen 2 oder mehr Autos?

Es sind nicht viele Informationen gegeben, um hier eine starke Abschätzung anzugeben. Aber es können höchstens die Hälfte der Haushalte 2 oder mehr Autos besitzen. Andernfalls wäre der Mittelwert der Autos pro Haushalt größer als 1.

Man kann jetzt die Angabe ein wenig verändern: In einer Stadt B besitze jeder Haushalt im Durchschnitt 0.8 Autos. Wie viele Haushalte besitzen 2 oder mehr Autos?

Da jetzt der Mittelwert kleiner ist, können nicht 50 Prozent der Haushalte 2 Autos besitzen. Es sind höchstens

0.8 / 2 = 40 Prozent.

Diese einfachen Abschätzungen werden in den folgenden Abschnitten als Satz formuliert und verallgemeinert.

Die Markov-Ungleichung

Beim Beweis der Tschebyscheff-Ungleichung wurde die Varianz einer Zufallsvariable X berechnet und darin Abschätzungen vorgenommen. Betrachtet man dazu Abbildung 10 oder auch die Tatsache, dass die Varianz Var(X) als Erwartungswert ausgedrückt werden kann, nämlich

Var(X) = E (X - μ)²,

drängt sich folgende Frage auf:

Lässt sich das Beweis-Verfahren nicht bei einer beliebigen Erwartungswert-Berechnung anwenden und nicht nur auf die Berechnung einer Varianz?

In Abbildung 14 werden dazu die Einzelwahrscheinlichkeiten einer Zufallsvariable X mit ausschließlich positiven Werten aufgetragen; der Erwartungswert ist rot eingetragen. Weiter ist eine beliebige reelle Zahl a > 0 eingetragen.

Abbildung 14: Darstellung der Einzel-Wahrscheinlichkeiten einer Zufallsvariable X mit positiver Wertemenge. Eingetragen sind der Erwartungswert und eine beliebige Schranke a > 0.

Man kann jetzt die Schritte zum Beweis der Tschebyscheff-Ungleichung auf die Berechnung des Erwartungswertes von X übertragen (siehe Abbildung 15):

Zur Berechnung des Erwartungswertes von X werden die Indizes in 2 Teilmengen zerlegt, die mit x_i < a und die mit x_i ≥ a. Lässt man die Summation über die erste Menge an Indizes weg, wird die Summe kleiner, da alle Summanden positiv sind; siehe die Abschätzung in Gleichung (1).
In der zweiten Menge von Indizes gilt x_i ≥ a; verwendet man dies für alle x_i, kann die Summe nicht größer werden; siehe die Abschätzung von Gleichung (1) zu Gleichung (2).
Zieht man jetzt den Faktor a vor die Summe, beschreibt die Summe gerade das Ereignis P(X ≥ a).
Insgesamt erhält man eine Ungleichung, die den Erwartungswert von X, die reelle Zahl a und die Wahrscheinlichkeit P(X ≥ a) verknüpft, siehe Gleichung (3).

Die Formulierung des Satzes ist direkt im Anschluss gegeben.

Abbildung 15: Formulierung und Beweis der Markov-Ungleichung.

Es ist sofort klar, dass die Markov-Ungleichung (4) nur für a > E (X) eine hilfreiche Aussage ist. Denn für a = E (X) lautet sie lediglich P(X > a) ≤ 1, was für jede Wahrscheinlichkeit gilt. Und wählt man sogar 0 < a < E (X), wird die Wahrscheinlichkeit lediglich durch eine Zahl abgeschätzt, die echt größer ist als 1.

Aufgabe: Formulieren Sie die Markov-Ungleichung für stetige Zufallsvariablen.

Übertragen Sie obigen Beweis auf stetige Zufallsvariablen.

Die Verallgemeinerung der Markov-Ungleichung

Der Beweis der Markov-Ungleichung oben ist nur richtig, wenn die Zufallsvariable X keine negativen Werte annimmt. Denn sonst ist die Abschätzung in Gleichung (1) in Abbildung 15 nicht richtig.

Für Zufallsvariablen X, die auch negative Werte annehmen, bleibt die Aussage richtig, wenn man von X zu |X| übergeht – und entsprechend den Erwartungswert von |X| in der Markov-Ungleichung verwendet.

Abbildung 16, Gleichung (1) zeigt diese Folgerung aus der Markov-Ungleichung.

Abbildung 16: Formulierung und Beweis der Markov-Ungleichung.

Aber wenn man von der Zufallsvariable X zur Zufallsvariable |X| übergehen kann, kann man anstelle der Betragsfunktion auch jede andere nicht-negative Funktion f auf X anwenden und auf f(X) wiederum die Markov-Ungleichung anwenden. Diese Verallgemeinerung der Markov-Ungleichung ist in Abbildung 16, Gleichung (2), formuliert.

Setzt man in dieser allgemeinen Form der Markov-Ungleichung speziell die Zufallsvariable X - E (X) und verwendet die Funktion f(x) = x², so ergibt sich die Tschebyscheff-Ungleichung.

Wie gut ist die Abschätzung durch die Tschebyscheff-Ungleichung?

Die Problemstellung

Die Beispiele oben (Abbildung 2 und 6) lassen vermuten, dass die Tschebyscheff-Ungleichung nur eine sehr grobe Abschätzung für die richtige Wahrscheinlichkeit liefert. Wenn man eine derartige Behandlung vorschnell aufstellt, sollte man bedenken:

Sind diese Beispiele vielleicht sehr speziell gewählt, so dass die Tschebyscheff-Ungleichung nur hier weit daneben liegt?
Gibt es vielleicht andere Beispiele, bei denen die exakte Wahrscheinlichkeit und die berechnete Näherung sehr nahe beieinander liegen?

Wenn man sich den Satz in Abbildung 8 vergegenwärtigt, stellt man fest, dass hier keine speziellen Voraussetzungen über die Zufallsvariablen gemacht wurden: Es müssen lediglich der Erwartungswert und die Varianz bekannt sein, dann lässt sich zu einem gegebenen a > 0 eine Abschätzung berechnen für eine Wahrscheinlichkeit der Art:

P(|X - μ| > a).

Da in dem Satz keinerlei weitere Voraussetzungen gemacht werden, sollte man die Abschätzung so lesen: sie gilt für jede Zufallsvariable mit endlichem Erwartungswert und endlicher Standardabweichung.

Die Zufallsvariablen in den ausführlich besprochenen Beispielen sind in der Tat sehr speziell, da sie Summen von 100 unabhängigen, identisch verteilten Zufallsvariablen betreffen. Man sollte die Frage daher umgekehrt stellen: Gibt es Zufallsvariablen, so dass in der Tschebyscheff-Ungleichung sogar Gleichheit gilt oder zumindest nahezu Gleichheit?

Bevor ein derartiges Beispiel vorgestellt wird, soll die Tschebyscheff-Ungleichung in einer anderen Form präsentiert werden.

Eine andere Variante der Tschebyscheff-Ungleichung

In Abbildung 8 und in allen Anwendungen wurde die Tschebyscheff-Ungleichung derart formuliert, dass eine Abschätzung für die Wahrscheinlichkeit

P(|X - μ| ≥ a)

gesucht wird, wobei a > 0 eine beliebige reelle Zahl ist. In den diskutierten Beispielen war meist eine konkrete Fragestellung gegeben, zu der man a bestimmen musste. Betrachtet man die rechte Seite der Tschebyscheff-Ungleichung, so steht dort σ² / a². Dieser Term vereinfacht sich, wenn man a als Vielfaches der Standardabweichung angibt:

a = λ · σ, mit λ > 0.

Jetzt lautet die Tschebyscheff-Ungleichung:

P(|X - μ| ≥ λ · σ) ≤ 1 / λ².

Die Vorteile dieser Darstellung sind:

Man erkennt sofort, dass für 0 < λ < 1 auf der rechten Seite der Tschebyscheff-Ungleichung eine Zahl entsteht, die echt größer ist als 1. Die Abschätzung ist somit wertlos.
Man kann leichter die typischen Fragestellungen der Art formulieren:
- Mit welcher Wahrscheinlichkeit nimmt X Werte im Bereich μ ± σ an?
- Mit welcher Wahrscheinlichkeit nimmt X Werte im Bereich μ ± 2 · σ an?
- Mit welcher Wahrscheinlichkeit nimmt X Werte im Bereich μ ± 3 · σ an?

Dazu muss man nur auf die rechte Seite der Tschebyscheff-Ungleichung die Werte λ = 1, 2, 3 einsetzen und das Gegenereignis betrachten; man erhält:

P(|X - μ| ≤ σ) ≥ 0; diese Abschätzung ist nichtssagend: jede Wahrscheinlichkeit ist ≥ 0.
P(|X - μ| ≤ 2 · σ) ≥ 0.75.
P(|X - μ| ≤ 3 · σ) ≥ 8 / 9.

Umgekehrt werden mit einer Wahrscheinlichkeit von höchstens 25 Prozent Werte von X außerhalb des Intervalls μ ± 2 · σ angenommen und mit höchstens etwa 11.1 Prozent Werte von X außerhalb des Intervalls μ ± 3 · σ.

Und wenn man für λ nicht nur die Zahlen 1, 2 oder 3 einsetzt, sondern beliebige Zahlen einsetzt, erhält man mit 1 / λ² die Abschätzung dafür, dass Werte außerhalb μ ± λ · σ angenommen werden. Abbildung 17 versucht dies darzustellen: Rot eingetragen ist der Erwartungswert μ einer Zufallsvariable X; blau eingetragen sind die markanten Intervallgrenzen μ + σ, μ - σ und so weiter.

Versucht man jetzt die Werte einer Zufallsvariable mit Erwartungswert μ und Standardabweichung σ in der Abbildung zu plazieren, so müssen innerhalb des Intervalls μ ± 2 · σ mindestens 3/4 der Wahrscheinlichkeiten liegen (und höchstens 1/4 außerhalb).
Innerhalb des Intervalls μ ± 3 · σ müssen mindestens 8/9 der Wahrscheinlichkeiten liegen (und höchstens 1/9 außerhalb).
Wählt man nicht diese markanten Intervallgrenzen, sondern ein beliebiges λ · σ, so kann man die entsprechende Abschätzung für die Wahrscheinlichkeiten außerhalb des Intervalls an der Kurve (orange) ablesen.

Abbildung 17: Versuch einer graphischen Darstellung der Aussage des Tschebyscheff-Ungleichung. Jede Zufallsvariable mit gegebenem Erwartungswert und Standardabweichung muss die durch die Kurve (orange) beschriebene Schranke für die Wahrscheinlichkeiten der Werte um den Erwartungswert erfüllen; für markante Werte sind diese Wahrscheinlichkeiten ausdrücklich angegeben. (Die Kurve, die die Abschätzung wiedergibt (orange) ist nicht exakt gleich der rechten Seite der Tschebyscheff-Ungleichung, da eine Spline-Interpolation zum Zeichnen verwendet wurde, qualitativ gibt sie das Verhalten aber sehr gut wieder.)

Man beachte, dass obige Aussagen und die Abschätzung aus Abbildung 17 für jede Zufallsvariable X gelten (sofern Erwartungswert und Varianz endlich sind). Oder anders formuliert: man kann keine Zufallsvariable konstruieren, die diese Abschätzungen verletzt.

Im nächsten Abschnitt werden Zufallsvariablen gezeigt, die sozusagen den Grenzfall der Tschebyscheff-Ungleichung darstellen: Für bestimmte a wird dann die Tschebyscheff-Ungleichung zu einer Gleichung.

Beispiel für eine Zufallsvariable, in der die Tschebyscheff-Ungleichung zur Gleichung wird

Abbildung 18 zeigt die Einzel-Wahrscheinlichkeiten für 6 Zufallsvariablen, die folgende Eigenschaften gemeinsam haben:

Die Zufallsvariablen nehmen nur die drei Werte -1, 0 und 1 an.
Die Wahrscheinlichkeiten sind symmetrisch: P(X = -1) = P(X = 1).

Aus der Symmetrie folgt offensichtlich, dass der Erwartungswert μ stets gleich 0 ist. Die Standardabweichung nimmt für die Folge der Zufallsvariablen in Abbildung 18 zu, da immer mehr Wahrscheinlichkeiten bei ± 1 konzentriert sind.

Ein Spezialfall dieser Zufallsvariablen liegt vor, wenn die drei Werte der Wertemenge mit gleicher Wahrscheinlichkeit 1/3 angenommen werden (4. Diagramm in Abbildung 18). Für die folgende Überlegung spielt es keine Rolle, ob der Wert X = 0 mit der größten oder kleinsten Wahrscheinlichkeit angenommen wird.

Abbildung 18: Darstellung der Einzel-Wahrscheinlichkeiten von 6 Zufallsvariablen, die die drei Werte -1, 0 und 1 annehmen. Die Wahrscheinlichkeiten sind symmetrisch zu x = 0. Die Wahrscheinlichkeiten sind blau eingetragen, die Standardabweichungen rot. Deren Berechnung erfolgt weiter unten.)

Für derartige Zufallsvariablen wird jetzt die Wahrscheinlichkeit

P(|X - μ| ≥ 1)

berechnet und mit der Abschätzung verglichen, die die Tschebyscheff-Ungleichung liefert.

Abbildung 19: Definition einer Familie von Zufallsvariablen, für die bei geeigneter Wahl von a die Tschebyscheff-Ungleichung zu einer Gleichung wird..

Gleichung (1) zeigt, mit welcher Wahrscheinlichkeit die Werte der Zufallsvariablen X_b angenommen werden; für b = 0 sind alle 3 Wahrscheinlichkeiten gleich groß. In Gleichung (2), (3) und (4) werden Erwartungswert, Varianz und Standardabweichung berechnet. Man kann sich leicht überlegen, dass mit den vorgegebenen b die Varianz und die Standardabweichung immer Werte zwischen 0 und 1 annehmen. In Abbildung 18 sind die Werte μ ± σ jeweils rot eingetragen.

In den Gleichungen (5) und (6) wird dann die Wahrscheinlichkeit P(|X_b - μ| ≥ 1) berechnet, und zwar

zuerst der exakte Wert, der mit P(|X_b| = 1) übereinstimmt,
sowie als Abschätzung nach der Tschebyscheff-Ungleichung.

Die Rechnung zeigt, dass der exakte Wert und die Abschätzung übereinstimmen, das heißt man hat hier (eine Familie von) Zufallsvariablen gefunden, in der die Tschebyscheff-Ungleichung sogar eine Gleichung ist – die Beispiele oben mit der 100-fachen Wiederholung des Glücksspiels waren davon weit entfernt.

Aufgaben:

1. Versuchen Sie am Beweis der Tschebyscheff-Ungleichung nachzuvollziehen, warum hier die Abschätzung die exakte Wahrscheinlichkeit berechnet!

2. Gilt die Gleichheit nur für a = 1 oder auch für andere Werte von a?

Eine Beurteilung der Tschebyscheff-Ungleichung

Die Gegenüberstellung der Beispiele mit N = 100 Glücksspielen und der zuletzt diskutierten Familie von Zufallsvariablen (X_b) kann man jetzt zu einer Beurteilung der Tschebyscheff-Ungleichung heranziehen. Man sollte dabei bedenken: Die bisher diskutierten Beispiele waren so gewählt, dass man die exakten Wahrscheinlichkeiten berechnen konnte; wie, wird in den R-Skripten gezeigt. Man muss aber nur die Anzahl der Glücksspiele N deutlich größer machen, dann versagt die vorgestellte Lösungsmethode. Somit:

Die Tschebyscheff-Ungleichung ist immer anwendbar, wenn eine Zufallsvariable einen endlichen Erwartungswert und eine endliche Standardabweichung besitzt.
Da diese Größen nur wenig darüber aussagen, wie groß die Wahrscheinlichkeiten von seltenen Ereignissen sind, kann man sowohl Zufallsvariablen konstruieren, für die nur eine sehr schlechte Abschätzung gelingt, als auch solche, bei denen die Tschebyscheff-Ungleichung zur Gleichung wird.
Um die Qualität der Abschätzung zu beurteilen, müsste man mehr Informationen über die Zufallsvariable besitzen. Diese "Information" könnte etwa in der Kenntnis höherer Momente bestehen, also Erwartungswerten der Art E (X^k), k = 2, 3, ... Wie man diese höheren Momente für bessere Abschätzungen einsetzt, ist aber nicht Inhalt dieses Kapitels.
Gerade wenn es schwierig ist, mehr Informationen als Erwartungswert und Standardabweichung einer Zufallsvariable zu gewinnen, man aber dennoch an Abschätzungen für die Wahrscheinlichkeiten seltener Ereignisse interessiert ist, liefert die Tschebyscheff-Ungleichung ein simples Werkzeug.
Man darf dabei aber nie vergessen, dass sinnvolle Abschätzungen für P(|X - μ| ≥ λ · σ) nur für λ > 1 möglich sind.

R-Skripte

In den R-Skripten werden einige Berechnungen zu den obigen Beispielen durchgeführt, dazu werden diskrete Zufallsvariablen modelliert, wie es in Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Zufallsvariable beschrieben wurde: Die Werte und deren Wahrscheinlichkeiten werden als die Spalten value beziehungsweise prob zu einem Dataframe zusammengefasst.

Die verwendeten Funktionen

Die folgenden Berechnungen verwenden mehrere Funktionen zur Verarbeitung von Zufallsvariablen:

is.randomVariable(rv) : Testet, ob ein gegebenes Dataframe rv den Konventionen einer Zufallsvariable gehorcht.
meanValue(rv) , variance(rv) , standardDeviation(rv) : Berechnung von Erwartungswert, Varianz und Standardabweichung einer Zufallsvariable rv. Dabei werden Varianz und Standardabweichung nicht als empirische Varianz und empirische Standardabweichung berechnet.
composition(X, Y = X, FUN = "+") : Um die Einzel-Wahrscheinlichkeiten zu berechnen, wenn zwei unabhängige Zufallsvariablen X und Y addiert werden, muss die Faltung berechnet werden. Dies geschieht mit Hilfe der Funktion composition(), indem der default-Wert FUN = "+" als Verknüpfung verwendet wird.

Die Implementierungen der genannten Funktionen lauten – auf eine Behandlung von NA-Werten wird hier verzichtet:

meanValue <- function(rv){
  stopifnot(is.randomVariable(rv))
  return(sum( rv$prob * rv$value ))
}

variance <- function(rv){
  stopifnot(is.randomVariable(rv))
  difference <- rv$value - sum( rv$prob * rv$value )
  return(sum( (difference * difference) * rv$prob ))
}

standardDeviation <- function(rv){
  return(sqrt(variance(rv)))
}

composition <- function(X, Y = X, FUN = "+"){
  stopifnot(is.randomVariable(X), is.randomVariable(Y))
  Z <- data.frame( value = as.vector( outer(X = X$value, Y = Y$value, FUN = FUN) ), 
                   prob = as.vector( outer(X = X$prob, Y = Y$prob, FUN = "*") ) )
  # Beachte: Z$value und Z$prob haben identische Länge, müssen aber gekürzt werden: 
  # Werte können mehrfach vorkommen
  a <- aggregate(x = Z$prob, by = Z[1], FUN = sum)
  names(a) <- c("value", "prob")
  return(a)
}

Zeile 16: Die Funktion composition(X, Y = X, FUN = "+")

berechnet zuerst alle möglichen Werte der Zufallsvariable X + Y mit Hilfe von outer() (Zeile 18),
sowie die zugehörigen Wahrscheinlichkeiten als Produkte der Einzel-Wahrscheinlichkeiten (Zeile 19); aufgrund der Unabhängigkeit von X und Y können die Einzel-Wahrscheinlichkeiten multipliziert werden.
So wie in Zeile 18 die neuen Werte berechnet werden, können sie mehrfach vorkommen. Mit Hilfe von aggregate() werden Duplikate entfernt und ihre Wahrscheinlichkeiten addiert (Zeile 22).

Berechnung der exakten Wahrscheinlichkeiten für die Beispiele

Die soeben gezeigten Funktion werden jetzt eingesetzt, um die Berechnungen zu obigen Beispielen auszuführen.

1. Beispiel: Anzahl der Treffer bei N Spielen

Bei diesem Beispiel wurde die Anzahl des Spiele N = 100 gesetzt und die Gewinn-Wahrscheinlichkeit p = 1/2. Mit diesen Bedingungen wurden die Fragen formuliert:

Wie groß ist die Wahrscheinlichkeit dafür, 80 oder mehr Treffer zu erzielen?
Wie groß ist die Wahrscheinlichkeit für ein Extrem-Ereignis der Art: "die Anzahl der Treffer ist kleiner gleich 10 oder größer gleich 90"?
In welchem Intervall (mit Mittelpunkt k = 50) liegen mit 90 Prozent Wahrscheinlichkeit die Trefferzahlen?

Zusätzlich werden die Abbildungen erzeugt, die oben gezeigt wurden (Abbildung 2, 3).

# Konstanten:
N <- 100
p <- 0.5
Ns <- seq_len(N)

# Binomialverteilung:
probs <- dbinom(x = Ns, size = N, prob = p)
mu <- N*p
sdDev <- sqrt(N*p*(1-p))

# Verteilungsfunktion der Binomialverteilung (kumulierte Wahrscheinlichkeiten):
cumProbs <- pbinom(q = Ns, size = N, prob = p)

# 1. Frage:
cumProbs[20]
# 5.579545e-10

# 2. Frage:
2 * cumProbs[10]
# 3.06329e-17

# 3. Frage:
min( which(cumProbs > 0.05)  )
# 42
# Probe:
cumProbs[42]    # [1] 0.06660531

# 1. Plot: Abbildung 2
plot(x = Ns, y = probs, col = "blue", type = "h", 
     xlab = "k", ylab = "B(N, p, k)", 
     main = "Binomialverteilung für N = 100, p = 1/2",
     frame.plot = TRUE, lty = 1, lwd = 2)
grid()
y1 <- max(probs)
lines(x = c(mu - sdDev, mu - sdDev), y = c(0, y1), col = "red")
lines(x = c(mu + sdDev, mu + sdDev), y = c(0, y1), col = "red")

# 2. Plot: Abbildung 3
plot(x = Ns, y = cumProbs, col = "blue", type = "l", 
     xlab = "k", ylab = "kumulierte Summen von B(N, p, k)", 
     main = "Verteilungsfunktion zur Binomialverteilung mit N = 100, p = 1/2",
     frame.plot = TRUE, lty = 1, lwd = 2)
grid()
y1 <- max(cumProbs)
lines(x = c(mu - sdDev, mu - sdDev), y = c(0, y1), col = "red")
lines(x = c(mu + sdDev, mu + sdDev), y = c(0, y1), col = "red")

Die Binomialverteilung und ihre Verteilungsfunktion können direkt abgefragt werden mit Hilfe der Funktionen dbinom() (Zeile 7) und pbinom() (Zeile 12). Damit lassen sich die oben gestellten Fragen leicht beantworten. Ebenso lassen sich daraus die Abbildungen 2 und 3 erzeugen; hier werden zusätzlich die Werte μ ± σ eingetragen, um die Standardabweichung zu zeigen (jeweils mit Hilfe der Funktion lines()).

Im Skript oben wurden die exakten Antworten auf die drei gestellten Fragen gegeben; die Antworten mit Hilfe der Tschebyscheff-Ungleichung wurden nicht nochmal explizit angegeben, da man sie elementar berechnen kann.

Der Vergleich zwischen den exakten Ergebnissen und der Abschätzung mit Hilfe der Tschebyscheff-Ungleichung (siehe Abbildungen 11 und 12) hatte allerdings ergeben, dass für die hier untersuchte Zufallsvariable die Abschätzung weit neben den exakten Werten liegt. Daher ist es naheliegend, die exakten Werte für Wahrscheinlichkeiten der Art

P(|X - μ| > a)

sowie deren Abschätzung durch die Tschebyscheff-Ungleichung in einer Graphik gegenüberzustellen.

Da die Tschebyscheff-Ungleichung erst für Werte a > σ eine sinnvolle Abschätzung liefert, lässt man a von σ bis N - μ - σ laufen. Zur Erinnerung, hier gilt:

N = 100, μ = p · N = 50, σ = 5,

somit läuft a von 5 bis 45. Das folgende Skript zeigt, wie der Plot erzeugt wird, in dem die Abschätzung nach Tschebyscheff (Berechnung, Darstellung in den Diagrammen blau) sowie die exakten Wahrscheinlichkeiten gegen diese a-Werte aufgetragen sind (Abbildung 20 unten). Da die exakten Werte sehr schnell abfallen, wird eine weitere Abbildung erzeugt, in der die y-Achse logarithmisch skaliert ist (Abbildung 21 unten).

Die Werte für die Abschätzung nach Tschebyscheff werden in Zeile 5 erzeugt; sie werden in den Diagrammen mit T(a) bezeichnet und blau dargestellt. Die exakten Wahrscheinlichkeiten werden mit B bezeichnet (B soll an Binomialverteilung erinnern) und rot dargestellt; ihre Berechnung erfolgte im letzten Skript (cumprobs).

# 3. Plot: Binomialverteilung wie im 1. Plot
# zusätzlich: Schranke P(|X - mu| > a) nach Tschebyscheff-Ungleichung
as <- seq(from = sdDev, to = N - mu - sdDev, by = 1)
diffs <- mu - as
tscheb <- sdDev^2 / (as * as)

plot(x = as, y = tscheb, col = "blue", type = "l", 
     xlab = "a", ylab = "T(a)",
     main = "Tschebyscheff-Abschätzung P(|X - mu| > a)",
     frame.plot = TRUE, lty = 1, lwd = 1)
grid()
legend("top", legend=c("T(a)","B"),
       ncol=2, cex=0.8, bty="n",
       col=c("blue","red"), lty=1,lwd=2)
points(x = as, y = 2 * cumProbs[diffs], col = "red", type = "l")

# 4. Plot: Wie 3. Plot, aber mit log. Skala
plot(x = as, y = tscheb, col = "blue", type = "l", 
     xlab = "a", ylab = "T(a), (logarithmisch)", ylim = c(1e-22, 1),
     main = "Tschebyscheff-Abschätzung P(|X - mu| > a)",
     frame.plot = TRUE, lty = 1, lwd = 1, log = "y")
grid()
legend("bottom", legend=c("T(a)","B"),
       ncol=2, cex=0.8, bty="n",
       col=c("blue","red"), lty=1,lwd=2)
points(x = as, y = 2 * cumProbs[diffs], col = "red", type = "l")

Abbildung 20: Darstellung der Abschätzung durch Tschebyscheff T(a) (blau) sowie der exakten Wahrscheinlichkeiten, die mit Hilfe der Binomialverteilung berechnet werden (rot). Der Wert für die Schranke a läuft dabei von 5 bis 45.

Abbildung 21: Das Diagramm aus Abbildung 20 jetzt mit y-Achse in logarithmischer Skalierung.

2. Beispiel: mittlerer Nettogewinn pro Spiel bei N Spielen

Im zweiten Beispiel wurde für den Nettogewinn eines Spieles eine Zufallsvariable X gewählt, die nicht mehr durch "Treffer" und "Niete" beschrieben werden kann, sondern drei Werte annehmen kann (siehe Abbildung 4). Folglich muss die Verteilung der Zufallsvariable, die den Nettogewinn bei N = 100 Spielen (S₁₀₀) beziehungsweise den mittleren Nettogewinn pro Spiel (Z₁₀₀) beschreibt, durch Faltung berechnet werden (siehe Abbildung 5 und 6); es ergibt sich keine Binomialverteilung. Die Verteilungsfunktion zu Z₁₀₀ kann durch kumulierte Summen berechnet werden (Abbildung 7).

Das folgende Skript zeigt:

Die Modellierung der Zufallsvariable X als Dataframe.
Die Berechnung der Verteilungen der Zufallsvariablen S₁₀₀ und Z₁₀₀.
Wie die Abbildungen 5, 6, 7 erzeugt werden.

# Konstanten
N <- 100

# 1. Die Modellierung der Zufallsvariable X als Dataframe:
v <- c(-2, 3, 5)
pr <- c(2/3, 1/6, 1/6)

profit <- data.frame(value = v, prob = pr)
mean.profit <- meanValue(profit)
mean.profit
# 0
sigma.profit <- standardDeviation(profit)
sigma.profit
# 2.886751

# 2. Berechnung der Zufallsvariablen S.100 und Z.100:
# S.100 = X1 + ... + X100; Z.100 = S.100 / 100

# 100 unabhängige Spiele
Xs <- vector(mode = "list", length = N)
for(i in seq_len(N)){
  Xs[[i]] <- profit
}

# Dataframe aus Faltung X1 * ... * X100:
S.100 <- Reduce(f = composition, x = Xs, accumulate = FALSE)
str(S.100)
# 'data.frame': 686 obs. of  2 variables:
#   $ value: num  -200 -195 -193 -190 -188 -186 -185 -183 -181 -180 ...
#   $ prob : num  2.46e-18 6.15e-17 6.15e-17 7.61e-16 1.52e-15 ...

meanValue(S.100)
# -3.462677e-16 (vernachlässigbarer Rundungsfehler -> 0)
sigma.S.100 <- standardDeviation(S.100)
sigma.S.100
# 28.86751 (= sqrt(100) * sigma.profit)

# Dataframe für Z.100:
Z.100 <- data.frame(value = S.100$value / 100, prob = S.100$prob)
sigma.Z.100 <- standardDeviation(Z.100)
sigma.Z.100
# 0.2886751

# 3. Abbildungen 5, 6, 7:

# Abbildung 5:
y1 <- max(S.100$prob)

plot(x = S.100$value, y = S.100$prob, col = "blue", type = "h", 
     xlab = "Nettogewinn", ylab = "Wahrscheinlichkeit", 
     main = "Einzelwahrscheinlichkeiten bei N = 100 Spielen",
     frame.plot = TRUE, lty = 1, lwd = 1)
grid()
lines(x = c(-sigma.S.100, -sigma.S.100), y = c(0, y1), col = "red")
lines(x = c(sigma.S.100, sigma.S.100), y = c(0, y1), col = "red")

# Abbildung 6:
plot(x = Z.100$value, y = Z.100$prob, col = "blue", type = "h", 
     xlab = "Nettogewinn pro Spiel", ylab = "Wahrscheinlichkeit", 
     main = "N = 100 Spiele",
     frame.plot = TRUE, lty = 1, lwd = 1)
grid()
lines(x = c(-sigma.Z.100, -sigma.Z.100), y = c(0, y1), col = "red")
lines(x = c(sigma.Z.100, sigma.Z.100), y = c(0, y1), col = "red")

# Abbildung 7:
cum.Z.100 <- cumsum(Z.100$prob)

plot(x = Z.100$value, y = cum.Z.100, col = "blue", type = "l", 
     xlab = "Nettogewinn pro Spiel", ylab = "kumulierte Summen", 
     main = "Verteilungsfunktion",
     frame.plot = TRUE, lty = 1, lwd = 1)
grid()
lines(x = c(-sigma.Z.100, -sigma.Z.100), y = c(0, 1), col = "red")
lines(x = c(sigma.Z.100, sigma.Z.100), y = c(0, 1), col = "red")

Kurze Erklärung:

Zeile 8: Es wird die Zufallsvariable profit für ein Spiel erzeugt (siehe auch Abbildung 4).

Zeile 20 bis 26: Die N-fache Faltung dieser Zufallsvariable kann zum Beispiel dadurch geschehen, dass man eine Liste mit 100 Kopien von profit anlegt und diese mit Reduce() abarbeitet, wobei als Funktion f die oben vorgestellte Funktion composition() verwendet wird.

Dass 100 Kopien der Zufallsvariable profit in einer Liste abgespeichert werden, ist natürlich eine riesige Verschwendung von Speicherplatz. Man könnte S.100 auch in einer Schleife sukzessive aus profit aufbauen; dies geschieht hier später in Reduce(). Diese – eigentlich nicht zu empfehlende – Lösung wurde aus zwei Gründen gewählt:

Benötigt man die Zwischenergebnisse, also S.2, S.3, ..., S.100, kann man einfach in Reduce() das Argument accumulate = TRUE setzen und muss die Schleife nicht umschreiben.
Das gewichtigere Argument: Möchte man unterschiedliche Zufallsvariablen miteinander falten, kommt man nicht daran vorbei, diese in einer Liste zusammenzufassen. Für diesen allgemeinen Fall ist die hier gezeigte Lösung sehr einfach.

Zeile 34: Um später die Zufallsvariable S.100 darzustellen, benötigt man ihre Standardabweichung.

Zeile 39: Für den Nettogewinn pro Spiel wird die Zufallsvariable S.100 skaliert zu Z.100.

Zeile 46 bis 75: Die Plots werden ähnlich wie im letzten Beispiel erstellt.

Im nächsten Skript wird dann die oben beschriebene Rechnung durchgeführt (in Abbildung 13, Gleichung (7) wurde das Ergebnis bereits angegeben):

Wie groß ist die Wahrscheinlichkeit dafür, dass der Nettogewinn größer ist als 1 beziehungsweise kleiner ist als -1?

Zur Lösung muss man nur auf die kumulierten Summen cum.Z.100 der Zufallsvariable Z.100 zugreifen:

idx.1 <- max( which(Z.100$value < -1) )    # 88
idx.2 <- min( which(Z.100$value > 1) )    # 290

cum.Z.100[idx.1]    # 0.0001115221
1 - cum.Z.100[idx.2 - 1]    # 0.0003866308

# P(|Z.100| > 1)
cum.Z.100[idx.1] + 1 - cum.Z.100[idx.2 - 1]
# 0.0004981529

Zeile 1 und 2: Es wird der größte Index gesucht, bei dem Z.100 noch kleiner ist als -1, sowie der kleinste Index, bei dem Z.100 größer ist als -1.

Zeile 4 bis 8: Mit den Indizes kann man die kumulierten Summen von Z.100 auswerten. Die Korrektur von idx.2 um 1 ist nötig, damit der Index 290 mitgenommen wird. Zum besseren Verständnis kann man sich diese Berechnung in Abbildung 7 veranschaulichen.