Konzentrations-Ungleichungen: Die Tschebyscheff-Ungleichung

Die Tschebyscheff-Ungleichung als einfachste Konzentrations-Ungleichung wird aus mehreren Perspektiven beleuchtet: Es werden Beispiele fĂŒr ihre typische Anwendung besprochen; es wird ein direkter Beweis gegeben; es wird gezeigt, dass sie als Spezialfall der verallgemeinerten Markov-Ungleichung aufgefasst werden kann; es wird diskutiert, wie gut die AbschĂ€tzung ist, die sie liefert. In den R-Skripten werden die Berechnungen aus den Anwendungsbeispielen ausgefĂŒhrt, die man ohne Programmierung kaum bewĂ€ltigen könnte.
Noch keine Stimmen abgegeben
Noch keine Kommentare

Einordnung des Artikels

Vorausgesetzt werden Kenntnisse ĂŒber Zufallsvariablen, vor allem Erwartungswert, Varianz und Standardabweichung.

EinfĂŒhrung

In vielen Anwendungen der Wahrscheinlichkeitsrechnung arbeitet man mit Zufallsvariablen, deren Einzelwahrscheinlichkeiten ein typisches Verhalten zeigen, das auch in Abbildung 1 zu erkennen ist:

  • die Wahrscheinlichkeiten konzentrieren sich in der Umgebung des Erwartungswertes ÎŒ,
  • weit weg vom Erwartungswert fallen die Wahrscheinlichkeiten schnell ab, werden aber erst in großem Abstand gleich null.

Abbildung 1: Darstellung der Einzelwahrscheinlichkeiten einer beliebigen Zufallsvariable. Gekennzeichnet sind die Wahrscheinlichkeiten dafĂŒr, dass die Zufallsvariable einen Wert innerhalb eines Intervalls der LĂ€nge 2a um den Erwartungswert annimmt und das entsprechende Gegenereignis.Abbildung 1: Darstellung der Einzelwahrscheinlichkeiten einer beliebigen Zufallsvariable. Gekennzeichnet sind die Wahrscheinlichkeiten dafĂŒr, dass die Zufallsvariable einen Wert innerhalb eines Intervalls der LĂ€nge 2a um den Erwartungswert annimmt und das entsprechende Gegenereignis.

Oft ist man an folgenden Fragen interessiert:

  • Wie stark konzentrieren sich die Wahrscheinlichkeiten in einem Intervall der LĂ€nge 2a um den Erwartungswert?
  • Wie groß ist die Wahrscheinlichkeit dafĂŒr, dass die Zufallsvariable Werte außerhalb eines Intervalls der LĂ€nge 2a um den Erwartungswert annimmt? (Hier wird lediglich das Gegenereignis zur ersten Frage charakterisiert).
  • Dabei wird hĂ€ufig a = σ, a = 2 · σ oder a = 3 · σ gesetzt, wobei σ die Standardabweichung der Zufallsvariable ist.

Ist die exakte Beantwortung dieser Fragen sehr aufwendig, begnĂŒgt man sich mit AbschĂ€tzungen fĂŒr die gesuchten Wahrscheinlichkeiten. Ungleichungen, die diese Fragen beantworten, werden meist als Konzentrations-Ungleichungen bezeichnet. Die Tschebyscheff-Ungleichung ist ein sehr einfacher Vertreter dieser Klasse von Ungleichungen.

In den folgenden Abschnitten wird sie sehr ausfĂŒhrlich vorgestellt; dabei wird man zahlreiche methodisch wichtige Vorgehensweisen beim Umgang mit AbschĂ€tzungen fĂŒr Wahrscheinlichkeiten kennenlernen. Insbesondere werden zwei völlig unterschiedliche Beweise vorgestellt:

  1. Der Beweis, der sehr unmittelbar vorgeht und und eigentlich schon aus Abbildung 1 zu erahnen ist.
  2. Ein weiterer Beweis, der die Tschebyscheff-Ungleichung als Spezialfall der Markov-Ungleichung auffasst.

Die Tschebyscheff-Ungleichung

Die Tschebyscheff-Ungleichung wird als erste der Konzentrations-Ungleichungen besprochen; sie liefert in vielen FÀllen nur sehr grobe AbschÀtzungen. Ihre Vorteile liegen darin, dass

  • man von der zu untersuchenden Zufallsvariable nur Erwartungswert und Varianz kennen muss und
  • daraus mit sehr wenig Aufwand AbschĂ€tzungen fĂŒr die Wahrscheinlichkeiten von typischen (oder untypischen) Ereignissen berechnen kann.

Der Nachteil der Tschebyscheff-Ungleichung soll aber nicht verschwiegen werden: Da sie sehr wenig voraussetzt, also einen großen GĂŒltigkeitsbereich hat, sind die von ihr gelieferten AbschĂ€tzungen oft sehr grob oder sogar unbrauchbar.

Ein erstes Beispiel: Anzahl der Treffer bei N Spielen

Um einen Eindruck zu gewinnen, was man unter Konzentrations-Ungleichungen versteht und speziell bei welchen Fragestellungen die Tschebyscheff-Ungleichung zum Einsatz kommt, können die beiden folgende Beispiele gewÀhlt werden.

1. Beispiel: N-fache unabhĂ€ngige Wiederholung eines GlĂŒcksspiels; AbschĂ€tzung der Anzahl der Treffer

Ein GlĂŒcksspiel soll N mal wiederholt werden, wobei folgende Bedingungen gelten:

  • Die einzelnen Spiele sind unabhĂ€ngig voneinander.
  • Die Gewinn-Wahrscheinlichkeit werde mit p bezeichnet, die Verlust-Wahrscheinlichkeit mit q = 1 - p (es gibt kein unentschieden).
  • Die Gewinn-Wahrscheinlichkeit p ist fĂŒr jedes Spiel identisch.

Realisieren könnte man ein derartiges Spiel etwa als MĂŒnzwurf oder durch WĂŒrfeln.

Ist N eine sehr große Zahl, so wird man etwa k = p · N Spiele gewinnen und die anderen N - k Spiele verlieren. Die genaue Anzahl der Gewinne (oder Treffer) lĂ€sst sich nicht berechnen – man kann lediglich Wahrscheinlichkeiten berechnen, etwa fĂŒr das Ereignis "k Treffer bei N Spielen".

Ist speziell p = 1/2 und N = 100, so wird man ungefĂ€hr 50 Treffer erwarten und mehr als 80 Treffer als "großes GlĂŒck" bezeichnen.

Naheliegend sind dann Fragen der Art:

  1. Wie groß ist die Wahrscheinlichkeit dafĂŒr, 80 oder mehr Treffer zu erzielen?
  2. Wie groß ist die Wahrscheinlichkeit fĂŒr ein Extrem-Ereignis der Art: "die Anzahl der Treffer ist kleiner gleich 10 oder grĂ¶ĂŸer gleich 90"?
  3. In welchem Intervall (mit Mittelpunkt k = 50) liegen mit 90 Prozent Wahrscheinlichkeit die Trefferzahlen?

Dieses Beispiel ist so einfach gewĂ€hlt, dass man die exakten Ergebnisse – mit etwas Aufwand – berechnen kann. Es sollte aber auch klar sein, dass man die Voraussetzungen leicht abĂ€ndern kann, so dass eine exakte Berechnung unangemessen aufwendig wird. Jetzt wird man sich mit AbschĂ€tzungen fĂŒr die in den Fragen genannten Wahrscheinlichkeiten zufrieden geben. Weiter unten wird das Beispiel aufgegriffen, um zu klĂ€ren, ob die Tschebyscheff-Ungleichung hier brauchbare AbschĂ€tzungen liefern kann.

Zuvor sollen die genannten Ereignisse veranschaulicht werden.

Abbildung 2 zeigt die Wahrscheinlichkeit fĂŒr k Treffer, wenn insgesamt N = 100 Spiele durchgefĂŒhrt werden und die Gewinn-Wahrscheinlichkeit beim einzelnen Spiel p = 1/2 betrĂ€gt. Die Trefferanzahl k kann die Werte k = 0, 1, ..., 100 annehmen. Berechnet werden diese Wahrscheinlichkeiten mit Hilfe der Binomialverteilung B(N, p, k).

Abbildung 2: Die Binomialverteilung B(N = 100, p = 1/2, k), wobei k = 0, 1, ..., 100 (blau). Rot eingezeichnet ist die Standardabweichung, die weiter unten berechnet wird.Abbildung 2: Die Binomialverteilung B(N = 100, p = 1/2, k), wobei k = 0, 1, ..., 100 (blau). Rot eingezeichnet ist die Standardabweichung, die weiter unten berechnet wird.

Die oben gestellten Fragen könnte man jetzt beantworten, indem man die beschriebenen Ereignisse in Abbildung 2 identifiziert und die entsprechenden Wahrscheinlichkeiten addiert. Erleichtert wird dies, wenn man die Verteilungsfunktion der Binomialverteilung bildet, also (beginnend bei k = 0) die kumulierten Summen der Einzelwahrscheinlichkeiten berechnet. Die Verteilungsfunktion ist in Abbildung 3 dargestellt.

Abbildung 3: Die Verteilungsfunktion der Binomialverteilung B(N = 100, p = 1/2, k), wobei k = 0, 1, ..., 100 (blau). Rot eingezeichnet ist wieder die Standardabweichung.Abbildung 3: Die Verteilungsfunktion der Binomialverteilung B(N = 100, p = 1/2, k), wobei k = 0, 1, ..., 100 (blau). Rot eingezeichnet ist wieder die Standardabweichung.

Allerdings beschreiben die ersten beiden Fragen Ereignisse mit derart kleinen Wahrscheinlichkeiten, dass man sie in der ĂŒblichen Skalierung nicht mehr ablesen kann. FĂŒr die Wahrscheinlichkeit des Ereignisses "mindestens 80 Treffer" mĂŒsste man so vorgehen:

  • Aus SymmetriegrĂŒnden stimmen die Wahrscheinlichkeiten fĂŒr "mindestens 80 Treffer" und "höchstens 20 Treffer" ĂŒberein.
  • Daher ist die Wahrscheinlichkeiten fĂŒr "mindestens 80 Treffer" gleich dem Wert der Verteilungsfunktion bei k = 20.

Analog kann man die Wahrscheinlichkeit fĂŒr "die Anzahl der Treffer ist kleiner gleich 10 oder grĂ¶ĂŸer gleich 90" bestimmen.

Die Frage, in welchem Intervall (um k = 50) die Trefferzahlen mit einer Wahrscheinlichkeit von 90 Prozent liegen, kann man sogar aus Abbildung 2 ablesen: Außerhalb des Intervalls mĂŒssen 10 Prozent der Wahrscheinlichkeit liegen; wegen der Symmetrie der Binomialverteilung liegen also je 5 Prozent links und rechts des gesuchten Intervalls. Jetzt muss man nur nachsehen, wo die Gerade y = 0.05 beziehungsweise y = 0.95 die Verteilungsfunktion der Binomialverteilung schneidet. Die Schnittpunkte liegen etwa bei k1 = 43 und k2 = 67.

Ein zweites Beispiel: mittlerer Nettogewinn pro Spiel bei N Spielen

2. Beispiel: Jetzt soll ein WĂŒrfelspiel mit folgenden Regeln untersucht werden (alle BetrĂ€ge werden in einer willkĂŒrlichen Einheit angegeben):

  • Der Einsatz betrĂ€gt 2 pro Spiel.
  • WĂŒrfelt der Spieler eine 1, 2, 3 oder 4 geht sein Einsatz verloren (der Nettogewinn betrĂ€gt -2).
  • WĂŒrfelt er eine 5, wird ein Betrag von 5 ausbezahlt (Nettogewinn 3).
  • WĂŒrfelt er eine 6, wird ein Betrag von 7 ausbezahlt (Nettogewinn 5).

FĂŒr die folgenden Berechnungen wird angenommen:

  • Es werden insgesamt N = 100 Spiele durchgefĂŒhrt.
  • Die Spiele sind unabhĂ€ngig voneinander.
  • Der WĂŒrfel wird als Laplace-WĂŒrfel modelliert.

Aus der letzten Annahme folgt, dass der Erwartungswert fĂŒr den Nettogewinn genau gleich 0 ist.

In Abbildung 4 sind die Einzelwahrscheinlichkeiten der Zufallsvariable dargestellt, die ein einziges Spiel beschreibt.

Abbildung 4: Einzelwahrscheinlichkeiten fĂŒr den Nettogewinn beim oben beschriebenen WĂŒrfelspiel (mit einem Laplace-WĂŒrfel ist es ein faires Spiel).Abbildung 4: Einzelwahrscheinlichkeiten fĂŒr den Nettogewinn beim oben beschriebenen WĂŒrfelspiel (mit einem Laplace-WĂŒrfel ist es ein faires Spiel).

Abbildung 5 zeigt die Einzelwahrscheinlichkeiten fĂŒr die möglichen Gewinne, wenn das Spiel N = 100 mal wiederholt wird.

Abbildung 5: Blau eingezeichnet sind die Wahrscheinlichkeiten fĂŒr die Zufallsvariable, die den Nettogewinn bei N = 100 Spielen beschreibt. Der höchste Gewinn betrĂ€gt 500 (alle Spiele werden gewonnen). Rot eingezeichnet ist wieder die Standardabweichung.Abbildung 5: Blau eingezeichnet sind die Wahrscheinlichkeiten fĂŒr die Zufallsvariable, die den Nettogewinn bei N = 100 Spielen beschreibt. Der höchste Gewinn betrĂ€gt 500 (alle Spiele werden gewonnen). Rot eingezeichnet ist wieder die Standardabweichung.

In Abbildung 6 wird der Gewinn pro Spiel aufgetragen; dabei wird lediglich die x-Achse um den Faktor 100 gestaucht.

Abbildung 6: Gewinn pro Spiel fĂŒr das beschriebene WĂŒrfelspiel, das N = 100 mal durchgefĂŒhrt wird (blau). Rot eingezeichnet ist wieder die Standardabweichung.Abbildung 6: Gewinn pro Spiel fĂŒr das beschriebene WĂŒrfelspiel, das N = 100 mal durchgefĂŒhrt wird (blau). Rot eingezeichnet ist wieder die Standardabweichung.

Abbildung 7 zeigt die zu Abbildung 6 gehörige Verteilungsfunktion.

Abbildung 7: Verteilungsfunktion fĂŒr die Zufallsvariable aus Abbildung 6 (blau). Rot eingezeichnet ist wieder die Standardabweichung.Abbildung 7: Verteilungsfunktion fĂŒr die Zufallsvariable aus Abbildung 6 (blau). Rot eingezeichnet ist wieder die Standardabweichung.

Ähnlich wie beim ersten Beispiel kann man jetzt Fragen stellen ĂŒber die Wahrscheinlichkeiten von seltenen Ereignissen:

  • Wie groß ist die Wahrscheinlichkeit dafĂŒr, dass der Nettogewinn grĂ¶ĂŸer ist als 1 beziehungsweise kleiner ist als -1?
  • Oder allgemeiner: Wie groß ist die Wahrscheinlichkeit dafĂŒr, dass der Nettogewinn grĂ¶ĂŸer ist als a beziehungsweise kleiner ist als -a (mit a > 0)?

Der Unterschied zum ersten Beispiel sollte auch klar sein: In diesem Beispiel lassen sich die exakten Wahrscheinlichkeiten nur mit deutlich höherem Aufwand berechnen. Sofern man nur eine grobe AbschÀtzung benötigt, wird man sich mit einer NÀherung zufrieden geben.

Formulierung und Beweis der Tschebyscheff-Ungleichung

An den oben vorgestellten Beispielen und den diskutierten Fragestellungen sollte klar geworden sein, an welcher Aussage man interessiert ist: Sind fĂŒr eine Zufallsvariable X der Erwartungswert E(X) und die Varianz Var(X) gegeben – und somit die Standardabweichung σ(X) als Wurzel der Varianz – so möchte man die Wahrscheinlichkeit von Ereignissen abschĂ€tzen, bei denen die Werte von X deutlich vom Erwartungswert abweichen. Der in Abbildung 8 dargestellte Satz, die Tschebyscheff-Ungleichung, liefert genau die gesuchte Aussage.

Abbildung 8: Die Tschebyscheff-Ungleichung und ihr Beweis.Abbildung 8: Die Tschebyscheff-Ungleichung und ihr Beweis.

Der Beweis soll mit Hilfe der folgenden Abbildungen veranschaulicht werden.

Abbildung 9 zeigt das Histogramm einer (beliebigen) Zufallsvariable X mit ihrem Erwartungswert ÎŒ = E(X), der grĂŒn eingezeichnet ist. Ferner ist die Standardabweichung σ zu erkennen; dazu sind rot eingetragen die Werte ÎŒ - σ und ÎŒ + σ. Orange eingetragen sind die Werte ÎŒ - a und ÎŒ + a (hier mit a = 3).

Abbildung 9: Zur Veranschaulichung des Beweises der Tschebyscheff-Ungleichung: Einzelwahrscheinlichkeiten einer Zufallsvariable X (blau) mit Erwartungswert (grĂŒn), Standardabweichung (rot) und einem vorgegebenen Intervall (orange); es soll die Wahrscheinlichkeit dafĂŒr abgeschĂ€tzt werden, dass die Werte von X außerhalb dieses Intervalls liegen.Abbildung 9: Zur Veranschaulichung des Beweises der Tschebyscheff-Ungleichung: Einzelwahrscheinlichkeiten einer Zufallsvariable X (blau) mit Erwartungswert (grĂŒn), Standardabweichung (rot) und einem vorgegebenen Intervall (orange); es soll die Wahrscheinlichkeit dafĂŒr abgeschĂ€tzt werden, dass die Werte von X außerhalb dieses Intervalls liegen.

Um besser nachvollziehen zu können, wie im Beweis (in Abbildung 8) vorgegangen wird, wird mit

Y = (X - E(X))2 = (X - Ό)2

eine neue Zufallsvariable definiert. Die Zufallsvariable X wird zentriert und anschließend quadriert. In Abbildung 9 gilt:

ÎŒ = 3.85, σ ≈ 1.605.

Das Zentrieren und Quadrieren hat zur Folge, dass die Varianz von X zugleich der Erwartungswert von Y ist – so ist gerade die Varianz definiert:

E(Y) = Var(X) = σ2 ≈ 2.58.

Die Zufallsvariable Y ist in Abbildung 10 dargestellt. Dort sind zusÀtzlich eingezeichnet:

  • Der Erwartungswert von Y (grĂŒn),
  • die Schranke a2 = 9 (orange).

Abbildung 10: Die Einzelwahrscheinlichkeiten fĂŒr die Zufallsvariable Y mit ihrem Erwartungswert (grĂŒn) und dem Quadrat von a (orange).Abbildung 10: Die Einzelwahrscheinlichkeiten fĂŒr die Zufallsvariable Y mit ihrem Erwartungswert (grĂŒn) und dem Quadrat von a (orange).

Die Tschebyscheff-Ungleichung liefert eine AbschĂ€tzung fĂŒr die Wahrscheinlichkeit auf der linken Seite in Gleichung (1) in Abbildung 8. Man kann diese Wahrscheinlichkeit in Abbildung 9 berechnen, indem man die Einzel-Wahrscheinlichkeiten addiert, die sich außerhalb der Schranken ÎŒ - a und ÎŒ + a (orange) befinden. Möchte man diese Wahrscheinlichkeit in Abbildung 10 identifizierten, muss man a 2 = 9 eintragen und die Einzel-Wahrscheinlichkeiten rechts davon addieren.

Jetzt sind die Schritte und AbschÀtzungen aus dem Beweis (aus Abbildung 8) leicht zu verstehen:

  • Anstelle von Var(X) wird E(Y) berechnet.
  • Dabei werden die Summanden mit yi < a2 = 9 vernachlĂ€ssigt.
  • In den verbleibenden Summanden wird yi durch a2 abgeschĂ€tzt.

Die Ungleichung, die so entsteht, ist – nach Umstellen – gerade die Tschebyscheff-Ungleichung.

Man beachte, dass man die Tschebyscheff-Ungleichung auch umgekehrt lesen kann, nĂ€mlich als AbschĂ€tzung fĂŒr die Varianz einer Zufallsvariable X: Ist Var(X) nicht bekannt, aber man weiß, dass Wahrscheinlichkeiten von Ereignissen groß sind, bei denen X weit vom Erwartungswert ÎŒ abweicht, dann muss auch die Varianz groß sein.

Dies ist die Sichtweise, die in der Statistik eingenommen wird: dort möchte man aus Stichproben die Kennzahlen einer Verteilung schÀtzen (wie etwa die Varianz).

Leider liefert der Satz keine Aussage darĂŒber, wie gut die AbschĂ€tzung ist. Man erkennt aber am Beweis, dass zwei NĂ€herungen eingegangen sind:

  1. Die Wahrscheinlichkeit dafĂŒr, dass der Wert von X um weniger als a vom Erwartungswert E(X) abweicht, wurde gleich 0 gesetzt.
  2. FĂŒr deren Komplement wurde |xi - ÎŒ| = a gesetzt.

Wenn diese NĂ€herungen nicht zutreffen, wird die Tschebyscheff-Ungleichung nur eine sehr ungenaue AbschĂ€tzung liefern – darauf wird unten bei der Besprechung der Beispiele eingegangen.

Aufgaben:

1. Die Veranschaulichung des Beweises der Tschebyscheff-Ungleichung in den Abbildungen 9 und 10 verwendet eine Zufallsvariable X, die nur positive Werte annimmt.

Diskutieren Sie: Ändert sich die oben gegebene Argumentation, wenn X auch negative Werte annehmen kann?

2. Formulieren und beweisen Sie die Tschebyscheff-Ungleichung fĂŒr stetige Zufallsvariablen!

Beispiele fĂŒr die Anwendung der Tschebyscheff-Ungleichung

Jetzt sollen die eingangs vorgestellten Beispiele aufgegriffen werden, um

  • einfache Anwendungen der Tschebyscheff-Ungleichung kennenzulernen und gleichzeitig
  • einen Eindruck zu gewinnen, wie gut die mit ihr berechneten AbschĂ€tzungen sind.

1. Beispiel: Anzahl der Treffer bei N Spielen

In Abbildung 2 wurden die Wahrscheinlichkeiten dargestellt, bei N = 100 Spielen eines GlĂŒcksspiels k Treffer zu erzielen, wenn die Gewinn-Wahrscheinlichkeit p = 1/2 betrĂ€gt. Diese Wahrscheinlichkeiten lassen sich mit Hilfe der Binomialverteilung B(N, p, k) exakt berechnen.

Die einfachste der bei Abbildung 2 gestellten Fragen lautet:

1. Frage: Wie groß ist die Wahrscheinlichkeit dafĂŒr, 80 oder mehr Treffer zu erzielen?

Die exakte Antwort liefert die Binomialverteilung: siehe Gleichung (1) in Abbildung 11.

Abbildung 11: Die Berechnung der Wahrscheinlichkeit dafĂŒr, 80 oder mehr Treffer bei 100 Spielen zu erzielen; exakte Berechnung (Gleichung 1 und 2) und NĂ€herung mit der Tschebyscheff-Ungleichung (Gleichung 7).Abbildung 11: Die Berechnung der Wahrscheinlichkeit dafĂŒr, 80 oder mehr Treffer bei 100 Spielen zu erzielen; exakte Berechnung (Gleichung 1 und 2) und NĂ€herung mit der Tschebyscheff-Ungleichung (Gleichung 7).

Mit B(N, p, k) berechnet man die Wahrscheinlichkeit dafĂŒr, bei N Spielen genau k Treffer zu erzielen, wenn die Gewinn-Wahrscheinlichkeit p betrĂ€gt (Gleichung 1 in Abbildung 11). Um die Wahrscheinlichkeit fĂŒr das gesuchte Ereignis zu berechnen, wird N = 100 und p = 1/2 gesetzt und ĂŒber k von 80 bis 100 summiert (Gleichung 2 in Abbildung 11).

Stellt man die Zufallsvariable X (Anzahl der Treffer bei 100 Spielen) als Summe von Zufallsvariablen dar, die die einzelnen Spiele beschreiben, kann man leicht den Erwartungswert, die Varianz und die Standardabweichung von X berechnen (Gleichung 3, 4 und 5).

Jetzt muss man nur noch die Schranke a bestimmen, sie ist durch den Abstand von 80 zum Erwartungswert 50 gegeben. Die Tschebyscheff-Ungleichung berechnet eigentlich die Wahrscheinlichkeit fĂŒr Ereignisse der Form |X - ÎŒ| ≄ a; hier werden aber nur Trefferzahlen auf einer Seite des Erwartungswertes berechnet. Wegen der Symmetrie der Verteilung, kann man dies mit dem Faktor 1/2 in Gleichung 7 richtigstellen.

Vergleicht man das exakte Ergebnis (Gleichung 2) mit dem Wert aus der Tschebyscheff-Ungleichung, so kann man festhalten:

  • Einerseits besagt die NĂ€herung zumindest, dass die gesuchte Wahrscheinlichkeit sehr gering ist.
  • Andererseits weicht es um mehrere Zehnerpotenzen vom exakten Ergebnis ab.

Letzteres sollte nicht verwundern, da in der Herleitung grobe AbschÀtzungen vorgenommen wurden. SpÀter wird dann noch gezeigt, wie man erkennen kann, wann die Tschebyscheff-Ungleichung unsinnige Ergebnisse liefert.

2. Frage: Sucht man nach die Wahrscheinlichkeit dafĂŒr, dass die Anzahl der Treffer kleiner gleich 10 oder grĂ¶ĂŸer gleich 90 ist, muss man den Faktor 1/2 nicht einfĂŒgen, man muss das zugehörige a bestimmen und kann direkt in die Tschebyscheff-Ungleichung einsetzen (siehe Gleichung 1 in Abbildung 12). Das exakte Ergebnis (Gleichung 2 in Abbildung 12) weicht jetzt noch stĂ€rker von der NĂ€herung ab als bei der ersten Berechnung.

Abbildung 12: Frage 2: Die Berechnung der Wahrscheinlichkeit eines seltenen Ereignisses, nÀmlich mindestens 90 oder höchstens 10 Treffer bei 100 Spielen zu erzielen; NÀherung mit der Tschebyscheff-Ungleichung (Gleichung 1) und exakte Berechnung aus der Binomialverteilung (Gleichung 2). Frage 3: Berechnung des Intervalls um den Erwartungswert, in dem sich die Trefferzahlen mit einer Wahrscheinlichkeit von 90 Prozent befinden.Abbildung 12: Frage 2: Die Berechnung der Wahrscheinlichkeit eines seltenen Ereignisses, nÀmlich mindestens 90 oder höchstens 10 Treffer bei 100 Spielen zu erzielen; NÀherung mit der Tschebyscheff-Ungleichung (Gleichung 1) und exakte Berechnung aus der Binomialverteilung (Gleichung 2). Frage 3: Berechnung des Intervalls um den Erwartungswert, in dem sich die Trefferzahlen mit einer Wahrscheinlichkeit von 90 Prozent befinden.

3. Frage: Bei der letzten Frage soll das Intervall gesucht werden, in dem sich die Trefferzahlen mit einer Wahrscheinlichkeit von 90 Prozent befinden. Hier ist also eine Wahrscheinlichkeit gegeben und die Schranke a gesucht. Zur Lösung muss man das Gegenereignis zu |X - ÎŒ| ≄ a bilden und dann in der Tschebyscheff-Ungleichung beide Ungleichheitszeichen umdrehen, siehe Gleichung (3) in Abbildung 12. Durch Auflösen nach a erhĂ€lt man a = 16, das heißt mit 90 Prozent Wahrscheinlichkeit liegen die Trefferzahlen zwischen k = 34 und k = 66 – sofern man die Tschebyscheff-Ungleichung zugrunde legt.

FĂŒr die exakte Berechnung benötigt man die Verteilungsfunktion der Binomialverteilung; die entsprechende Auswertung liefert ein deutlich kleineres Intervall, nĂ€mlich von k = 42 bis k = 58 (zur Veranschaulichung: siehe die Verteilungsfunktion der Binomialverteilung in Abbildung 3).

Berechnet umgekehrt, mit welcher Wahrscheinlichkeit die Trefferzahlen zwischen k = 34 und k = 66 liegen, so liefert die Binomialverteilung 99,91 Prozent (siehe Abbildung 12 unten).

2. Beispiel: mittlerer Nettogewinn pro Spiel bei N Spielen

Methodisch sind die Lösungen nicht anders als beim ersten Beispiel, das oben ausfĂŒhrlich besprochen wurde. Der Unterschied besteht darin, dass die exakten Lösungen jetzt deutlich schwieriger zu berechnen sind, da man nicht auf die Binomialverteilung zurĂŒckgreifen kann, sondern die Verteilung der Zufallsvariable, die das Ergebnis von 100 Spielen beschreibt erst durch Faltung berechnen muss. Die Anwendung der Tschebyscheff-Ungleichung wird daher nicht nochmal erklĂ€rt – es werden nur die AnsĂ€tze und Ergebnisse mitgeteilt.

Die Zufallsvariable Xi, die den Nettogewinn bei einem Spiel beschreibt, ist in Abbildung 4 dargestellt; sie nimmt die Werte -2, 3, 5 mit den Wahrscheinlichkeiten 2/3, 1/6, 1/6 an. Den Nettogewinn bei 100 Spielen, die wieder unabhĂ€ngig voneinander durchgefĂŒhrt werden, kann dann durch

S100 = X1 + ... + X100

beschrieben werden. Dies ist jetzt keine Binomialverteilung; die Verteilung der Zufallsvariable X muss aus den Faltungen der Verteilungen der Zufallsvariablen X1, ..., X100 berechnet werden. Das Ergebnis ist in Abbildung 5 dargestellt, die Berechnung der Faltung wird unten in den R-Skripten gezeigt.

Man muss sich aber auch klarmachen: Die Verteilung von S100 benötigt man nur, wenn man exakte Ergebnisse berechnen möchte, fĂŒr die Anwendung der Ungleichungen von Tschebyscheff benötigt man nur Erwartungswert und Varianz einer Verteilung.

Geht man zum Nettogewinn pro Spiel ĂŒber, wird lediglich durch die Anzahl der Spiele geteilt (siehe Abbildung 5):

ZN = (X1 + ... + XN) / N = SN / N.

In Abbildung 13 sind alle Rechenschritte aufgefĂŒhrt. Es fehlt lediglich der Schritt, wie die exakte Berechnung der Wahrscheinlichkeit in Gleichung (7) erfolgt; denn hier benötigt man die Verteilungsfunktion von Z100, die man wie oben angedeutet durch Faltungen berechnen muss.

Abbildung 13: Berechnungen zum zweiten Beispiel.Abbildung 13: Berechnungen zum zweiten Beispiel.

Beim Vergleich der Wahrscheinlichkeiten in Gleichung (7) und (8) erkennt man wieder:

  • die genĂ€herte Wahrscheinlichkeit ist zwar sehr klein,
  • aber sie weicht deutlich von der exakten Wahrscheinlichkeit ab.

Eine andere Sichtweise: Die Tschebyscheff-Ungleichung als Verallgemeinerung der Markov-Ungleichung

Zur EinfĂŒhrung: eine einfache AbschĂ€tzung

In einer Stadt A besitze jeder Haushalt im Durchschnitt ein Auto. Wie viele Haushalte besitzen 2 oder mehr Autos?

Es sind nicht viele Informationen gegeben, um hier eine starke AbschĂ€tzung anzugeben. Aber es können höchstens die HĂ€lfte der Haushalte 2 oder mehr Autos besitzen. Andernfalls wĂ€re der Mittelwert der Autos pro Haushalt grĂ¶ĂŸer als 1.

Man kann jetzt die Angabe ein wenig verÀndern: In einer Stadt B besitze jeder Haushalt im Durchschnitt 0.8 Autos. Wie viele Haushalte besitzen 2 oder mehr Autos?

Da jetzt der Mittelwert kleiner ist, können nicht 50 Prozent der Haushalte 2 Autos besitzen. Es sind höchstens

0.8 / 2 = 40 Prozent.

Diese einfachen AbschÀtzungen werden in den folgenden Abschnitten als Satz formuliert und verallgemeinert.

Die Markov-Ungleichung

Beim Beweis der Tschebyscheff-Ungleichung wurde die Varianz einer Zufallsvariable X berechnet und darin AbschĂ€tzungen vorgenommen. Betrachtet man dazu Abbildung 10 oder auch die Tatsache, dass die Varianz Var(X) als Erwartungswert ausgedrĂŒckt werden kann, nĂ€mlich

Var(X) = E (X - Ό)2,

drÀngt sich folgende Frage auf:

LĂ€sst sich das Beweis-Verfahren nicht bei einer beliebigen Erwartungswert-Berechnung anwenden und nicht nur auf die Berechnung einer Varianz?

In Abbildung 14 werden dazu die Einzelwahrscheinlichkeiten einer Zufallsvariable X mit ausschließlich positiven Werten aufgetragen; der Erwartungswert ist rot eingetragen. Weiter ist eine beliebige reelle Zahl a > 0 eingetragen.

Abbildung 14: Darstellung der Einzel-Wahrscheinlichkeiten einer Zufallsvariable X mit positiver Wertemenge. Eingetragen sind der Erwartungswert und eine beliebige Schranke a &gt; 0.Abbildung 14: Darstellung der Einzel-Wahrscheinlichkeiten einer Zufallsvariable X mit positiver Wertemenge. Eingetragen sind der Erwartungswert und eine beliebige Schranke a > 0.

Man kann jetzt die Schritte zum Beweis der Tschebyscheff-Ungleichung auf die Berechnung des Erwartungswertes von X ĂŒbertragen (siehe Abbildung 15):

  • Zur Berechnung des Erwartungswertes von X werden die Indizes in 2 Teilmengen zerlegt, die mit xi < a und die mit xi ≄ a. LĂ€sst man die Summation ĂŒber die erste Menge an Indizes weg, wird die Summe kleiner, da alle Summanden positiv sind; siehe die AbschĂ€tzung in Gleichung (1).
  • In der zweiten Menge von Indizes gilt xi ≄ a; verwendet man dies fĂŒr alle xi, kann die Summe nicht grĂ¶ĂŸer werden; siehe die AbschĂ€tzung von Gleichung (1) zu Gleichung (2).
  • Zieht man jetzt den Faktor a vor die Summe, beschreibt die Summe gerade das Ereignis P(X ≄ a).
  • Insgesamt erhĂ€lt man eine Ungleichung, die den Erwartungswert von X, die reelle Zahl a und die Wahrscheinlichkeit P(X ≄ a) verknĂŒpft, siehe Gleichung (3).

Die Formulierung des Satzes ist direkt im Anschluss gegeben.

Abbildung 15: Formulierung und Beweis der Markov-Ungleichung.Abbildung 15: Formulierung und Beweis der Markov-Ungleichung.

Es ist sofort klar, dass die Markov-Ungleichung (4) nur fĂŒr a > E (X) eine hilfreiche Aussage ist. Denn fĂŒr a = E (X) lautet sie lediglich P(X > a) ≀ 1, was fĂŒr jede Wahrscheinlichkeit gilt. Und wĂ€hlt man sogar 0 < a < E (X), wird die Wahrscheinlichkeit lediglich durch eine Zahl abgeschĂ€tzt, die echt grĂ¶ĂŸer ist als 1.

Aufgabe: Formulieren Sie die Markov-Ungleichung fĂŒr stetige Zufallsvariablen.

Übertragen Sie obigen Beweis auf stetige Zufallsvariablen.

Die Verallgemeinerung der Markov-Ungleichung

Der Beweis der Markov-Ungleichung oben ist nur richtig, wenn die Zufallsvariable X keine negativen Werte annimmt. Denn sonst ist die AbschÀtzung in Gleichung (1) in Abbildung 15 nicht richtig.

FĂŒr Zufallsvariablen X, die auch negative Werte annehmen, bleibt die Aussage richtig, wenn man von X zu |X| ĂŒbergeht – und entsprechend den Erwartungswert von |X| in der Markov-Ungleichung verwendet.

Abbildung 16, Gleichung (1) zeigt diese Folgerung aus der Markov-Ungleichung.

Abbildung 16: Formulierung und Beweis der Markov-Ungleichung.Abbildung 16: Formulierung und Beweis der Markov-Ungleichung.

Aber wenn man von der Zufallsvariable X zur Zufallsvariable |X| ĂŒbergehen kann, kann man anstelle der Betragsfunktion auch jede andere nicht-negative Funktion f auf X anwenden und auf f(X) wiederum die Markov-Ungleichung anwenden. Diese Verallgemeinerung der Markov-Ungleichung ist in Abbildung 16, Gleichung (2), formuliert.

Setzt man in dieser allgemeinen Form der Markov-Ungleichung speziell die Zufallsvariable X - E (X) und verwendet die Funktion f(x) = x2, so ergibt sich die Tschebyscheff-Ungleichung.

Wie gut ist die AbschÀtzung durch die Tschebyscheff-Ungleichung?

Die Problemstellung

Die Beispiele oben (Abbildung 2 und 6) lassen vermuten, dass die Tschebyscheff-Ungleichung nur eine sehr grobe AbschĂ€tzung fĂŒr die richtige Wahrscheinlichkeit liefert. Wenn man eine derartige Behandlung vorschnell aufstellt, sollte man bedenken:

  • Sind diese Beispiele vielleicht sehr speziell gewĂ€hlt, so dass die Tschebyscheff-Ungleichung nur hier weit daneben liegt?
  • Gibt es vielleicht andere Beispiele, bei denen die exakte Wahrscheinlichkeit und die berechnete NĂ€herung sehr nahe beieinander liegen?

Wenn man sich den Satz in Abbildung 8 vergegenwĂ€rtigt, stellt man fest, dass hier keine speziellen Voraussetzungen ĂŒber die Zufallsvariablen gemacht wurden: Es mĂŒssen lediglich der Erwartungswert und die Varianz bekannt sein, dann lĂ€sst sich zu einem gegebenen a > 0 eine AbschĂ€tzung berechnen fĂŒr eine Wahrscheinlichkeit der Art:

P(|X - Ό| > a).

Da in dem Satz keinerlei weitere Voraussetzungen gemacht werden, sollte man die AbschĂ€tzung so lesen: sie gilt fĂŒr jede Zufallsvariable mit endlichem Erwartungswert und endlicher Standardabweichung.

Die Zufallsvariablen in den ausfĂŒhrlich besprochenen Beispielen sind in der Tat sehr speziell, da sie Summen von 100 unabhĂ€ngigen, identisch verteilten Zufallsvariablen betreffen. Man sollte die Frage daher umgekehrt stellen: Gibt es Zufallsvariablen, so dass in der Tschebyscheff-Ungleichung sogar Gleichheit gilt oder zumindest nahezu Gleichheit?

Bevor ein derartiges Beispiel vorgestellt wird, soll die Tschebyscheff-Ungleichung in einer anderen Form prÀsentiert werden.

Eine andere Variante der Tschebyscheff-Ungleichung

In Abbildung 8 und in allen Anwendungen wurde die Tschebyscheff-Ungleichung derart formuliert, dass eine AbschĂ€tzung fĂŒr die Wahrscheinlichkeit

P(|X - ÎŒ| ≄ a)

gesucht wird, wobei a > 0 eine beliebige reelle Zahl ist. In den diskutierten Beispielen war meist eine konkrete Fragestellung gegeben, zu der man a bestimmen musste. Betrachtet man die rechte Seite der Tschebyscheff-Ungleichung, so steht dort σ2 / a2. Dieser Term vereinfacht sich, wenn man a als Vielfaches der Standardabweichung angibt:

a = λ · σ, mit λ > 0.

Jetzt lautet die Tschebyscheff-Ungleichung:

P(|X - ÎŒ| ≄ λ · σ) ≀ 1 / λ2.

Die Vorteile dieser Darstellung sind:

  1. Man erkennt sofort, dass fĂŒr 0 < λ < 1 auf der rechten Seite der Tschebyscheff-Ungleichung eine Zahl entsteht, die echt grĂ¶ĂŸer ist als 1. Die AbschĂ€tzung ist somit wertlos.
  2. Man kann leichter die typischen Fragestellungen der Art formulieren:
    • Mit welcher Wahrscheinlichkeit nimmt X Werte im Bereich ÎŒ ± σ an?
    • Mit welcher Wahrscheinlichkeit nimmt X Werte im Bereich ÎŒ ± 2 · σ an?
    • Mit welcher Wahrscheinlichkeit nimmt X Werte im Bereich ÎŒ ± 3 · σ an?

Dazu muss man nur auf die rechte Seite der Tschebyscheff-Ungleichung die Werte λ = 1, 2, 3 einsetzen und das Gegenereignis betrachten; man erhÀlt:

  • P(|X - ÎŒ| ≀ σ) ≄ 0; diese AbschĂ€tzung ist nichtssagend: jede Wahrscheinlichkeit ist ≄ 0.
  • P(|X - ÎŒ| ≀ 2 · σ) ≄ 0.75.
  • P(|X - ÎŒ| ≀ 3 · σ) ≄ 8 / 9.

Umgekehrt werden mit einer Wahrscheinlichkeit von höchstens 25 Prozent Werte von X außerhalb des Intervalls ÎŒ ± 2 · σ angenommen und mit höchstens etwa 11.1 Prozent Werte von X außerhalb des Intervalls ÎŒ ± 3 · σ.

Und wenn man fĂŒr λ nicht nur die Zahlen 1, 2 oder 3 einsetzt, sondern beliebige Zahlen einsetzt, erhĂ€lt man mit 1 / λ2 die AbschĂ€tzung dafĂŒr, dass Werte außerhalb ÎŒ ± λ · σ angenommen werden. Abbildung 17 versucht dies darzustellen: Rot eingetragen ist der Erwartungswert ÎŒ einer Zufallsvariable X; blau eingetragen sind die markanten Intervallgrenzen ÎŒ + σ, ÎŒ - σ und so weiter.

  • Versucht man jetzt die Werte einer Zufallsvariable mit Erwartungswert ÎŒ und Standardabweichung σ in der Abbildung zu plazieren, so mĂŒssen innerhalb des Intervalls ÎŒ ± 2 · σ mindestens 3/4 der Wahrscheinlichkeiten liegen (und höchstens 1/4 außerhalb).
  • Innerhalb des Intervalls ÎŒ ± 3 · σ mĂŒssen mindestens 8/9 der Wahrscheinlichkeiten liegen (und höchstens 1/9 außerhalb).
  • WĂ€hlt man nicht diese markanten Intervallgrenzen, sondern ein beliebiges λ · σ, so kann man die entsprechende AbschĂ€tzung fĂŒr die Wahrscheinlichkeiten außerhalb des Intervalls an der Kurve (orange) ablesen.

Abbildung 17: Versuch einer graphischen Darstellung der Aussage des Tschebyscheff-Ungleichung. Jede Zufallsvariable mit gegebenem Erwartungswert und Standardabweichung muss die durch die Kurve (orange) beschriebene Schranke fĂŒr die Wahrscheinlichkeiten der Werte um den Erwartungswert erfĂŒllen; fĂŒr markante Werte sind diese Wahrscheinlichkeiten ausdrĂŒcklich angegeben. (Die Kurve, die die AbschĂ€tzung wiedergibt (orange) ist nicht exakt gleich der rechten Seite der Tschebyscheff-Ungleichung, da eine Spline-Interpolation zum Zeichnen verwendet wurde, qualitativ gibt sie das Verhalten aber sehr gut wieder.)Abbildung 17: Versuch einer graphischen Darstellung der Aussage des Tschebyscheff-Ungleichung. Jede Zufallsvariable mit gegebenem Erwartungswert und Standardabweichung muss die durch die Kurve (orange) beschriebene Schranke fĂŒr die Wahrscheinlichkeiten der Werte um den Erwartungswert erfĂŒllen; fĂŒr markante Werte sind diese Wahrscheinlichkeiten ausdrĂŒcklich angegeben. (Die Kurve, die die AbschĂ€tzung wiedergibt (orange) ist nicht exakt gleich der rechten Seite der Tschebyscheff-Ungleichung, da eine Spline-Interpolation zum Zeichnen verwendet wurde, qualitativ gibt sie das Verhalten aber sehr gut wieder.)

Man beachte, dass obige Aussagen und die AbschĂ€tzung aus Abbildung 17 fĂŒr jede Zufallsvariable X gelten (sofern Erwartungswert und Varianz endlich sind). Oder anders formuliert: man kann keine Zufallsvariable konstruieren, die diese AbschĂ€tzungen verletzt.

Im nĂ€chsten Abschnitt werden Zufallsvariablen gezeigt, die sozusagen den Grenzfall der Tschebyscheff-Ungleichung darstellen: FĂŒr bestimmte a wird dann die Tschebyscheff-Ungleichung zu einer Gleichung.

Beispiel fĂŒr eine Zufallsvariable, in der die Tschebyscheff-Ungleichung zur Gleichung wird

Abbildung 18 zeigt die Einzel-Wahrscheinlichkeiten fĂŒr 6 Zufallsvariablen, die folgende Eigenschaften gemeinsam haben:

  1. Die Zufallsvariablen nehmen nur die drei Werte -1, 0 und 1 an.
  2. Die Wahrscheinlichkeiten sind symmetrisch: P(X = -1) = P(X = 1).

Aus der Symmetrie folgt offensichtlich, dass der Erwartungswert ÎŒ stets gleich 0 ist. Die Standardabweichung nimmt fĂŒr die Folge der Zufallsvariablen in Abbildung 18 zu, da immer mehr Wahrscheinlichkeiten bei ± 1 konzentriert sind.

Ein Spezialfall dieser Zufallsvariablen liegt vor, wenn die drei Werte der Wertemenge mit gleicher Wahrscheinlichkeit 1/3 angenommen werden (4. Diagramm in Abbildung 18). FĂŒr die folgende Überlegung spielt es keine Rolle, ob der Wert X = 0 mit der grĂ¶ĂŸten oder kleinsten Wahrscheinlichkeit angenommen wird.

Abbildung 18: Darstellung der Einzel-Wahrscheinlichkeiten von 6 Zufallsvariablen, die die drei Werte -1, 0 und 1 annehmen. Die Wahrscheinlichkeiten sind symmetrisch zu x = 0. Die Wahrscheinlichkeiten sind blau eingetragen, die Standardabweichungen rot. Deren Berechnung erfolgt weiter unten.)Abbildung 18: Darstellung der Einzel-Wahrscheinlichkeiten von 6 Zufallsvariablen, die die drei Werte -1, 0 und 1 annehmen. Die Wahrscheinlichkeiten sind symmetrisch zu x = 0. Die Wahrscheinlichkeiten sind blau eingetragen, die Standardabweichungen rot. Deren Berechnung erfolgt weiter unten.)

FĂŒr derartige Zufallsvariablen wird jetzt die Wahrscheinlichkeit

P(|X - ÎŒ| ≄ 1)

berechnet und mit der AbschÀtzung verglichen, die die Tschebyscheff-Ungleichung liefert.

Abbildung 19: Definition einer Familie von Zufallsvariablen, fĂŒr die bei geeigneter Wahl von a die Tschebyscheff-Ungleichung zu einer Gleichung wird..Abbildung 19: Definition einer Familie von Zufallsvariablen, fĂŒr die bei geeigneter Wahl von a die Tschebyscheff-Ungleichung zu einer Gleichung wird..

Gleichung (1) zeigt, mit welcher Wahrscheinlichkeit die Werte der Zufallsvariablen Xb angenommen werden; fĂŒr b = 0 sind alle 3 Wahrscheinlichkeiten gleich groß. In Gleichung (2), (3) und (4) werden Erwartungswert, Varianz und Standardabweichung berechnet. Man kann sich leicht ĂŒberlegen, dass mit den vorgegebenen b die Varianz und die Standardabweichung immer Werte zwischen 0 und 1 annehmen. In Abbildung 18 sind die Werte ÎŒ ± σ jeweils rot eingetragen.

In den Gleichungen (5) und (6) wird dann die Wahrscheinlichkeit P(|Xb - ÎŒ| ≄ 1) berechnet, und zwar

  • zuerst der exakte Wert, der mit P(|Xb| = 1) ĂŒbereinstimmt,
  • sowie als AbschĂ€tzung nach der Tschebyscheff-Ungleichung.

Die Rechnung zeigt, dass der exakte Wert und die AbschĂ€tzung ĂŒbereinstimmen, das heißt man hat hier (eine Familie von) Zufallsvariablen gefunden, in der die Tschebyscheff-Ungleichung sogar eine Gleichung ist – die Beispiele oben mit der 100-fachen Wiederholung des GlĂŒcksspiels waren davon weit entfernt.

Aufgaben:

1. Versuchen Sie am Beweis der Tschebyscheff-Ungleichung nachzuvollziehen, warum hier die AbschÀtzung die exakte Wahrscheinlichkeit berechnet!

2. Gilt die Gleichheit nur fĂŒr a = 1 oder auch fĂŒr andere Werte von a?

Eine Beurteilung der Tschebyscheff-Ungleichung

Die GegenĂŒberstellung der Beispiele mit N = 100 GlĂŒcksspielen und der zuletzt diskutierten Familie von Zufallsvariablen (Xb) kann man jetzt zu einer Beurteilung der Tschebyscheff-Ungleichung heranziehen. Man sollte dabei bedenken: Die bisher diskutierten Beispiele waren so gewĂ€hlt, dass man die exakten Wahrscheinlichkeiten berechnen konnte; wie, wird in den R-Skripten gezeigt. Man muss aber nur die Anzahl der GlĂŒcksspiele N deutlich grĂ¶ĂŸer machen, dann versagt die vorgestellte Lösungsmethode. Somit:

  • Die Tschebyscheff-Ungleichung ist immer anwendbar, wenn eine Zufallsvariable einen endlichen Erwartungswert und eine endliche Standardabweichung besitzt.
  • Da diese GrĂ¶ĂŸen nur wenig darĂŒber aussagen, wie groß die Wahrscheinlichkeiten von seltenen Ereignissen sind, kann man sowohl Zufallsvariablen konstruieren, fĂŒr die nur eine sehr schlechte AbschĂ€tzung gelingt, als auch solche, bei denen die Tschebyscheff-Ungleichung zur Gleichung wird.
  • Um die QualitĂ€t der AbschĂ€tzung zu beurteilen, mĂŒsste man mehr Informationen ĂŒber die Zufallsvariable besitzen. Diese "Information" könnte etwa in der Kenntnis höherer Momente bestehen, also Erwartungswerten der Art E (Xk), k = 2, 3, ... Wie man diese höheren Momente fĂŒr bessere AbschĂ€tzungen einsetzt, ist aber nicht Inhalt dieses Kapitels.
  • Gerade wenn es schwierig ist, mehr Informationen als Erwartungswert und Standardabweichung einer Zufallsvariable zu gewinnen, man aber dennoch an AbschĂ€tzungen fĂŒr die Wahrscheinlichkeiten seltener Ereignisse interessiert ist, liefert die Tschebyscheff-Ungleichung ein simples Werkzeug.
  • Man darf dabei aber nie vergessen, dass sinnvolle AbschĂ€tzungen fĂŒr P(|X - ÎŒ| ≄ λ · σ) nur fĂŒr λ > 1 möglich sind.

R-Skripte

In den R-Skripten werden einige Berechnungen zu den obigen Beispielen durchgefĂŒhrt, dazu werden diskrete Zufallsvariablen modelliert, wie es in Grundbegriffe der Wahrscheinlichkeitsrechnung: Die Zufallsvariable beschrieben wurde: Die Werte und deren Wahrscheinlichkeiten werden als die Spalten value beziehungsweise prob zu einem Dataframe zusammengefasst.

Die verwendeten Funktionen

Die folgenden Berechnungen verwenden mehrere Funktionen zur Verarbeitung von Zufallsvariablen:

  • is.randomVariable(rv) : Testet, ob ein gegebenes Dataframe rv den Konventionen einer Zufallsvariable gehorcht.
  • meanValue(rv) , variance(rv) , standardDeviation(rv) : Berechnung von Erwartungswert, Varianz und Standardabweichung einer Zufallsvariable rv. Dabei werden Varianz und Standardabweichung nicht als empirische Varianz und empirische Standardabweichung berechnet.
  • composition(X, Y = X, FUN = &quot;+&quot;) : Um die Einzel-Wahrscheinlichkeiten zu berechnen, wenn zwei unabhĂ€ngige Zufallsvariablen X und Y addiert werden, muss die Faltung berechnet werden. Dies geschieht mit Hilfe der Funktion composition(), indem der default-Wert FUN = &quot;+&quot; als VerknĂŒpfung verwendet wird.

Die Implementierungen der genannten Funktionen lauten – auf eine Behandlung von NA-Werten wird hier verzichtet:

meanValue <- function(rv){
  stopifnot(is.randomVariable(rv))
  return(sum( rv$prob * rv$value ))
}

variance <- function(rv){
  stopifnot(is.randomVariable(rv))
  difference <- rv$value - sum( rv$prob * rv$value )
  return(sum( (difference * difference) * rv$prob ))
}

standardDeviation <- function(rv){
  return(sqrt(variance(rv)))
}

composition <- function(X, Y = X, FUN = "+"){
  stopifnot(is.randomVariable(X), is.randomVariable(Y))
  Z <- data.frame( value = as.vector( outer(X = X$value, Y = Y$value, FUN = FUN) ), 
                   prob = as.vector( outer(X = X$prob, Y = Y$prob, FUN = "*") ) )
  # Beachte: Z$value und Z$prob haben identische LĂ€nge, mĂŒssen aber gekĂŒrzt werden: 
  # Werte können mehrfach vorkommen
  a <- aggregate(x = Z$prob, by = Z[1], FUN = sum)
  names(a) <- c("value", "prob")
  return(a)
}

Zeile 16: Die Funktion composition(X, Y = X, FUN = &quot;+&quot;)

  • berechnet zuerst alle möglichen Werte der Zufallsvariable X + Y mit Hilfe von outer() (Zeile 18),
  • sowie die zugehörigen Wahrscheinlichkeiten als Produkte der Einzel-Wahrscheinlichkeiten (Zeile 19); aufgrund der UnabhĂ€ngigkeit von X und Y können die Einzel-Wahrscheinlichkeiten multipliziert werden.
  • So wie in Zeile 18 die neuen Werte berechnet werden, können sie mehrfach vorkommen. Mit Hilfe von aggregate() werden Duplikate entfernt und ihre Wahrscheinlichkeiten addiert (Zeile 22).

Berechnung der exakten Wahrscheinlichkeiten fĂŒr die Beispiele

Die soeben gezeigten Funktion werden jetzt eingesetzt, um die Berechnungen zu obigen Beispielen auszufĂŒhren.

1. Beispiel: Anzahl der Treffer bei N Spielen

Bei diesem Beispiel wurde die Anzahl des Spiele N = 100 gesetzt und die Gewinn-Wahrscheinlichkeit p = 1/2. Mit diesen Bedingungen wurden die Fragen formuliert:

  1. Wie groß ist die Wahrscheinlichkeit dafĂŒr, 80 oder mehr Treffer zu erzielen?
  2. Wie groß ist die Wahrscheinlichkeit fĂŒr ein Extrem-Ereignis der Art: "die Anzahl der Treffer ist kleiner gleich 10 oder grĂ¶ĂŸer gleich 90"?
  3. In welchem Intervall (mit Mittelpunkt k = 50) liegen mit 90 Prozent Wahrscheinlichkeit die Trefferzahlen?

ZusÀtzlich werden die Abbildungen erzeugt, die oben gezeigt wurden (Abbildung 2, 3).

# Konstanten:
N <- 100
p <- 0.5
Ns <- seq_len(N)

# Binomialverteilung:
probs <- dbinom(x = Ns, size = N, prob = p)
mu <- N*p
sdDev <- sqrt(N*p*(1-p))

# Verteilungsfunktion der Binomialverteilung (kumulierte Wahrscheinlichkeiten):
cumProbs <- pbinom(q = Ns, size = N, prob = p)

# 1. Frage:
cumProbs[20]
# 5.579545e-10

# 2. Frage:
2 * cumProbs[10]
# 3.06329e-17

# 3. Frage:
min( which(cumProbs > 0.05)  )
# 42
# Probe:
cumProbs[42]    # [1] 0.06660531

# 1. Plot: Abbildung 2
plot(x = Ns, y = probs, col = "blue", type = "h", 
     xlab = "k", ylab = "B(N, p, k)", 
     main = "Binomialverteilung fĂŒr N = 100, p = 1/2",
     frame.plot = TRUE, lty = 1, lwd = 2)
grid()
y1 <- max(probs)
lines(x = c(mu - sdDev, mu - sdDev), y = c(0, y1), col = "red")
lines(x = c(mu + sdDev, mu + sdDev), y = c(0, y1), col = "red")

# 2. Plot: Abbildung 3
plot(x = Ns, y = cumProbs, col = "blue", type = "l", 
     xlab = "k", ylab = "kumulierte Summen von B(N, p, k)", 
     main = "Verteilungsfunktion zur Binomialverteilung mit N = 100, p = 1/2",
     frame.plot = TRUE, lty = 1, lwd = 2)
grid()
y1 <- max(cumProbs)
lines(x = c(mu - sdDev, mu - sdDev), y = c(0, y1), col = "red")
lines(x = c(mu + sdDev, mu + sdDev), y = c(0, y1), col = "red")

Die Binomialverteilung und ihre Verteilungsfunktion können direkt abgefragt werden mit Hilfe der Funktionen dbinom() (Zeile 7) und pbinom() (Zeile 12). Damit lassen sich die oben gestellten Fragen leicht beantworten. Ebenso lassen sich daraus die Abbildungen 2 und 3 erzeugen; hier werden zusĂ€tzlich die Werte ÎŒ ± σ eingetragen, um die Standardabweichung zu zeigen (jeweils mit Hilfe der Funktion lines()).

Im Skript oben wurden die exakten Antworten auf die drei gestellten Fragen gegeben; die Antworten mit Hilfe der Tschebyscheff-Ungleichung wurden nicht nochmal explizit angegeben, da man sie elementar berechnen kann.

Der Vergleich zwischen den exakten Ergebnissen und der AbschĂ€tzung mit Hilfe der Tschebyscheff-Ungleichung (siehe Abbildungen 11 und 12) hatte allerdings ergeben, dass fĂŒr die hier untersuchte Zufallsvariable die AbschĂ€tzung weit neben den exakten Werten liegt. Daher ist es naheliegend, die exakten Werte fĂŒr Wahrscheinlichkeiten der Art

P(|X - Ό| > a)

sowie deren AbschĂ€tzung durch die Tschebyscheff-Ungleichung in einer Graphik gegenĂŒberzustellen.

Da die Tschebyscheff-Ungleichung erst fĂŒr Werte a > σ eine sinnvolle AbschĂ€tzung liefert, lĂ€sst man a von σ bis N - ÎŒ - σ laufen. Zur Erinnerung, hier gilt:

N = 100, ÎŒ = p · N = 50, σ = 5,

somit lÀuft a von 5 bis 45. Das folgende Skript zeigt, wie der Plot erzeugt wird, in dem die AbschÀtzung nach Tschebyscheff (Berechnung, Darstellung in den Diagrammen blau) sowie die exakten Wahrscheinlichkeiten gegen diese a-Werte aufgetragen sind (Abbildung 20 unten). Da die exakten Werte sehr schnell abfallen, wird eine weitere Abbildung erzeugt, in der die y-Achse logarithmisch skaliert ist (Abbildung 21 unten).

Die Werte fĂŒr die AbschĂ€tzung nach Tschebyscheff werden in Zeile 5 erzeugt; sie werden in den Diagrammen mit T(a) bezeichnet und blau dargestellt. Die exakten Wahrscheinlichkeiten werden mit B bezeichnet (B soll an Binomialverteilung erinnern) und rot dargestellt; ihre Berechnung erfolgte im letzten Skript (cumprobs).

# 3. Plot: Binomialverteilung wie im 1. Plot
# zusÀtzlich: Schranke P(|X - mu| > a) nach Tschebyscheff-Ungleichung
as <- seq(from = sdDev, to = N - mu - sdDev, by = 1)
diffs <- mu - as
tscheb <- sdDev^2 / (as * as)

plot(x = as, y = tscheb, col = "blue", type = "l", 
     xlab = "a", ylab = "T(a)",
     main = "Tschebyscheff-AbschÀtzung P(|X - mu| > a)",
     frame.plot = TRUE, lty = 1, lwd = 1)
grid()
legend("top", legend=c("T(a)","B"),
       ncol=2, cex=0.8, bty="n",
       col=c("blue","red"), lty=1,lwd=2)
points(x = as, y = 2 * cumProbs[diffs], col = "red", type = "l")

# 4. Plot: Wie 3. Plot, aber mit log. Skala
plot(x = as, y = tscheb, col = "blue", type = "l", 
     xlab = "a", ylab = "T(a), (logarithmisch)", ylim = c(1e-22, 1),
     main = "Tschebyscheff-AbschÀtzung P(|X - mu| > a)",
     frame.plot = TRUE, lty = 1, lwd = 1, log = "y")
grid()
legend("bottom", legend=c("T(a)","B"),
       ncol=2, cex=0.8, bty="n",
       col=c("blue","red"), lty=1,lwd=2)
points(x = as, y = 2 * cumProbs[diffs], col = "red", type = "l")

Abbildung 20: Darstellung der AbschĂ€tzung durch Tschebyscheff T(a) (blau) sowie der exakten Wahrscheinlichkeiten, die mit Hilfe der Binomialverteilung berechnet werden (rot). Der Wert fĂŒr die Schranke a lĂ€uft dabei von 5 bis 45.Abbildung 20: Darstellung der AbschĂ€tzung durch Tschebyscheff T(a) (blau) sowie der exakten Wahrscheinlichkeiten, die mit Hilfe der Binomialverteilung berechnet werden (rot). Der Wert fĂŒr die Schranke a lĂ€uft dabei von 5 bis 45.

Abbildung 21: Das Diagramm aus Abbildung 20 jetzt mit y-Achse in logarithmischer Skalierung.Abbildung 21: Das Diagramm aus Abbildung 20 jetzt mit y-Achse in logarithmischer Skalierung.

2. Beispiel: mittlerer Nettogewinn pro Spiel bei N Spielen

Im zweiten Beispiel wurde fĂŒr den Nettogewinn eines Spieles eine Zufallsvariable X gewĂ€hlt, die nicht mehr durch "Treffer" und "Niete" beschrieben werden kann, sondern drei Werte annehmen kann (siehe Abbildung 4). Folglich muss die Verteilung der Zufallsvariable, die den Nettogewinn bei N = 100 Spielen (S100) beziehungsweise den mittleren Nettogewinn pro Spiel (Z100) beschreibt, durch Faltung berechnet werden (siehe Abbildung 5 und 6); es ergibt sich keine Binomialverteilung. Die Verteilungsfunktion zu Z100 kann durch kumulierte Summen berechnet werden (Abbildung 7).

Das folgende Skript zeigt:

  1. Die Modellierung der Zufallsvariable X als Dataframe.
  2. Die Berechnung der Verteilungen der Zufallsvariablen S100 und Z100.
  3. Wie die Abbildungen 5, 6, 7 erzeugt werden.
# Konstanten
N <- 100

# 1. Die Modellierung der Zufallsvariable X als Dataframe:
v <- c(-2, 3, 5)
pr <- c(2/3, 1/6, 1/6)

profit <- data.frame(value = v, prob = pr)
mean.profit <- meanValue(profit)
mean.profit
# 0
sigma.profit <- standardDeviation(profit)
sigma.profit
# 2.886751

# 2. Berechnung der Zufallsvariablen S.100 und Z.100:
# S.100 = X1 + ... + X100; Z.100 = S.100 / 100

# 100 unabhÀngige Spiele
Xs <- vector(mode = "list", length = N)
for(i in seq_len(N)){
  Xs[[i]] <- profit
}

# Dataframe aus Faltung X1 * ... * X100:
S.100 <- Reduce(f = composition, x = Xs, accumulate = FALSE)
str(S.100)
# 'data.frame': 686 obs. of  2 variables:
#   $ value: num  -200 -195 -193 -190 -188 -186 -185 -183 -181 -180 ...
#   $ prob : num  2.46e-18 6.15e-17 6.15e-17 7.61e-16 1.52e-15 ...

meanValue(S.100)
# -3.462677e-16 (vernachlÀssigbarer Rundungsfehler -> 0)
sigma.S.100 <- standardDeviation(S.100)
sigma.S.100
# 28.86751 (= sqrt(100) * sigma.profit)

# Dataframe fĂŒr Z.100:
Z.100 <- data.frame(value = S.100$value / 100, prob = S.100$prob)
sigma.Z.100 <- standardDeviation(Z.100)
sigma.Z.100
# 0.2886751

# 3. Abbildungen 5, 6, 7:

# Abbildung 5:
y1 <- max(S.100$prob)

plot(x = S.100$value, y = S.100$prob, col = "blue", type = "h", 
     xlab = "Nettogewinn", ylab = "Wahrscheinlichkeit", 
     main = "Einzelwahrscheinlichkeiten bei N = 100 Spielen",
     frame.plot = TRUE, lty = 1, lwd = 1)
grid()
lines(x = c(-sigma.S.100, -sigma.S.100), y = c(0, y1), col = "red")
lines(x = c(sigma.S.100, sigma.S.100), y = c(0, y1), col = "red")

# Abbildung 6:
plot(x = Z.100$value, y = Z.100$prob, col = "blue", type = "h", 
     xlab = "Nettogewinn pro Spiel", ylab = "Wahrscheinlichkeit", 
     main = "N = 100 Spiele",
     frame.plot = TRUE, lty = 1, lwd = 1)
grid()
lines(x = c(-sigma.Z.100, -sigma.Z.100), y = c(0, y1), col = "red")
lines(x = c(sigma.Z.100, sigma.Z.100), y = c(0, y1), col = "red")

# Abbildung 7:
cum.Z.100 <- cumsum(Z.100$prob)

plot(x = Z.100$value, y = cum.Z.100, col = "blue", type = "l", 
     xlab = "Nettogewinn pro Spiel", ylab = "kumulierte Summen", 
     main = "Verteilungsfunktion",
     frame.plot = TRUE, lty = 1, lwd = 1)
grid()
lines(x = c(-sigma.Z.100, -sigma.Z.100), y = c(0, 1), col = "red")
lines(x = c(sigma.Z.100, sigma.Z.100), y = c(0, 1), col = "red")

Kurze ErklÀrung:

Zeile 8: Es wird die Zufallsvariable profit fĂŒr ein Spiel erzeugt (siehe auch Abbildung 4).

Zeile 20 bis 26: Die N-fache Faltung dieser Zufallsvariable kann zum Beispiel dadurch geschehen, dass man eine Liste mit 100 Kopien von profit anlegt und diese mit Reduce() abarbeitet, wobei als Funktion f die oben vorgestellte Funktion composition() verwendet wird.

Dass 100 Kopien der Zufallsvariable profit in einer Liste abgespeichert werden, ist natĂŒrlich eine riesige Verschwendung von Speicherplatz. Man könnte S.100 auch in einer Schleife sukzessive aus profit aufbauen; dies geschieht hier spĂ€ter in Reduce(). Diese – eigentlich nicht zu empfehlende – Lösung wurde aus zwei GrĂŒnden gewĂ€hlt:

  • Benötigt man die Zwischenergebnisse, also S.2, S.3, ..., S.100, kann man einfach in Reduce() das Argument accumulate = TRUE setzen und muss die Schleife nicht umschreiben.
  • Das gewichtigere Argument: Möchte man unterschiedliche Zufallsvariablen miteinander falten, kommt man nicht daran vorbei, diese in einer Liste zusammenzufassen. FĂŒr diesen allgemeinen Fall ist die hier gezeigte Lösung sehr einfach.

Zeile 34: Um spÀter die Zufallsvariable S.100 darzustellen, benötigt man ihre Standardabweichung.

Zeile 39: FĂŒr den Nettogewinn pro Spiel wird die Zufallsvariable S.100 skaliert zu Z.100.

Zeile 46 bis 75: Die Plots werden Àhnlich wie im letzten Beispiel erstellt.

Im nĂ€chsten Skript wird dann die oben beschriebene Rechnung durchgefĂŒhrt (in Abbildung 13, Gleichung (7) wurde das Ergebnis bereits angegeben):

Wie groß ist die Wahrscheinlichkeit dafĂŒr, dass der Nettogewinn grĂ¶ĂŸer ist als 1 beziehungsweise kleiner ist als -1?

Zur Lösung muss man nur auf die kumulierten Summen cum.Z.100 der Zufallsvariable Z.100 zugreifen:

idx.1 <- max( which(Z.100$value < -1) )    # 88
idx.2 <- min( which(Z.100$value > 1) )    # 290

cum.Z.100[idx.1]    # 0.0001115221
1 - cum.Z.100[idx.2 - 1]    # 0.0003866308

# P(|Z.100| > 1)
cum.Z.100[idx.1] + 1 - cum.Z.100[idx.2 - 1]
# 0.0004981529

Zeile 1 und 2: Es wird der grĂ¶ĂŸte Index gesucht, bei dem Z.100 noch kleiner ist als -1, sowie der kleinste Index, bei dem Z.100 grĂ¶ĂŸer ist als -1.

Zeile 4 bis 8: Mit den Indizes kann man die kumulierten Summen von Z.100 auswerten. Die Korrektur von idx.2 um 1 ist nötig, damit der Index 290 mitgenommen wird. Zum besseren VerstÀndnis kann man sich diese Berechnung in Abbildung 7 veranschaulichen.