Eigenschaften von Zufallsvariablen: Quantil und Median
Das p-Quantil als Umkehrfunktion der Verteilungsfunktion und der Spezialfall des Medians als p-Quantil zur Wahrscheinlichkeit p = 0.5 werden vorgestellt.
Einordnung des Artikels
- Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
- Eigenschaften von Zufallsvariablen
- Eigenschaften von Zufallsvariablen: Der Erwartungswert von diskreten und stetigen Zufallsvariablen
- Eigenschaften von Zufallsvariablen: Die Varianz und die Standardabweichung
- Eigenschaften von Zufallsvariablen: Quantil und Median
- Eigenschaften von Zufallsvariablen
- Wahrscheinlichkeitsrechnung
In Wahrscheinlichkeitsverteilungen in R werden die R-Funktionen vorgestellt, mit denen p-Quantile zu den geläufigen Wahrscheinlichkeitsverteilungen berechnet werden können.
Einführung
Viele Fragestellungen über Zufallsvariablen X können so formuliert werden, dass sie sich mit Hilfe der Verteilungsfunktion F(x) lösen lassen. Die Verteilungsfunktion F(x) gibt die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X einen Wert kleiner oder gleich x annimmt:
F(x) = P(X ≤ x).
Die Umkehrfunktion der Verteilungsfunktion gibt somit eine Wahrscheinlichkeit p = P(X ≤ x) vor und berechnet den zugehörigen x-Wert. Diese Umkehrfunktion wird als p-Quantil (oder nur Quantil) bezeichnet.
Speziell für p = 0.5 wird das p-Quantil als Median bezeichnet und für p = 0.25 beziehungsweise p = 0.75 als Quartil. Sie sind Lageparameter einer Wahrscheinlichkeitsverteilung und werden häufig in der Statistik eingesetzt, um Stichproben zu beschreiben.
Das p-Quantil
Das p-Quantil einer stetigen Zufallsvariable
Ist X eine stetige Zufallsvariable, so kann man Wahrscheinlichkeiten der Art P(X ≤ x) leicht mit Hilfe der Wahrscheinlichkeitsdichte f(x) veranschaulichen, siehe Abbildung 1 links (dort ist die Wahrscheinlichkeitsdichte der Standardnormalverteilung aufgetragen): Man integriert die Wahrscheinlichkeitsdichte von -∞ bis x, siehe Gleichung (1) in Abbildung 2. Das Ergebnis dieser Integration ist zugleich der Wert der Verteilungsfunktion F(x).
In vielen Anwendungen ist man an der umgekehrten Fragestellung interessiert: Gegeben ist zu einer Zufallsvariable X eine Wahrscheinlichkeit p und gesucht ist derjenige x-Wert, für den Gleichung (1) in Abbildung 2 gilt. Da auf der rechten Seite die Verteilungsfunktion F(x) steht, kann der gesuchte x-Wert aus der Umkehrfunktion der Verteilungsfunktion berechnet werden, siehe Gleichung (2) in Abbildung 2. Abbildung 1 rechts versucht dies zu veranschaulichen: Zur gegebenen Wahrscheinlichkeit (in der Abbildung p = 0.9) sucht man den x-Wert des Schnittpunktes der Verteilungsfunktion F(x) mit der Geraden y = p.
Kann man die Umkehrfunktion nicht explizit berechnen - wie zum Beispiel bei der Normalverteilung -, so werden die Werte tabelliert oder geeignet näherungsweise berechnet (inzwischen ist dies in vielen Tabellenkalkulationsprogrammen implementiert).
Der x-Wert, der implizit durch Gleichung (1) in Abbildung 2 definiert wird, wird als p-Quantil zur Wahrscheinlichkeit p bezeichnet. Das p-Quantil ist somit derjenige x-Wert aus der Wertemenge der Zufallsvariable X, der Gleichung (1) in Abbildung 2 erfüllt.
Das p-Quantil einer diskreten Zufallsvariable
Bei der Definition des p-Quantils für eine diskrete Zufallsvariable ist lediglich zu beachten, dass die Verteilungsfunktion wie in Gleichung (3) in Abbildung 2 nicht mehr umkehrbar ist. Denn nimmt eine Zufallsvariable X die diskreten Werte x1, x2, ... xn mit x1 < x2 < ... < xn an, so ist auf den Intervallen
[xi; xi+1[, i = 1, 2, ..., n-1,
die Verteilungsfunktion konstant und somit die Abbildung
p → x = F-1 (p)
nicht mehr eindeutig.
Abbildung 3 veranschaulicht dies am Beispiel des Laplace-Würfels: Wählt man etwa p = 0.5, so kommt jeder x-Wert im Intervall [3; 4[ in Frage, um die Gleichung
P(X ≤ x) = 0.5
zu erfüllen (dabei wird der Wert 4 ausgeschlossen).
Die Definition des p-Quantils erfolgt daher im diskreten Fall mit einer Summe anstelle eines Integrals zur Berechnung der Verteilungsfunktion (siehe Gleichung (3) in Abbildung 2). Dabei ist zu beachten, dass der Wert nicht mehr eindeutig sein muss, sondern ein Intervall [xi; xi+1[ sein kann, dessen Grenzen von aufeinanderfolgenden Werten der Zufallsvariable X gebildet wird.
Der Median
In den beiden Beispielen oben (Standard-Normalverteilung und Würfeln) stimmt der Erwartungswert der Zufallsvariable mit dem p-Quantil zu p = 0.5 überein. Dies gilt natürlich nicht für jede Zufallsvariable, sondern nur in Spezialfällen. Da man mit dem p-Quantil zu p = 0.5 einen weiteren Lageparameter definieren kann, der Aufschluss über eine Wahrscheinlichkeits-Verteilung gibt, führt man dafür einen eigenen Begriff ein: der Median.
Der Begriff Lageparameter wird hier als Gegensatz zu Streuparameter verwendet. Seine Bedeutung ist klar: jeweils links und rechts liegen 50 Prozent der Wahrscheinlichkeit. Und wie beim p-Quantil diskutiert, muss der Wert des Medians nicht eindeutig gegeben sein.
Gelegentlich wird auch für p = 0.25 und p = 0.75 eine eigene Bezeichnung für das p-Quantil verwendet: man spricht vom unteren Quartil beziehungsweise vom oberen Quartil.
Aufgaben
1. Geben Sie je ein Beispiel einer diskreten Zufallsvariable an mit:
- der Erwartungswert stimmt mit dem Median überein,
- der Erwartungswert stimmt nicht mit dem Median überein.
2. Berechnen Sie den Median sowie das untere und obere Quartil der Exponentialverteilung mit Parameter λ = 2.
Eine kurze Beschreibung der Eigenschaften der Exponentialverteilung findet sich in Eigenschaften von Zufallsvariablen: Der Erwartungswert von diskreten und stetigen Zufallsvariablen.
(gerundete Ergebnisse: 0.347, 0.144 0.693)
3. Berechnen Sie das untere und obere Quartil der Standard-Normalverteilung.
(gerundete Ergebnisse: -0.674, 0.674)