Regressionsanalyse: Die Varianzzerlegung, das Bestimmtheitsmaß und der Residualplot
Durch Definition geeigneter Zufallsvariablen (Regressionswert und Residuum) bei einer Regressionsanalyse wird man auf die sogenannte Varianzzerlegung geführt. Sie erlaubt es durch eine einzige Kennzahl (das Bestimmtheitsmaß) zu beurteilen, wie gut die Messdaten durch die Regressionsgerade approximiert werden. Das Diagramm, das die Güte der Approximation am Besten ausdrücken kann, ist der Residualplot.
Einordnung des Artikels
- Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
- Statistik
- Demonstration zur Methode der kleinsten Quadrate und der Eigenschaften der Regressionsgerade
- Regressionsanalyse: Die Varianzzerlegung, das Bestimmtheitsmaß und der Residualplot
- Statistik
- Wahrscheinlichkeitsrechnung
Voraussetzungen: Die Beispiele aus Demonstration zur Methode der kleinsten Quadrate und der Eigenschaften der Regressionsgerade werden hier weitergeführt, aber nicht nochmal erläutert.
Quelltexte (in der Programmiersprache R) zu den gezeigten Berechnungen und Plots finden sich in Lineare Regression mit Hilfe von lm() und Funktionen zum Extrahieren von Modelleigenschaften.
Einführung
In Demonstration zur Methode der kleinsten Quadrate und der Eigenschaften der Regressionsgerade wurde für einfache Testdaten die Methode der kleinsten Quadrate vorgestellt, mit der eine Regressionsgerade berechnet werden kann, die die Testdaten "möglichst gut" approximiert. Hier wird möglichst gut in Anführungsstrichen geschrieben, weil nicht diskutiert wurde, wie man die Approximation beurteilen soll. Die Abbildungen, die dort gezeigt wurden, liefern zwar einen sehr guten visuellen Eindruck dafür, bei einer tatsächlichen Auswertung von Daten möchte man aber eine möglichst einfach zu berechnende und zugleich aussagekräftige Kennzahl besitzen, die die "Güte der Approximation" beurteilt.
Die einzige Größe, die bisher zur Verfügung steht ist der Korrelationskoeffizient. Im Folgenden wird die Varianz der Messdaten näher untersucht, was auf die Begriffe Residuum, Regressionswert und Varianzzerlegung führt. Damit lässt sich ein Bestimmtheitsmaß definieren, das eine besser geeignete Kennzahl darstellt als der Regressionskoeffizient.
Mit dem Residualplot wird diejenige Abbildung bezeichnet, die besonders treffend die "Güte der Approximation" der Messdaten durch die Regressionsgerade auszudrücken vermag. Im Residualplot wird die Regressionsgerade wieder aus den Messdaten herausgerechnet, so dass lediglich ihre Streuung um die Regressionsgerade sichtbar ist.
Bevor die zuletzt genannten Größen eingeführt und erläutert werden, werden nochmal kurz die Testdaten aus Demonstration zur Methode der kleinsten Quadrate und der Eigenschaften der Regressionsgerade gezeigt. Es handelt sich um zweimal 20 Paare von Messpunkten (xi, yi), die unterschiedlich stark korreliert sind.
Die Testdaten
In Demonstration zur Methode der kleinsten Quadrate und der Eigenschaften der Regressionsgerade wurden zwei Sätze von Testdaten (xi, yi), i = 1, ..., n mit n = 20 diskutiert:
- Stark korrelierte Testdaten mit einem Korrelationskoeffizienten ρXY, der nur um etwa 4/1000 von 1 abweicht.
- Schwach korrelierte Testdaten mit einem Korrelationskoeffizienten von etwa 2/3; bei diesem ρXY ist es bereits fraglich, ob man noch einen linearen Zusammenhang zwischen X und Y vermuten soll.
Die Testdaten mit ihren wichtigsten Eigenschaften sind in den Abbildungen 1 bis 6 nochmals dargestellt; in Klammern sind die Nummern der Abbildungen im zitierten Artikel angegeben):
1. Die stark korrelierten Testdaten mit ρXY ≈ 0.996.
- Abbildung 1: Tabelle der Testdaten und ihre wichtigsten Eigenschaften (Abbildung 1).
- Abbildung 2: Die Regressionsgerade zu den Testdaten, wobei zusätzlich die Projektionen der Messpunkte auf die Regressionsgerade und die Abweichungen der Messpunkte von der Regressionsgerade eingetragen sind (Abbildung 6).
- Abbildung 3: Die Fehlerfunktion Q(a, b) zu den Testdaten (Abbildung 8 ).
2. Die schwach korrelierten Testdaten mit ρXY ≈ 0.673.
- Abbildung 4: Tabelle der Testdaten und ihre wichtigsten Eigenschaften (Abbildung 9).
- Abbildung 5: Die Regressionsgerade zu den Testdaten, wobei zusätzlich die Projektionen der Messpunkte auf die Regressionsgerade und die Abweichungen der Messpunkte von der Regressionsgerade eingetragen sind (Abbildung 13).
- Abbildung 6: Die Fehlerfunktion Q(a, b) zu den Testdaten (Abbildung 15).
Der Regressionswert, das Residuum und die Varianzzerlegung
Definition von Regressionswert und Residuum
Vergleicht man oben die beiden Abbildungen 2 und 5 und die Standardabweichungen σ(Y) in den Abbildungen 1 und 4 (jeweils Gleichung (4)), so fällt sofort folgender Widerspruch auf: Die Standardabweichungen sind laut der Auswertung nicht so drastisch verschieden wie es die roten Balken in den Abbildungen suggerieren.
Man kann den Widerspruch aber schnell auflösen: Die roten Balken beschreiben nicht die Zufallsvariable Y, sondern die deren Abweichungen von der Regressionsgerade. Dass die Zufallsvariable Y streut, liegt zum Teil daran, dass die x-Werte aus einem großen Bereich ausgewählt wurden (hier von 1 bis 20). Und da X und Y korreliert sind, müssen die y-Werte streuen (hier im Bereich etwa von 2 bis 40, da in erster Näherung Y = 2·X). Dagegen wird nur ein Teil der Standardabweichung der y-Werte dadurch erzeugt, dass sie um die Regressionsgerade streuen.
Möchte man also die Standardabweichung (oder die Varianz) von Y besser verstehen, ist es naheliegend zwei Zufallsvariablen einzuführen:
- Die Projektion der y-Werte auf die Regressionsgerade (und zwar die Projektion längs der y-Richtung); diese Zufallsvariable wird als der Regressionswert bezeichnet. In Abbildung 2 und 5 sind dies die blauen Punkte.
- Die Differenzen zwischen den y-Werten und den Regressionswerten, also die roten Balken in den genannten Abbildungen. Diese Zufallsvariable wird als das Residuum (= Rest) bezeichnet.
In Abbildung 7 zeigen die Gleichungen (1) und (2) wie der Regressionswert W und das Residuum mit Hilfe der Zufallsvariablen X und Y und den Regressionskoeffizienten a0 und b0 definiert wird.
Die Erwartungswerte von Regressionswert W und Residuum U stimmen mit E(Y) beziehungsweise 0 überein (der Schwerpunkt der Messpunkte liegt auf der Regressionsgerade, siehe Gleichung (3) und (4) in Abbildung 7). Man könnte dies auch "negativ" formulieren: Wird der Regressionswert nicht mit den Regressionskoeffizienten a0 und b0, sondern mit beliebigen anderen Koeffizienten a und b definiert, dann ist der Erwartungswert des Residuums nicht gleich null.
Die Unkorreliertheit von Regressionswert und Residuum
Um die Varianz von Y = W + U auf die Varianzen von Regressionswert W und Residuum U zurückzuführen, benötigt man die Formel
Var(Y) = Var(W) + Var(U) + 2·cov(W, U).
Daher wird zunächst die Kovarianz cov(W, U) berechnet. In Gleichung (5) in Abbildung 7 ist der Ansatz zu sehen: Man setzt die Definitionen der Zufallsvariablen W und U ein und verwendet die Linearität der Kovarianz. Nach einigen Umformungen und Einsetzen des Regressionskoeffizienten a0 erhält man, dass die Kovarianz cov(W, U) gleich null ist, die Zufallsvariablen W und U somit unkorreliert sind (siehe Gleichung (7) in Abbildung 7). Aber damit ist gezeigt, dass
Var(Y) = Var(W) + Var(U).
Die Varianzzerlegung
Mit der letzten Gleichung ist es somit gelungen, die Zufallsvariable Y als Summe von zwei unkorrelierten Zufallsvariablen, nämlich den Regressionswert W und das Residuum U, darzustellen:
Y = W + U mit cov(W, U) = 0 und daher Var(Y) = Var(W) + Var(U).
Abbildung 8 zeigt die Herleitung, wie die beiden Summanden Var(W) und Var(U) mit Hilfe von Var(Y) und dem Korrelationskoeffizienten ρXY augedrückt werden kann, siehe Gleichung (6); in Gleichung (7) werden die Standardabweichungen berechnet.
Die Bedeutung der Varianzen beziehungsweise Standardabweichungen sollte klar sein:
- Dadurch dass die x-Werte streuen und die Zufallsvariablen X und Y korreliert sind, müssen auch die y-Werte streuen. Wie stark die Projektionen auf die Regressionsgerade streuen wird durch Var(W) beziehungsweise σ(W) wiedergegeben. Die Varianz Var(W) wird daher auch als die vom Regressionsmodell erklärten Abweichungen bezeichnet (auch Sum of Squares Explained, abgekürzt SQE).
- Die verbleibenden Abweichungen Var(U) können durch das Regressionsmodell nicht erklärt werden; man bezeichnet sie als die Reststreuung (auch Sum of Squares Residuals, kurz SQR).
Damit lassen sich die beiden Grenzfälle diskutieren, die man mit Hilfe des Korrelationskoeffizienten charakterisieren kann:
- Die Messdaten sind unkorreliert: ρXY → 0. Die Regressionsgerade ist eine Konstante, somit ist die Varianz der Regressionswerte gleich 0. Die Reststreuung Var(U) stimmt mit der Gesamtstreuung Var(Y) überein.
- Die Messdaten sind ideal korreliert oder anti-korreliert: |ρXY| → 1. Jetzt verschwindet die Reststreuung und Var(W) = Var(Y).
Die Grenzfälle sind nochmals in Abbildung 9 dargestellt.
Das Bestimmtheitsmaß
Die Varianzzerlegung erlaubt es jetzt eine einfache Kennzahl zu definieren, die die Güte der Approximation der Messdaten durch die Regressionsgerade beschreibt: man teilt die Varianz der Regressionswerte Var(W) durch die Gesamtstreuung Var(Y), siehe Gleichung (1) in Abbildung 10. Der Quotient gibt den Bruchteil der durch das Regressionsmodell erklärten Streuung von der Gesamtstreuung an. Diese Größe wird als das Bestimmtheitsmaß der Zufallsvariablen X und Y BXYbezeichnet.
Aufgrund der oben gefundenen Formeln für die Varianzzerlegung kann das Bestimmtheitsmaß auf verschiedene Weisen ausgedrückt werden, siehe Gleichung (2) in Abbildung 10.
Auswertung der Testdaten
Der Residualplot
Die Regressionsanalyse wird meist dann eingesetzt, wenn ein linearer Zusammenhang zwischen zwei Größen X und Y vermutet beziehungsweise nachgewiesen werden soll. Dabei hat oft die Proportionalitätskonstante in
Y = aX + b,
was (im Idealfall) zugleich die Steigung der Regressionsgerade ist
a = Δy / Δx,
eine inhaltliche Bedeutung und die Auswertung dient dazu, ihren Wert zu bestimmen. Möchte man dies in einem Diagramm prägnant ausdrücken, wird man die Messdaten und die Regressionsgerade (wie in Abbildung 2 und 5) oder sogar nur die Regressionsgerade darstellen.
Ist man dagegen an einem Diagramm interessiert, das besonders treffend ausdrückt, wie sehr die Messpunkte um die Regressionsgerade streuen, reicht es das Residuum U gegen die x-Werte aufzutragen. Das entsprechende Diagramm wird als Residualplot bezeichnet.
Die Abbildungen 12 und 13 zeigen den Residualplot für die stark beziehungsweise schwach korrelierten Messdaten. Dass die Abbildungen auf den ersten Blick identisch sind, liegt daran wie sie erzeugt wurden: Man ist von Messpunkten ausgegangen, die exakt auf einer Gerade liegen, anschließend wurden die y-Koordinaten mit Hilfe eine Zufallsgenerators unterschiedlich stark variiert. Da dabei der Zufallsgenerator identisch initialisiert wurde, scheinen die Residualplots übereinzustimmen; sie besitzen aber unterschiedliche Streuungen, die man an der Skalierung der y-Achse erkennen kann (der exakte Wert ist in der Bildüberschrift angegeben).