Demonstration zur Methode der kleinsten Quadrate und der Eigenschaften der Regressionsgerade
An zwei konkreten Beispielen wird gezeigt, wie aus stark beziehungsweise schwach korrelierten Messdaten die Regressionsgerade berechnet wird und wie man ihre Eigenschaften veranschaulichen kann. Herleitungen der Formeln zur Berechnung der Regressionskoeffizienten (Methode der kleinsten Quadrate) werden hier nicht gegeben; auch die Quelltexte zur den Berechnungen und Diagrammen werden hier nicht gezeigt.
- Einordnung des Artikels
- Einführung
- Erzeugen der Testdaten
- Auswertung der Zufallsvariablen X und Y
- Der Zusammenhang zwischen den Zufallsvariablen X und Y
- Die Methode der kleinsten Quadrate und die Regressionsgerade
- Die Methode der kleinsten Quadrate
- Auswertung der Testdaten
- Veranschaulichung der Kovarianz
- Veranschaulichung der Fehlerfunktion Q(a, b)
- Beispiel für schwach korrelierte Messdaten
- Die Testdaten
- Eigenschaften der Zufallsvariablen X und Y
- Die Regressionsgerade
- Die Fehlerfunktion Q(a, b)
Einordnung des Artikels
- Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
- Statistik
- Demonstration zur Methode der kleinsten Quadrate und der Eigenschaften der Regressionsgerade
- Statistik
- Wahrscheinlichkeitsrechnung
Voraussetzungen:
- Eigenschaften von Zufallsvariablen wie Erwartungswert, Varianz, Standardabweichung, Kovarianz, Korrelationskoeffizient.
- Da hier keine Herleitungen enthalten sind, ist ein gewisses Vorverständnis der Regressionsanalyse nötig.
Fortgeführt werden die Demonstrationen zur Regression in Regressionsanalyse: Die Varianzzerlegung, das Bestimmtheitsmaß und der Residualplot.
Quelltexte (in der Programmiersprache R) zu den gezeigten Berechnungen und Plots finden sich in Lineare Regression mit Hilfe von lm() und Funktionen zum Extrahieren von Modelleigenschaften.
Einführung
Eines der wichtigsten Hilfsmittel der Statistik ist die sogenannte Regressionsanalyse. Sie kommt zum Einsatz, wenn man zwischen zwei Größen X und Y einen linearen Zusammenhang vermutet, also eine Beziehung der Art Y = aX + b mit Konstanten a und b. Mit Hilfe der Methode der kleinsten Quadrate kann man dann zu Messpunkten (xi, yi) diejenige Gerade y = ax + b finden, die am Besten die Messpunkte approximiert (wobei man noch genauer festlegen muss, was unter "am Besten" eigentlich zu verstehen ist.)
Im Folgenden wird an zwei Beispielen demonstriert, welche Schritte bei der Regressionsanalyse auszuführen sind. Die Erklärungen beschränken sich darauf, die im Zusammenhang mit Regressionsanalyse stehenden Größen zu veranschaulichen. Es werden keine Begründungen oder Herleitungen für die zugehörigen Formeln gegeben. Ebenso werden hier keine Quelltexte gezeigt, wie man die Berechnungen von einem Programm ausführen lässt.
Es werden zwei Beispiele demonstriert, um einmal die Regressionsanalyse für stark korrelierte Testdaten durchzuspielen und einmal für schwach korrelierte Testdaten; das zweite Beispiel befindet sich an der Grenze, wo es fragwürdig ist, ob man einen linearen Zusammenhang zwischen den zu untersuchenden Größen annehmen soll.
Erzeugen der Testdaten
In Abbildung 1 oben soll verdeutlicht werden, wie die Testdaten erzeugt werden. Dazu benötigt man ein Paar von Zufallsvariablen X und Y, für die untersucht wird, ob ein linearer Zusammenhang besteht. Salopp gesagt erzeugt man die Testdaten, indem man von zwei Zufallsvariablen mit einem linearen Zusammenhang Y = m·X ausgeht und anschließend die Zufallsvariable Y durch einen Zufallsprozess leicht abändert. Genauer:
- Ausgangspunkt ist eine Zufallsvariable X, die hier die Werte 1, 2, ..., 20 annehmen kann (siehe jeweils die erste Zeile in den Tabellen in Abbildung 1).
- Zur Zufallsvariable X wird die Zufallsvariable m·X definiert, hier mit m = 2 (siehe zweite Zeile).
- Die Zufallsvariable Y entsteht dann, indem zu 2·X ein Wert ε addiert wird, der zufällig aus einem Intervall [-a; a] ausgewählt wird; dabei wird eine Gleichverteilung der Werte im Intervall [-a; a] angenommen.
- Über die Größe von a beim Auswürfeln der Werte von ε kann man somit die Streuung der Werte von Y = 2·X + ε steuern.
In der jeweils dritten Zeile der Tabelle in Abbildung 1 sind die Werte von Y zu sehen, die für die Testdaten mit hohem Korrelationskoeffizienten verwendet werden; die Testdaten mit kleiner Korrelation werden später gezeigt (siehe Abbildung 9) und diskutiert. Die Auswertung der Zufallsvariablen X und Y in Abbildung 1 wird im nächsten Abschnitt erläutert.
Abbildung 2 zeigt:
- Links: Die Zufallsvariable 2·X gegen X aufgetragen; die Werte liegen genau auf der Geraden mit Steigung m = 2.
- Rechts: Die Zufallsvariable Y = 2·X + ε gegen X aufgetragen. Blau eingezeichnet ist nochmals die Gerade y = 2x und rot die Abweichungen ε. Es ist klar, dass es nur Zufall wäre, wenn die Gerade y = 2x zugleich die Regressionsgerade ist, aber die beiden sollten nicht weit voneinander abweichen, da die Werte von ε nur wenig um 0 streuen.
Die Zufallsvariable ε kann in der Programmiersprache R mit Hilfe der Funktion jitter() erzeugt werden und die Angaben factor und amount in Abbildung 2 dokumentieren, wie jitter() eingesetzt wurde.
Auswertung der Zufallsvariablen X und Y
Abbildung 1 zeigt unter den Tabellen die Berechnung der wichtigsten Kenngrößen der Zufallsvariablen X und Y. Man erkennt:
- Da Y nur wenig von 2X abweicht, sind der Erwartungswert E (Y) und die Standardabweichung σ (Y) in etwa doppelt so groß wie E (X) und σ (X).
- Die Varianz der Zufallsvariablen wird hier durch Var(X) = E (X2) - (E (X))2 berechnet, wobei nicht die empirische Varianz entsteht.
Aussagekräftiger als die Zahlen sind vermutlich die Diagramme in Abbildung 3, in denen nochmals die Messpunkte sowie die Erwartungswerte und Standardabweichungen eingetragen sind.
Der Zusammenhang zwischen den Zufallsvariablen X und Y
Die stochastischen Größen, die den Zusammenhang zwischen zwei Zufallsvariablen X und Y beschreiben, sind die Kovarianz cov(X, Y) und der Korrelationskoeffizient ρXY. Die Formeln und ihre Werte für die Testdaten sind in Abbildung 4 angegeben.
Der absolute Wert der Kovarianz ist nur schwer zu interpretieren, am Korrelationskoeffizienten erkennt man aber, dass zwischen den Zufallsvariablen X und Y nahezu ein linearer Zusammenhang besteht.
Die Methode der kleinsten Quadrate und die Regressionsgerade
Die Methode der kleinsten Quadrate
Mit der Methode der kleinsten Quadrate kann diejenige Gerade bestimmt werden, die "am Besten" die lineare Abhängigkeit zwischen den Zufallsvariablen X und Y wiedergibt. Mit "am Besten" ist gemeint, dass aus der Menge aller möglichen Geraden diejenige Gerade ausgewählt wird, für die die Summe der Abweichungen der Messpunkte von der Geraden minimal wird.
Die letzte Aussage hört sich zwar sehr plausibel an, aber man muss konkretisieren, wie die "Summe der Abweichungen" berechnet wird. Dazu werden die Abstände der Messpunkte in y-Richtung von der Geraden quadriert und addiert. Auf diese Weise entsteht zu einer gegebenen Gerade der Form
y = ax + b
eine Fehlerfunktion Q(a, b); ihre Berechnung ist in Gleichung (1) in Abbildung 5 gezeigt. (Die Bezeichnung Q der Fehlerfunktion soll daran erinnern, dass die Fehler quadratisch in die Berechnung eingehen.)
Die Regressionsgerade ist dann diejenige Gerade, für die die Fehlerfunktion Q(a, b) minimal wird, siehe Gleichung (3) in Abbildung 5. Die Berechnung der Regressionskoeffizienten a0 (Steigung) und b0 (y-Abschnitt) erfolgt dann dadurch, dass man die partiellen Ableitungen der Fehlerfunktion nach a beziehungsweise b bildet und gleich 0 setzt, siehe Gleichung (2) in Abbildung 5. Der schwierige Teil der Herleitung – der hier nicht gezeigt wird – ist die Berechnung der Regressionskoeffizienten aus dem Ansatz (2). Die Ergebnisse sind in Gleichung (4) und (5) in Abbildung 5 gezeigt:
- Die Steigung a0 berechnet sich aus dem Quotienten der Kovarianz cov(X, Y) und der Varianz Var(X).
- Der y-Abschnitt b0 kann dann leicht aus der Steigung berechnet werden, da der Schwerpunkt der Messpunkte (E(X), E(Y)) auf der Regressionsgeraden liegen muss.
Den Term für die Steigung a0 kann man auch leicht "erraten", indem man von Größen X und Y ausgeht, die Einheiten besitzen: Da die Steigung der Regressionsgerade durch Δy / Δx berechnet wird, muss a0 die Einheit von Y/X besitzen. Und da die Steigung ein Maß für die Abhängigkeit von X und Y ist, muss sie aus der Kovarianz berechnet werden. Diese hat aber die Einheit von X·Y. Um daraus die Einheit von Y/X zu erhalten, muss man durch eine Größe teilen, in der X quadratisch vorkommt. Dies kann nur die Varianz, der Erwartungswert von X2 oder das Quadrat des Erwartungswertes von X sein. Letztere beide kann man aber leicht ausschließen, womit man den Term für a0 in Gleichung (4) erhält. (Dazu geht man von dem Grenzfall aus, in dem X lediglich einen Wert annimmt, Y aber mehrere Wert. Dann besitzt die Regressionsgerade eine unendlich große Steigung und dazu muss im Nenner von Gleichung (4) in Abbildung 5 ein Term stehen, der in diesem Fall gleich 0 ist.)
Auswertung der Testdaten
Werden die Testdaten in die Formeln aus Abbildung 5 eingesetzt, erhält man die Regressionskoeffizienten sowie die Gleichung der Regressionsgerade, siehe Gleichung (6) und (7) in Abbildung 5.
Abbildung 6 zeigt dann die Regressionsgerade für die Testdaten:
- Rot als Punkte eingetragen sind die 20 Messpunkte (xi, yi).
- Zusätzlich eingetragen sind der Schwerpunkt (schwarz) und die Erwartungswerte von X und Y (grün und türkis).
- Die Regressionsgerade ist blau eingezeichnet.
- Die Abstände, deren Quadrate zur Fehlerfunktion Q(a, b) summiert werden, sind als rote Balken eingetragen; Abstand heißt hier, dass der Abstand eines Messpunktes von der Regressionsgeraden in y-Richtung berechnet wird.
- Die Projektionen der Messpunkte auf die Regressionsgerade (Projektion in y-Richtung) sind als blaue Punkte eingetragen. Sie werden als Regressionswerte bezeichnet und erlauben eine bessere Charakterisierung der "Güte der Approximation" der Messpunkte durch die Regressionsgerade, siehe nächster Abschnitt.
Veranschaulichung der Kovarianz
Die Varianzen von X und Y sind leicht verständlich; die Standardabweichungen waren bereits in Abbildung 3 rechts dargestellt. Zentrale Bedeutung für den Zusammenhang zwischen den Zufallsvariablen X und Y hat aber die Kovarianz cov(X,Y). Ihr Zahlenwert für die Testdaten wurde in Abbildung 4 angegeben; er ist aber nicht leicht zu interpretieren.
Um Gleichung (1) in Abbildung 4 (Definition der Kovarianz) besser zu verstehen, soll Abbildung 7 helfen:
- Auf der linken Seite sind nochmals die Messpunkte (xi, yi) und die Regressionsgerade gezeigt. Zusätzlich eingetragen sind der Schwerpunkt mit Koordinaten (μX, μY) und die Geraden durch den Schwerpunkt parallel zu den Koordinatenachsen (wie schon in Abbildung 6).
- Den Schwerpunkt und die Geraden x = μX und y = μY kann man sich als Ursprung und Achsen eines neuen Koordinatensystems vorstellen, durch das 4 Quadranten definiert werden.
- Auffällig ist, dass alle Messpunkte (xi, yi) im ersten und dritten Quadranten liegen. Dies ist keine Notwendigkeit, sondern dadurch zu erklären, dass die Messpunkte sehr stark korreliert sind.
- Bei sehr stark anti-korrelierten Messpunkten würden alle oder nahezu alle Messpunkte im zweiten und vierten Quadranten liegen, bei unkorrelierten Messpunkten sind sie etwa gleichmäßig über die vier Quadranten verteilt.
- Liegt ein Messpunkt (xi, yi) im ersten Quadranten, dann sind im Produkt (xi - μX)·(yi - μY) beide Faktoren positiv und somit ist das Produkt positiv. Liegt ein Messpunkt im dritten Quadranten, so sind beide Faktoren negativ und das Produkt ist ebenfalls positiv.
- Aber das heißt, das bei stark korrelierten Messpunkten alle (oder fast alle) Beiträge zur Kovarianz (im Erwartungswert von Gleichung (1) in Abbildung 4) positiv sind. Umgekehrt sind bei anti-korrelierten Messpunkten fast alle Beiträge zur Kovarianz negativ. Und bei unkorrelierten Messpunkten gibt es etwa gleich viele positive wie negative Beiträge.
In Abbildung 7 rechts sind jetzt zu den n = 20 Messpunkten die Beiträge zur Kovarianz dargestellt. Man erkennt, dass hier alle positiv sind und diejenigen Messpunkte die größten Beiträge liefern, die am Weitesten vom Schwerpunkt entfernt sind. (Allerdings tragen diese Messpunkte auch den größten Anteil zur Varianz bei, so dass erst die Normierung des Korrelationskoeffizienten durch die Standardabweichungen (siehe Gleichung (3) in Abbildung 4) den Korrelationskoeffizienten nahe bei 1 erzeugt.)
Weiter unten werden dann Testdaten mit einer schwachen Korrelation zwischen X und Y diskutiert, dann wird es auch negative Beiträge zur Kovarianz geben (siehe Abbildung 14).
Aufgabe: Berechnen Sie aus den Koordinaten des ersten Messpunktes seinen Beitrag zur Kovarianz und erklären Sie, wie man aus Abbildung 7 rechts den Wert der Kovarianz cov(X, Y) erhält.
Veranschaulichung der Fehlerfunktion Q(a, b)
Die Berechnung der Fehlerfunktion Q(a, b) wurde in Gleichung (1) in Abbildung 5 gezeigt: In den Argumenten von Q(a, b) stehen eine beliebige Steigung a und ein beliebiger y-Abschnitt b; es werden die quadrierten Abstände der Messpunkte von der mit a und b gebildeten Gerade y = ax + b berechnet und aufaddiert, wobei Abstand hier als Abstand in y-Richtung zu verstehen ist.
Die Schreibweise Q(a, b) ist natürlich etwas verkürzt und kann irreführend sein. Denn eigentlich müsste man sämtliche Messpunkte (xi, yi), i = 1, ..., n in die Argumentliste von Q aufnehmen. Dass die Messpunkte nicht aufgeführt werden ist folgendermaßen zu verstehen: Die n Messpunkte werden einmal aufgenommen und für diese Messpunkte werden unterschiedliche Geraden y = ax + b gebildet und zu jeder Geraden wird ein Fehler Q(a, b) berechnet. Dadurch entsteht eine Funktion von zwei Variablen a und b.
In Abbildung 8 wird die Fehlerfunktion Q – als Funktion von a und b zu den Testdaten aus Abbildung 1 – dargestellt:
- Auf der x-Achse wird die Steigung a aufgetragen, auf der y-Achse der y-Abschnitt b.
- Auf der z-Achse werden die Funktionswerte Q(a, b) aufgetragen.
- Die Funktionswerte von Q können nur positiv sein, da in der Berechnung von Q stets Quadrate summiert werden.
- Die Menge der (a, b)-Werte, für die Q(a, b) dargestellt ist, wurde so gewählt, dass die Regressionskoeffizienten a0 und b0 etwa im Zentrum liegen. Die Regressionskoeffizienten sind als roter Punkt in der Ebene z = 0 zu erkennen; typisch für eine dreidimensionale Darstellung ist allerdings, dass man nicht eindeutig erkennen kann, dass (a0, b0) in dieser Ebene z = 0 liegt. Die Werte der Regressionskoeffizienten sind in der Bildüberschrift angegeben.
- Dass Q(a, b) ein Minimum besitzt, wenn man für a und b die Regressionskoeffizienten a0 und b0 einsetzt, ist in der Abbildung nicht eindeutig zu erkennen. Dies liegt daran, dass Q(a, b) hier nicht einem Paraboloid gleicht, wie man vielleicht bei einer quadratischen Funktion erwartet. Vielmehr gleicht Q(a, b) einer "Rinne", das heißt es gibt eine Richtung (etwa parallel zur b-Achse), in der sich die Funktionswerte kaum verändern und eine andere Richtung (etwa parallel zur a-Achse), in der die Funktionswerte rasch ansteigen, wenn man sich von (a0, b0) entfernt. Dieses Verhalten von Q(a, b) wird in einem eigenen Artikel genauer untersucht und wird zu einem besseren Verständnis der Fehlerfunktion und der Methode der kleinsten Quadrate führen. (Man sollte das Aussehen der Funktion Q(a, b) als "Rinne" aber nicht überbewerten: je nachdem wie die a- und b-Achse skaliert werden, erhält man eine "Rinne" oder ein Paraboloid.)
- Der Funktionswert im Minimum, also Q(a0, b0) ist zwar als schwarzes Histogramm eingetragen; da die Funktionswerte in b-Richtung sehr schnell ansteigen, ist der Funktionswert kaum zu erkennen. Er ist in der Bildüberschrift angegeben; sein Zusammenhang mit den Testdaten wird unten näher untersucht.
Der Minimalwert der Fehlerfunktion Q(a, b), der in Abbildung 8 eingezeichnet ist und der für die Regressionskoeffizienten (a0, b0) angenommen wird, führt zu einer weiteren Überlegung, die hier nur angedeutet und in einem weiteren Artikel ausführlich besprochen wird. Klar ist, dass der Minimalwert ein Maß für die Güte der Approximation der Messpunkte durch die Regressionsgerade sein muss, da der Minimalwert gleich null wird, wenn alle Messpunkte exakt auf der Regressionsgeraden liegen.
Projiziert man die Messpunkte (xi, yi) entlang der y-Richtung auf die Regressionsgerade, so entstehen Punkte (xi, wi) mit
wi = a0·xi + b0 für i = 1, ..., n.
Die wi werden als Regressionswerte bezeichnet. Die Differenzen ui, also
ui = yi - wi für i = 1, ..., n,
werden als das Residuum bezeichnet. In Abbildung 6 sind die Messpunkte als rote Punkte, die Regressionswerte als blaue Punkte und die Werte des Residuums als rote Balken eingetragen.
Der Minimalwert der Fehlerfunktion, also Q(a0, b0), kann jetzt mit Hilfe der Regressionswerte beziehungsweise dem Residuum geschrieben werden:
Q(a0, b0) = ∑ (yi - wi)2 = ∑ ui2.
Auf der rechten Seite werden lediglich die Quadrate der Längen der roten Balken in Abbildung 6 addiert und es ist nicht klar, warum dazu die Begriffe Regressionswert und Residuum eingeführt wurden. Da dieser Term nahezu wie die Berechnung einer Varianz aussieht (es fehlt nur der Vorfaktor 1/n), lohnt es sich die Zufallsvariablen
W = a0X + b0 (Regressionswert) und
U = Y - W (Residuum)
näher zu untersuchen – insbesondere ihre Varianzen. Dies führt zur sogenannten Varianzzerlegung. Sie erlaubt es, schärfer zu formulieren, wie gut die Regressionsgerade die Messpunkte approximiert; bisher war der Regressionskoeffizient ρXY das einzige Kriterium.
Diese Überlegung soll hier nicht weiter verfolgt werden, stattdessen sollen Kovarianz, Regressionskoeffizient, Regressionsgerade und Fehlerfunktion demonstriert werden, wenn Messdaten vorliegen, die nur schwach korreliert sind.
Beispiel für schwach korrelierte Messdaten
In den folgenden Abschnitten werden nochmals Testdaten für die Zufallsvariablen X und Y erzeugt, diesmal aber mit einer deutlich schwächeren Korrelation. Es werden wieder die Eigenschaften aus den Abbildungen 1 bis 8 gezeigt; die Erklärungen beschränken sich auf die Unterschiede zu den stark korrelierten Zufallsvariablen.
Die Testdaten
Die Testdaten werden wie oben aus Messpunkten erzeugt, die auf der Geraden y = 2x liegen. Vergleicht man Abbildung 9 und 10 mit Abbildung 1 und 2, so erkennt man die deutlich vergrößerten Abweichungen von der Gerade y = 2x. Der Zahlenwert der Standardabweichung σ(Y) hat sich nur wenig vergrößert, da ein Teil der Streuung einfach dadurch zustande kommt, dass schon die Werte 2X streuen.
Eigenschaften der Zufallsvariablen X und Y
In Abbildung 11 werden die Messpunkte (wie in Abbildung 3) ohne die Gerade y = 2x aufgetragen, die man mit der Regressionsgerade verwechseln könnte. Links ist der Schwerpunkt der Messpunkte eingetragen, rechts zusätzlich die Standardabweichungen der Zufallsvariablen X und Y.
In Abbildung 12 werden für die Testdaten die für die Regression wichtigen stochastischen Größen berechnet: Kovarianz, Korrelationskoeffizient, Regressionskoeffizienten. Kovarianz und Korrelationskoeffizient sind jetzt deutlich kleiner als bei den stark korrelierten Testdaten.
Die Regressionsgerade
Wie schon in Abbildung 11 zu erkennen war, sieht man jetzt in Abbildung 13 deutlich, dass es schwer fällt "nach Augenmaß" eine Regressionsgerade durch die Messpunkte zu legen. Die Methode der kleinsten Quadrate liefert zwar eine eindeutige Regressionsgerade (siehe Abbildung 12 unten), aber bei kleinen Verdrehungen der eingezeichneten Gerade um den Schwerpunkt entstehen Geraden, die ebenfalls die Messpunkte gut approximieren. Im Vergleich dazu hatte man in Abbildung 6 nur wenig Spielraum, um andere gute Approximationen zu erzeugen.
Fasst man den Schwerpunkt der Messpunkte wieder als Ursprung eines neuen Koordinatensystems auf, so zeigt der Vergleich von Abbildung 7 mit Abbildung 14:
- Bei den schwach korrelierten Messdaten liegen jetzt mehrere Punkte im zweiten und vierten Quadranten und nicht mehr alle Messpunkte im ersten und dritten Quadranten.
- Diese Messpunkte liefern einen negativen Beitrag zur Kovarianz
Die Fehlerfunktion Q(a, b)
Abbildung 15 zeigt die Fehlerfunktion Q(a, b); dabei ist der Bereich der a- und b-Werte wieder so gewählt, dass die Regressionskoeffizienten a0, b0 etwa in der Mitte liegen. Wie oben ist dreidimensionale Darstellung schwer zu interpretieren:
- Der Minimalwert ist zwar als schwarzes Histogramm eingetragen, möchte man den Funktionswert mit Abbildung 8 vergleichen, liest man ihn besser an der Beschriftung des Diagramms ab.
- Auch dass Q(a, b) bei den Regressionskoeffizienten a0, b0 ein Minimum hat, ist schwer zu erkennen, da es wieder eine Richtung gibt, in der die Funktionswerte nahezu konstant bleiben. Ob dies eine Eigenschaft der Fehlerfunktion Q(a, b) ist oder an der Skalierung der Achsen liegt, müsste man näher untersuchen.
- Die Skalierung der a- und b-Achsen ist deutlich verschieden von der in Abbildung 8, so dass ein direkter Vergleich der Abbildungen kaum möglich ist.