Eigenschaften von konvexen Funktionen und die Jensensche Ungleichung
Die Jensensche Ungleichung liefert eine Abschätzung zwischen der Anwendung einer Funktion auf eine konvexe Kombination beziehungsweise der konvexen Kombination der Funktionswerte. Je nachdem, ob die Funktion konvex oder konkav ist, erhält man ein anderes Ungleichheitszeichen zwischen den genannten Termen. Im Folgenden werden die zum Beweis der Jensenschen Ungleichung nötigen Eigenschaften von konvexen Funktionen erläutert, die Jensensche Ungleichung formuliert und bewiesen und einige Anwendungen gezeigt (Ungleichung zwischen dem geometrischen und dem arithmetischen Mittel, Anwendung der Jensenschen Ungleichung auf Erwartungswerte von Zufallsvariablen).
- Einordnung des Artikels
- Einführung
- Konvexe und konkave Funktionen
- Ein Beispiel zur Einführung
- Definitionen: konvexe Funktion, konkave Funktion
- Eigenschaften von konvexen Funktionen und Kriterien für Konvexität
- Beispiele und Gegenbeispiele
- Die Jensensche Ungleichung
- Aussage und Beweis der Jensenschen Ungleichung
- Die Beziehung zwischen dem geometrischen und dem arithmetischen Mittel
- Ein Beispiel für die Jensensche Ungleichung
Einordnung des Artikels
- Ausgewählte Kapitel der Mathematik (für Programmierer, Informatiker, Ingenieure und Naturwissenschaftler)
- Wahrscheinlichkeitsrechnung
- Eigenschaften von Zufallsvariablen
- Spezielle Kapitel der Analysis
- Eigenschaften von konvexen Funktionen und die Jensensche Ungleichung
- Wahrscheinlichkeitsrechnung
Da die Jensensche Ungleichung meist in der Wahrscheinlichkeitsrechnung angewendet wird, wird sie hier als Aussage über Zufallsvariablen formuliert. Daher sind Kenntnisse über Zufallsvariablen und speziell den Erwartungswert sehr hilfreich, aber nicht unbedingt erforderlich (da man die Jensensche Ungleichung auch als eine Aussage über konvexe Funktionen lesen kann).
Einführung
Der Erwartungswert einer reellwertigen Zufallsvariable X besitzt folgende Linearitätseigenschaft:
E(aX + b) = a E(X) + b, für reelle Zahlen a und b.
Man kann diese Gleichung auch lesen als:
E(l(X)) = l(E(X)) mit l(x) = ax + b,
das heißt für eine affine Funktion l(x) können Erwartungswertbildung und Anwendung der Funktion l(x) vertauscht werden; auf der linken Seite der Gleichung wird die Funktion l auf die Werte der Zufallsvariable X angewendet, rechts auf den Erwartungswert.
Es ist daher naheliegend zu fragen, welcher Zusammenhang zwischen
E(f(X)) und f(E(X))
besteht, wenn auf die Zufallsvariable eine beliebige reelle Funktion f angewendet wird.
Die Ungleichung von Jensen besagt, dass für konvexe und konkave Funktion zwischen den beiden Termen eine Ungleichung besteht:
E(f(X)) ≥ f(E(X)) für f konvex und
E(f(X)) ≤ f(E(X)) für f konkav.
Es werden im Folgenden einige Sätze über die Charakterisierung von konvexen Funktionen und die Jensensche Ungleichung angeführt. Für die Beweise wird dabei immer nur die Beweisidee kurz skizziert; die vollständigen Beweise sind in zahlreichen Lehrbüchern de Analysis enthalten.
Konvexe und konkave Funktionen
Ein Beispiel zur Einführung
Abbildung 1 versucht, in Kürze den Grundgedanken der Jensenschen Ungleichung und ihrer Anwendung auf die Abschätzung von Erwartungswerten darzustellen. Dazu ist links die Exponentialfunktion (konvex) und rechts der natürliche Logarithmus (konkav) aufgetragen (jeweils rot). Zusätzlich sind einige Punkte und Strecken eingezeichnet:
- Auf dem Graphen der jeweiligen Funktion werden zwei Punkte (x1, f(x1)) und (x2, f(x2)) vorgegeben (grün).
- Diese Punkte werden miteinander verbunden (grün); sie bilden eine Sehne.
- Man bildet den Mittelwert der beiden x-Werte, also xm = (x1 + x2) / 2 und trägt die Gerade x = xm ein (blau).
- Der Schnittpunkt der Sehne (grün) und der Gerade x = xm (blau) ist ebenfalls blau eingezeichnet. Seine y-Koordinate ym ist der Mittelwert der beiden Funktionswerte f(x1) und f(x2), also ym = (f(x1) + f(x2)) / 2.
- Zum Mittelwert der Funktionswerte ym wird die Gerade y = ym eingezeichnet (türkisfarben).
- Der Funktionswert von xm, also f(xm) wird berechnet eingetragen (rot) und die zugehörige Gerade y = f(xm) (orange).
Die entscheidenden Beobachtungen sind jetzt:
1. Bei der Exponentialfunktion liegt der Funktionswert f(xm) unterhalb des Mittelwertes der beiden Funktionswerte ym:
f(xm) ≤ ym (1)
2. Bei der Logarithmusfunktion ist die gegenseitige Lage genau umgekehrt: der Mittelwert der beiden Funktionswerte ym liegt oberhalb des Funktionswertes f(xm), also
f(xm) ≥ ym (2)
3. Man kann an der Zeichnung sofort nachvollziehen, dass diese Aussagen nicht nur für die speziellen, hier dargestellten x-Werte gelten, sondern für jedes Paar von x-Werten x1 und x2 (die x-Werte dürfen nur nicht übereinstimmen).
4. Die Exponentialfunktion ist linksgekrümmt, die Logarithmusfunktion ist rechtsgekrümmt.
Durch diese Beobachtungen drängen sofort die folgenden Fragen auf:
- Gelten die Ungleichungen (1) und (2) tatsächlich für alle Paare von x-Werten für die Exponential- beziehungsweise Logarithmusfunktion?
- Handelt es sich bei den Ungleichungen um spezielle Eigenschaften der Exponential- und Logarithmusfunktion oder gelten sie für eine größere Klasse von Funktionen?
- Ist tatsächlich das Krümmungsverhalten der Funktion dafür verantwortlich, welche Ungleichung gilt?
Abbildung 2 zeigt die Überlegung, warum für die Logarithmusfunktion die Ungleichung (2) gilt – und zwar für beliebige x1 und x2.
Aufgabe: Zeigen Sie die entsprechende Ungleichung für die Exponentialfunktion (2. Behauptung in Abbildung 2).
Abbildung 3 zeigt das arithmetische Mittel (rot) und das geometrische Mittel (grün) als Funktion der Variablen x1 und x2. Man erkennt, dass
- das geometrische Mittel kleiner oder gleich dem arithmetischen Mittel ist und
- auf der Gerade x1 = x2 beide Mittelwerte übereinstimmen.
Abbildung 3: Das arithmetische Mittel (rot) und das geometrische Mittel (rot) als Funktion der zwei Variablen x1 und x2. (img/06_Jensen/arithm_geom.svg){width=800}
Definitionen: konvexe Funktion, konkave Funktion
Im Folgenden werden lediglich Funktionen untersucht, die auf den reellen Zahlen R oder einem reellen Intervall I definiert sind. Der Begriff der Konvexität einer Funktion kann auch auf Funktionen von mehreren Variablen übertragen werden – dies geschieht hier nicht.
Oben in Abbildung 1 links ist die Exponentialfunktion exp(x) dargestellt – ein Paradebeispiel einer konvexen Funktion. Und das Diagramm veranschaulicht bereits die Definition der Konvexität:
- Man wählt zwei Punkte (grün), die auf dem Graphen der Funktion liegen (hier zu a = -1 und b = 1.5 mit den Funktionswerten exp(-1) ≈ 0.368 und exp(1.5) ≈ 4.482).
- Zu diesen beiden Punkten bildet man die Verbindungsstrecke (oder Sehne; ebenfalls grün).
- Man vergleicht für x mit a < x < b die Funktionswerte mit den y-Werten der Verbindungsstrecke.
- Dabei stellt man fest, dass die Punkte auf dem Graphen der Funktion, also (x, exp(x)), unterhalb der Verbindungsstrecke liegen.
Dagegen erkennt man bei der Logarithmusfunktion, das jetzt die Punkte (x, ln x) oberhalb der entsprechenden Verbindungsstrecke liegen. Eine derartige Funktion wird dann als konkav bezeichnet.
In Abbildung 4 wird die Definition einer konvexen beziehungsweise konkaven Funktion formuliert – unabhängig von speziellen Eigenschaften wie in Abbildung 1.
Bemerkungen:
1. Das Intervall I in obiger Definition kann sich auf einer oder auf beiden Seiten ins Unendliche erstrecken. Allerdings darf man anstelle des Intervalls I nicht etwa die Vereinigungsmenge zweier disjunkter Intervalle I1 ∪ I1 (mit I1 ∩ I1 = {}) als Definitionsbereich von f ansetzen. Denn jetzt liegen Punkte der Art (1 - λ)·a + λ·b womöglich nicht mehr im Definitionsbereich von f.
2. Einen einfachen, aber meist wenig hilfreichen Zusammenhang zwischen konvexen und konkaven Funktionen erhält man, indem man von der Funktion f zu -f übergeht. Denn es gilt:
Ist die Funktion f : I → R konvex, so ist die Funktion -f konkav.
Es ist klar, dass sich beim Übergang von f zu -f die gegenseitige Lage von
f((1 - λ)·a + λ·b) und (1 - λ)·f(a) + λ·f(b)
umkehrt und somit das Ungleichheitszeichen (in Gleichung (1) beziehungsweise (2) in Abbildung 4) umgedreht wird.
Die praktische Bedeutung dieser Aussage liegt vor allem darin, dass man Aussagen über konvexe Funktionen sofort auf konkave Funktionen übertragen kann und sie daher nicht doppelt formulieren muss. Wenn im folgenden Unterabschnitt Aussagen über konvexe Funktionen formuliert werden, ist dies immer so zu lesen, dass sie beim Übergang zu -f für konkave Funktionen gelten – ausdrücklich wird dies nicht mehr gesagt.
3. Ein Term wie
(1 - λ)·a + λ·b
zu zwei reellen Zahlen a, b und einem λ mit 0 ≤ λ ≤ 1 wird als konvexe Kombination von a und b (oder Konvexkombination von a und b) bezeichnet. Auch wenn man statt der reellen Zahlen a und b Vektoren einsetzt, spricht man noch von einer Konvexkombination; die Summe ergibt jetzt einen Vektor. Und anstelle von zwei Summanden kann man auch eine beliebige Anzahl von Summanden zulassen: Sind die n Vektoren v1, ..., vn und die Zahlen λ1, ..., λn mit
0 ≤ λ1 ≤ 1, für i = 1, ..., n mit λ1 + ... + λn = 1
gegeben, so nennt man
λ1·v1 + ... + λn·vn
eine konvexe Kombination der Vektoren vi, i = 1, ..., n. Man sieht daran, dass die Konvexkombination ein Spezialfall der Linearkombination ist.
♦ ♦ ♦
Vergleicht man die Definition mit den Darstellungen in Abbildung 1, so sind dort zwei Spezialfälle gezeigt: Für beide Funktionen (Exponential- und Logarithmusfunktion) wird eine Sehne eingezeichnet und deren Mittelpunkt bestimmt, also zu den Intervallgrenzen a und b wird λ = 1/2 gewählt und dafür die beiden Seiten von Gleichung (1) beziehungsweise (2) verglichen:
- Im Fall der konvexen Funktion exp(x) liegt der Funktionswert exp(a/2 + b/2) unterhalb des Mittelpunktes der Sehne,
- im Fall der konkaven Funktion ln x liegt der Funktionswert ln(a/2 + b/2) oberhalb des Mittelpunktes der Sehne.
Hat man erkannt, welcher Spezialfall in Abbildung 1 dargestellt ist, kann die Definition der Konvexität kurz gefasst werden:
Eine Funktion ist konvex, wenn der Graph stets unterhalb einer Verbindungsstrecke zweier Punkte auf dem Graphen liegt.
Eigenschaften von konvexen Funktionen und Kriterien für Konvexität
Nach dieser kurzen Erläuterung der Begriffe konvex und konkav an den Graphen in Abbildung 1, sind folgende Fragen naheliegend:
- Sind die Exponentialfunktion beziehungsweise die Logarithmusfunktion tatsächlich konvex beziehungsweise konkav? Bisher wurde diese Aussage lediglich behauptet und Abbildung 1 scheint dies zu bestätigen, ein echter Beweis liegt noch nicht vor.
- In Abbildung 2 wurde für die Logarithmusfunktion im Spezialfall λ = 1/2 tatsächlich nachgewiesen, dass die Ungleichung (2) aus obiger Definition in Abbildung 4 erfüllt ist. Selbst für diesen Spezialfall war die Rechnung sehr aufwendig. Gibt es etwa einfachere Kriterien als die Ungleichungen der Definition, um festzustellen, ob eine Funktion konvex (beziehungsweise konkav) ist?
- Gibt es derartige einfachere Kriterien vielleicht dann, wenn die zu untersuchende Funktion weitere Eigenschaften erfüllt?
- Kann man aus der Tatsache, dass eine Funktion konvex (beziehungsweise konkav) ist, weitere Eigenschaften der Funktion herleiten?
Die folgenden Abbildungen 5 bis 8 formulieren und demonstrieren die Sätze über konvexe Funktionen:
- Das für die Praxis wichtigste Kriterium erhält man für Funktionen, die zweimal differenzierbar sind. Denn dann kann man am Vorzeichen der zweiten Ableitung ablesen, ob eine Funktion konvex, konkav oder keines von beiden ist. Der weiter unten folgende Satz 3 formuliert das Kriterium.
- Eine Folgerung aus Satz 3 ist Satz 4; er beschreibt, welche Gestalt die Graphen konvexer Funktionen haben können.
- Satz 3 ergibt sich als einfache Folgerung aus einem Kriterium, das die erste Ableitung betrifft; diese Aussage wird in Satz 2 formuliert.
- Dieses Kriterium wiederum erhält man aus einer Aussage über Differenzenquotienten von konvexen Funktionen (Satz 1).
In Abbildung 5 wird Satz 1 formuliert und bewiesen. In Satz 1 wird nicht vorausgesetzt, dass die konvexe Funktion f differenzierbar ist und daher kann nur eine Aussage über Differenzenquotienten hergeleitet werden. Abbildung 6 veranschaulicht die Anordnung der Differenzenquotienten.
Abbildung 7 formuliert Satz 2, in dem zusätzlich vorausgesetzt wird, dass die konvexe Funktion f einmal differenzierbar ist. Jetzt kann man von den Differenzenquotienten aus Satz 1 zu den Ableitungen übergehen und erhält eine Aussage über die Monotonie der Ableitungsfunktion f'. Umgekehrt kann aus der Monotonie der Ableitung auf die Konvexität geschlossen werden.
Ist eine Funktion f zweimal differenzierbar, dann bedeutet die Monotonie der ersten Ableitung f' zugleich, dass die zweite Ableitung f nicht-negativ ist. Somit kann ein Zusammenhang zwischen der zweiten Ableitung und der Konvexität hergestellt werden (Satz 3, siehe Abbildung 8).
Funktionen mit nicht-negativer zweiter Ableitung, die auf einem Intervall definiert sind, haben ein spezielles Monotonieverhalten; dies wird in Satz 4 gezeigt.
Abbildung 8: Satz 3 stellt eine Zusammenhang zwischen der Konvexität einer Funktion f und dem Verhalten der zweiten Ableitung f'' her. Satz 4 macht eine Aussage über das Monotonieverhalten von Funktionen mit nicht-negativer zweiter Ableitung, die auf einem Intervall definiert sind. (img/06_Jensen/Satz_3_4.svg){width=600}
Satz 4 ist für die Anwendung von konvexen Funktionen f auf Zufallsvariablen X von großer Bedeutung. Denn es soll die Zufallsvariable Y = f(X) untersucht werden: Ist f eine streng monoton zunehmende oder abnehmende Funktion, so ist sie auch umkehrbar und aus einem Wert von Y kann eindeutig das Urbild rekonstruiert werden. Hat f dagegen ein Minimum, so können die Werte von Y ein oder zwei Urbilder haben. Beispiele dazu werden unten im Zusammenhang mit der Jensenschen Ungleichung gezeigt.
Aufgabe: Geben Sie ein Beispiel einer Funktion f an, die f(x) ≥ 0 erfüllt, aber als Definitionsbereich zwei disjunkte Intervalle besitzt und die ein anderes Monotonieverhalten hat als die Funktionen in Satz 4.
Beispiele und Gegenbeispiele
1. Die Exponentialfunktion f(x) = ex ist nach dem Kriterium aus Satz 3 konvex, da f(x) = ex > 0 für alle x. Dies gilt auch für g(x) = e-x, da g(x) = e-x > 0.
2. Die Logarithmusfunktion f(x) = ln x ist nach Satz 3 konkav, da f(x) = -1/x2 < 0.
3. Die Gauß-Funktion f(x) = exp(-x2) mit R als Definitionsbereich ist nur abschnittsweise konvex beziehungsweise konkav. Denn sie besitzt zwei Wendepunkte, an denen die zweite Ableitung f(x) das Vorzeichen wechselt.
Aufgabe: Bestimmen Sie die Wendepunkte der Funktion f(x) = exp(-x2) und geben Sie an, in welchen Intervallen f(x) konvex beziehungsweise konkav ist.
4. Polynome besitzen im Allgemeinen mehrere Wendepunkte und sind daher auf ganz R lediglich abschnittsweise konvex beziehungsweise konkav. Nur spezielle Polynome wie etwa x2 besitzen keinen Wendepunkt.
5. Das Polynom f(x) = x4 ist ein Spezialfall, den man näher betrachten sollte. Denn Satz 3 verführt zu einem Fehlschluss, den man jetzt klären kann. Oben wurde gesagt, dass eine Funktion konvex ist, wenn in
f((1 - λ)·a + λ·b) ≤ (1 - λ)·f(a) + λ·f(b)
das Ungleichheitszeichen steht und die Funktion f ist strikt konvex, wenn sogar die strikte Ungleichung gilt. Dies verführt dazu, Satz 3 folgendermaßen zu lesen:
"Eine Funktion ist konvex, wenn f(x) ≥ 0 und strikt konvex, wenn f(x) > 0."
So ist die Aussage aber falsch und f(x) = x4 ist das geeignete Gegenbeispiel. Denn für x = 0 ist die zweite Ableitung gleich null: f(0) = 0, aber f ist strikt konvex.
6. Geraden, also Funktionen der Art l(x) = ax + b mit reellen Zahlen a und b, sind sowohl konvex als auch konkav.
Die Jensensche Ungleichung
Aussage und Beweis der Jensenschen Ungleichung
Die Jensensche Ungleichung verallgemeinert die Definition der Konvexität
f((1 - λ)·a + λ·b) ≤ (1 - λ)·f(a) + λ·f(b),
indem die Konvexkombination nicht nur von zwei Werten aus dem Definitionsbereich der Funktion f, sondern von n Werten gebildet wird. Anstelle der beiden Gewichte λ und 1 - λ gibt es dann n nicht-negative Gewichte
λ1, λ2, ..., λn ≥ 0 mit λ1 + λ2 + ... + λn = 1.
Die Abschätzung (Satz 5), die für eine konvexe Funktion gilt, und ihr Beweis sind in Abbildung 9 gezeigt.
Die Relevanz der Jensenschen Ungleichung für die Wahrscheinlichkeitsrechnung kann man sofort erkennen, wenn man eine Zufallsvariable X betrachtet, die endlich viele Werte
x1, x2, ..., xn
mit den Wahrscheinlichkeiten
P(X = xi) = λi, i = 1, ..., n,
annehmen kann. Denn jetzt lassen sich die Terme in der Ungleichung (1) in Abbildung 9 als Erwartungswerte interpretieren und es gilt:
f(E(X)) ≤ E(f(X)) für f konvex.
Entsprechend gilt für konkave f:
f(E(X)) ≥ E(f(X)).
Die Beziehung zwischen dem geometrischen und dem arithmetischen Mittel
Im Beispiel zur Einführung (siehe Abbildung 1 und 2) wurde der Zusammenhang zwischen dem geometrischen und arithmetischen Mittel verwendet, um zu zeigen, wie die in Abbildung 1 gezeigten Punkte zueinander liegen; dazu wurde lediglich eine quadratische Gleichung umgeformt (siehe Beweis der zweiten Behauptung in Abbildung 2). Für den Beweis der Jensenschen Ungleichung wurde der Zusammenhang zwischen dem geometrischen und arithmetischen Mittel nicht verwendet. Es ist also kein Zirkelschluss, wenn die Jensensche Ungleichung zum Beweis für die Ungleichung zwischen dem geometrischen und dem arithmetischen Mittel eingesetzt wird. Dies geschieht jetzt sogar in einer allgemeineren Form als in Abbildung 2. Abbildung 10 formuliert und beweist den entsprechenden Satz 6.
Ein Beispiel für die Jensensche Ungleichung
Abbildung 11 zeigt links das Histogramm der Zufallsvariable X, die die Augenzahl beim Werfen eines Laplace-Würfels angibt. Rechts ist der natürliche Logarithmus dargestellt, eine auf dem gesamten Definitionsbereich konkave Funktion.
Abbildung 12 zeigt in der Wertetabelle die Zufallsvariable X sowie ihre Transformation ln X und die beiden Erwartungswerte aus der Jensenschen Ungleichung. Die Berechnung zeigt, dass die Jensensche Ungleichung (hier für eine konkave Funktion) erfüllt ist:
E(ln X) ≤ ln (E(X)).
Abbildung 13 versucht die Berechnung der Erwartungswerte zu veranschaulichen. Dazu sind die Logarithmusfunktion (blau) und die Werte der Zufallsvariable X (rot) eingetragen. Dort, wo die roten Geraden x = xi, i = 1, ..., 6, die Logarithmusfunktion schneiden, kann man auf der y-Achse den zugehörigen Wert y = ln xi ablesen (zur Erleichterung sind die Geraden y = ln xi türkisfarben eingetragen).
All diese Informationen sind im rechten Diagramm nochmals dargestellt; zusätzlich sind die drei Erwartungswerte als Geraden eingetragen:
- Der Erwartungswert E(X) = 3.5 als lotrechte Gerade (orange).
- Der transformierte Erwartungswert ln E(X) ≈ 1.253 als waagrechte Gerade (dunkelrot).
- Der Erwartungswert E(ln X) ≈ 1.097 (schwarz), also der Mittelwert der y-Werte der türkisfarbenen Geraden.
In Abbildung 14 werden sowohl die Zufallsvariable X (rot) als auch die Zufallsvariable ln X (türkisfarben) als Histogramm dargestellt
Aufgaben:
Gegeben sind die Zufallsvariable X = "Augenzahl beim Laplace-Würfel" und die konvexe Funktion
g(x) = exp(-x).
1. Berechnen Sie die beiden Erwartungswerte E(g(X)) und g(E(X)).
2. Erstellen Sie das zu Abbildung 14 analoge Diagramm.
3. Diskutieren Sie: welche Unterschiede bestehen, wenn die Zufallsvariable X mit einer konkaven Funktion beziehungsweise einer konvexen Funktion transformiert wird.