"Wir erinnern uns: Bei einer Dichtefunktion $f \\colon \\mathbb{R} \\to \\mathbb{R}$ für eine Verteilung $P$ einer reellen Zufallsvariable $X$ ist $P(X < c) = \\int_{-\\infty}^c f(x)dx$.\n",
"Wir erinnern uns: Bei einer Dichtefunktion $f \\colon \\mathbb{R} \\to [0,\\infty)$ für eine Verteilung $P$ einer reellen Zufallsvariable $X$ ist $P(X < c) = \\int_{-\\infty}^c f(x)dx$.\n",
"\n",
"\n",
"Wenn wir das auf zwei Dimensionen verallgemeinern wollen, also eine Zufallsvariable $(X,Y)$ mit Werten in $\\mathbb{R}^2$, dann ist $P(X < c, Y < d) = \\int_{-\\infty}^c \\int_{-\\infty}^d f(x,y)dx dy$.\n",
"Wenn wir das auf zwei Dimensionen verallgemeinern wollen, also eine Zufallsvariable $(X,Y)$ mit Werten in $\\mathbb{R}^2$, dann ist $P(X < c, Y < d) = \\int_{-\\infty}^c \\int_{-\\infty}^d f(x,y)dx dy$.\n",
"\n",
"\n",
"Daran sehen wir: die Dichtefunktion muss die Signatur $f \\colon \\mathbb{R}^2 \\to \\mathbb{R}$ haben. Sie kodiert für jeden möglichen Wert von $(X,Y)$ die Wahrscheinlichkeitsdichte.\n",
"Daran sehen wir: die Dichtefunktion muss die Signatur $f \\colon \\mathbb{R}^2 \\to [0,\\infty)$ haben. Sie kodiert für jeden möglichen Wert von $(X,Y)$ die Wahrscheinlichkeitsdichte.\n",
"\n",
"\n",
"Allgemeiner definiert eine Funktion $f \\colon \\mathbb{R}^n \\to \\mathbb{R}$ mit $\\int_{\\mathbb{R}^n} f(x)dx = 1$ ein Wahrscheinlichkeitsmaß $P$ mit $P(A) = \\int_A f(x)dx$ und man nennt $f$ eine Dichte für die Verteilung $P$."
"Allgemeiner definiert eine Funktion $f \\colon \\mathbb{R}^n \\to [0,\\infty)$ mit $\\int_{\\mathbb{R}^n} f(x)dx = 1$ ein Wahrscheinlichkeitsmaß $P$ mit $P(A) = \\int_A f(x)dx$ und man nennt $f$ eine Dichte für die Verteilung $P$."
]
]
},
},
{
{
...
@@ -181,7 +181,7 @@
...
@@ -181,7 +181,7 @@
"source": [
"source": [
"Wir sehen also, die Marginalverteilungen sehen exakt gleich aus - man kann die Korrelation nur in der gemeinsamen Verteilung sehen (da aber deutlich im zweidimensionalen Histogramm (wird auch Heatmap genannt) und im Konturplot (den Ellipsen)).\n",
"Wir sehen also, die Marginalverteilungen sehen exakt gleich aus - man kann die Korrelation nur in der gemeinsamen Verteilung sehen (da aber deutlich im zweidimensionalen Histogramm (wird auch Heatmap genannt) und im Konturplot (den Ellipsen)).\n",
"\n",
"\n",
"Die Kovarianzmatrix hat eine direkte geometrische Interpretation, denn jede positiv definite symmetrische Matrix $A$ definiert ein Skalarprodukt $\\langle v, w \\rangle_A := \\langle Av, w\\rangle = vAv^T$ und damit eine sogenannte quadratische Form $v \\mapsto \\langle v, v \\rangle_A$. Die Levelsets der quadratischen Form sind Ellipsen entlang der gleichen Achsen wie die Konturlinien der entsprechenden Normalverteilung.\n",
"Die Kovarianzmatrix hat eine direkte geometrische Interpretation, denn jede positiv definite symmetrische Matrix $A$ definiert ein Skalarprodukt $\\langle v, w \\rangle_A := \\langle Av, w\\rangle = (Av)^Tw = v^TA^Tw = v^TAw = \\langle v, Aw\\rangle$ und damit eine sogenannte quadratische Form $v \\mapsto \\langle v, v \\rangle_A$. Die Konturlinien (Levelsets) der quadratischen Form sind Ellipsen entlang der gleichen Achsen wie die Konturlinien der entsprechenden Normalverteilung.\n",
"\n",
"\n",
"In der Formel, die die Dichte der multivariaten Normalverteilung definiert, taucht für den Vektor $v = x - \\mu$ die Formel $v^T \\Sigma^{-1} v$ auf, das ist genau das Skalarprodukt, welches durch die Matrix $\\Sigma^{-1}$ definiert wird.\n",
"In der Formel, die die Dichte der multivariaten Normalverteilung definiert, taucht für den Vektor $v = x - \\mu$ die Formel $v^T \\Sigma^{-1} v$ auf, das ist genau das Skalarprodukt, welches durch die Matrix $\\Sigma^{-1}$ definiert wird.\n",
Wir erinnern uns: Bei einer Dichtefunktion $f \colon \mathbb{R} \to \mathbb{R}$ für eine Verteilung $P$ einer reellen Zufallsvariable $X$ ist $P(X < c) = \int_{-\infty}^c f(x)dx$.
Wir erinnern uns: Bei einer Dichtefunktion $f \colon \mathbb{R} \to [0,\infty)$ für eine Verteilung $P$ einer reellen Zufallsvariable $X$ ist $P(X < c) = \int_{-\infty}^c f(x)dx$.
Wenn wir das auf zwei Dimensionen verallgemeinern wollen, also eine Zufallsvariable $(X,Y)$ mit Werten in $\mathbb{R}^2$, dann ist $P(X < c, Y < d) = \int_{-\infty}^c \int_{-\infty}^d f(x,y)dx dy$.
Wenn wir das auf zwei Dimensionen verallgemeinern wollen, also eine Zufallsvariable $(X,Y)$ mit Werten in $\mathbb{R}^2$, dann ist $P(X < c, Y < d) = \int_{-\infty}^c \int_{-\infty}^d f(x,y)dx dy$.
Daran sehen wir: die Dichtefunktion muss die Signatur $f \colon \mathbb{R}^2 \to \mathbb{R}$ haben. Sie kodiert für jeden möglichen Wert von $(X,Y)$ die Wahrscheinlichkeitsdichte.
Daran sehen wir: die Dichtefunktion muss die Signatur $f \colon \mathbb{R}^2 \to [0,\infty)$ haben. Sie kodiert für jeden möglichen Wert von $(X,Y)$ die Wahrscheinlichkeitsdichte.
Allgemeiner definiert eine Funktion $f \colon \mathbb{R}^n \to \mathbb{R}$ mit $\int_{\mathbb{R}^n} f(x)dx = 1$ ein Wahrscheinlichkeitsmaß $P$ mit $P(A) = \int_A f(x)dx$ und man nennt $f$ eine Dichte für die Verteilung $P$.
Allgemeiner definiert eine Funktion $f \colon \mathbb{R}^n \to [0,\infty)$ mit $\int_{\mathbb{R}^n} f(x)dx = 1$ ein Wahrscheinlichkeitsmaß $P$ mit $P(A) = \int_A f(x)dx$ und man nennt $f$ eine Dichte für die Verteilung $P$.
Tipp: Lesen Sie nach, wie in Numpy *meshgrids* (und damit verbunden die Funktion mgrid) funktionieren. Hinweis: es ist eine Art explizites vorab-Broadcasting, damit dann arithmetische Operationen schneller vektorisiert laufen (probieren Sie es mit kleinen meshgrids selbst aus, eine Funktion in zwei Variablen, Z.B. $x^2+y^2$, auf einem meshgrid vektorisiert auszuwerten).
Tipp: Lesen Sie nach, wie in Numpy *meshgrids* (und damit verbunden die Funktion mgrid) funktionieren. Hinweis: es ist eine Art explizites vorab-Broadcasting, damit dann arithmetische Operationen schneller vektorisiert laufen (probieren Sie es mit kleinen meshgrids selbst aus, eine Funktion in zwei Variablen, Z.B. $x^2+y^2$, auf einem meshgrid vektorisiert auszuwerten).
Wir sehen also, die Marginalverteilungen sehen exakt gleich aus - man kann die Korrelation nur in der gemeinsamen Verteilung sehen (da aber deutlich im zweidimensionalen Histogramm (wird auch Heatmap genannt) und im Konturplot (den Ellipsen)).
Wir sehen also, die Marginalverteilungen sehen exakt gleich aus - man kann die Korrelation nur in der gemeinsamen Verteilung sehen (da aber deutlich im zweidimensionalen Histogramm (wird auch Heatmap genannt) und im Konturplot (den Ellipsen)).
Die Kovarianzmatrix hat eine direkte geometrische Interpretation, denn jede positiv definite symmetrische Matrix $A$ definiert ein Skalarprodukt $\langle v, w \rangle_A := \langle Av, w\rangle = vAv^T$ und damit eine sogenannte quadratische Form $v \mapsto \langle v, v \rangle_A$. Die Levelsets der quadratischen Form sind Ellipsen entlang der gleichen Achsen wie die Konturlinien der entsprechenden Normalverteilung.
Die Kovarianzmatrix hat eine direkte geometrische Interpretation, denn jede positiv definite symmetrische Matrix $A$ definiert ein Skalarprodukt $\langle v, w \rangle_A := \langle Av, w\rangle = (Av)^Tw = v^TA^Tw = v^TAw = \langle v, Aw\rangle$ und damit eine sogenannte quadratische Form $v \mapsto \langle v, v \rangle_A$. Die Konturlinien (Levelsets) der quadratischen Form sind Ellipsen entlang der gleichen Achsen wie die Konturlinien der entsprechenden Normalverteilung.
In der Formel, die die Dichte der multivariaten Normalverteilung definiert, taucht für den Vektor $v = x - \mu$ die Formel $v^T \Sigma^{-1} v$ auf, das ist genau das Skalarprodukt, welches durch die Matrix $\Sigma^{-1}$ definiert wird.
In der Formel, die die Dichte der multivariaten Normalverteilung definiert, taucht für den Vektor $v = x - \mu$ die Formel $v^T \Sigma^{-1} v$ auf, das ist genau das Skalarprodukt, welches durch die Matrix $\Sigma^{-1}$ definiert wird.
Man kann die Kovarianzmatrix als Drehstreckung interpretieren - sie kodiert genau, wie die Ellipse aus einem perfekten Kreis hervorgeht. Der Kreis entspricht der Identität (Einheitsmatrix) als Kovarianzmatrix. Wenn $\Sigma$ in die eine Richtung dreht, dreht $\Sigma^{-1}$ genau in die Gegenrichtung.
Man kann die Kovarianzmatrix als Drehstreckung interpretieren - sie kodiert genau, wie die Ellipse aus einem perfekten Kreis hervorgeht. Der Kreis entspricht der Identität (Einheitsmatrix) als Kovarianzmatrix. Wenn $\Sigma$ in die eine Richtung dreht, dreht $\Sigma^{-1}$ genau in die Gegenrichtung.
Sie können sich ja vorstellen, was aus dem gewöhnlichen Skalarprodukt wird, wenn man einen der beiden Vektoren vor dem Einsetzen einer Drehstreckung unterwirft.
Sie können sich ja vorstellen, was aus dem gewöhnlichen Skalarprodukt wird, wenn man einen der beiden Vektoren vor dem Einsetzen einer Drehstreckung unterwirft.
Um die Geometrie besser verstehen zu können, empfiehlt es sich mit bivariaten Normalverteilungen anzufangen, und dabei die Matrix $\Sigma$ langsam komplizierter zu machen (Vielfache einer Einheitsmatrix, Diagonalmatrizen mit verschiedenen Einträgen auf der Diagonalen, beliebige Matrizen). Eine beliebige Kovarianzmatrix $\Sigma$ kann stets durch einen orthogonalen Basiswechsel in Diagonalgestalt gebracht werden, d.h. durch eine Drehung des Raums lässt sich die Ellipse (die Konturlinie der Normalverteilung) achsenparallel machen. Durch Skalierung der Achsen lässt sich die Ellipse in einen Kreis verwandeln. So gesehen ist jede Normalverteilung eine Standardnormalverteilung, nur in anderen Koordinaten.
Um die Geometrie besser verstehen zu können, empfiehlt es sich mit bivariaten Normalverteilungen anzufangen, und dabei die Matrix $\Sigma$ langsam komplizierter zu machen (Vielfache einer Einheitsmatrix, Diagonalmatrizen mit verschiedenen Einträgen auf der Diagonalen, beliebige Matrizen). Eine beliebige Kovarianzmatrix $\Sigma$ kann stets durch einen orthogonalen Basiswechsel in Diagonalgestalt gebracht werden, d.h. durch eine Drehung des Raums lässt sich die Ellipse (die Konturlinie der Normalverteilung) achsenparallel machen. Durch Skalierung der Achsen lässt sich die Ellipse in einen Kreis verwandeln. So gesehen ist jede Normalverteilung eine Standardnormalverteilung, nur in anderen Koordinaten.
Die multivariate Normalverteilung mit Erwartungswert $\mu$ und Kovarianz $\Sigma$ ist die Verteilung maximaler Entropie unter allen Verteilungen mit diesem Erwartungswert und dieser Kovarianzmatrix und Träger ganz $\mathbb{R}^n$.
Die multivariate Normalverteilung mit Erwartungswert $\mu$ und Kovarianz $\Sigma$ ist die Verteilung maximaler Entropie unter allen Verteilungen mit diesem Erwartungswert und dieser Kovarianzmatrix und Träger ganz $\mathbb{R}^n$.
Ein Zufallsvektor $X = (X_1,\dots,X_n)$ (d.h. eine multivariate Verteilung) ist multivariat normalverteilt genau dann wenn jede mögliche Linearkombination $\sum_{i=1} \lambda_i X_i$ univariat normalverteilt ist.
Ein Zufallsvektor $X = (X_1,\dots,X_n)$ (d.h. eine multivariate Verteilung) ist multivariat normalverteilt genau dann wenn jede mögliche Linearkombination $\sum_{i=1} \lambda_i X_i$ univariat normalverteilt ist.
:::
:::
**Achtung**
**Achtung**
Das heisst nicht, dass alle Linearkombinationen von normalverteilten Zufallsvariablen wieder normalverteilt sind! Ein Beispiel fast wie aus dem Datasaurus, wo $X$ und $Y$ einzeln normalverteilt sind, aber eine Abhängigkeit voneinander haben - und zack, $X+Y$ ist nicht normalverteilt (denn X+Y=0 hat eine Wahrscheinlichkeit von 50%):
Das heisst nicht, dass alle Linearkombinationen von normalverteilten Zufallsvariablen wieder normalverteilt sind! Ein Beispiel fast wie aus dem Datasaurus, wo $X$ und $Y$ einzeln normalverteilt sind, aber eine Abhängigkeit voneinander haben - und zack, $X+Y$ ist nicht normalverteilt (denn X+Y=0 hat eine Wahrscheinlichkeit von 50%):
[Die Wikipedia hat einen schönen Artikel dazu, dass normalverteilte unkorrelierte Zufallsvariablen durchaus abhängig voneinander sein können.](https://en.wikipedia.org/wiki/Normally_distributed_and_uncorrelated_does_not_imply_independent)
[Die Wikipedia hat einen schönen Artikel dazu, dass normalverteilte unkorrelierte Zufallsvariablen durchaus abhängig voneinander sein können.](https://en.wikipedia.org/wiki/Normally_distributed_and_uncorrelated_does_not_imply_independent)
Die Zufallsvariablen X, Y aus dem vorigen Plot sind genau so ein Beispiel, denn der Korrelationskoeffizient ist $0$.
Die Zufallsvariablen X, Y aus dem vorigen Plot sind genau so ein Beispiel, denn der Korrelationskoeffizient ist $0$.
Umgekehrt gibt es eine Aussage mit starken Voraussetzungen:
Umgekehrt gibt es eine Aussage mit starken Voraussetzungen:
:::{admonition} Lemma
:::{admonition} Lemma
Sind $X$ und $Y$ zwei reelle Zufallsvariable, die gemeinsam bivariat normalverteilt sind, d.h. $(X,Y) \sim \mathcal{N}(\mu,\Sigma)$, dann folgt aus der Unkorreliertheit von $X$ und $Y$ bereits die Unabhängigkeit.
Sind $X$ und $Y$ zwei reelle Zufallsvariable, die gemeinsam bivariat normalverteilt sind, d.h. $(X,Y) \sim \mathcal{N}(\mu,\Sigma)$, dann folgt aus der Unkorreliertheit von $X$ und $Y$ bereits die Unabhängigkeit.
Es gilt auch die Umkehrung: wenn $X$ und $Y$ einzeln univariat normalverteilt sind, *und* unabhängig, dann ist $(X,Y)$ bivariat normalverteilt.
Es gilt auch die Umkehrung: wenn $X$ und $Y$ einzeln univariat normalverteilt sind, *und* unabhängig, dann ist $(X,Y)$ bivariat normalverteilt.
:::
:::
**Aufgabe**:
**Aufgabe**:
Machen Sie sich klar, wie die Kovarianzmatrix im Fall der Unabhängigkeit aussieht.
Machen Sie sich klar, wie die Kovarianzmatrix im Fall der Unabhängigkeit aussieht.