"Wenn $X_i$ eine Folge von identisch verteilten, voneinander unabhängigen (iid = independent identically distributed) Zufallsvariablen mit Erwartungswert $\\mathbb{E}(X_i)=0$ und Varianz $\\mathbb{V}(X_i)=\\sigma^2$ ist,\n",
"Wenn $X_i$ eine Folge von identisch verteilten, voneinander unabhängigen (iid = independent identically distributed) Zufallsvariablen mit Erwartungswert $\\mathbb{E}(X_i)=0$ und Varianz $\\mathbb{V}(X_i)=\\sigma^2$ ist,\n",
"und wir die skalierte Summe $S_N := \\dfrac{\\sqrt{N}}{N} \\sum_{i=1}^N X_i$ betrachten, dann gilt die Konvergenz in Verteilung:\n",
"und wir die skalierte Summe $S_N := \\dfrac{1}{\\sigma\\sqrt{N}} \\sum_{i=1}^N X_i$ (mit $\\mathbb{E}(S_N)=0$ und $\\mathbb{V}(S_N)=1$) betrachten, dann gilt die Konvergenz in Verteilung:\n",
"Es existiert eine Konstante $C > 0,4409$ mit der folgenden Eigenschaft:\n",
"Es existiert eine Konstante $C > 0,4409$ mit der folgenden Eigenschaft:\n",
"\n",
"\n",
"Wenn $X_i$ eine Folge von iid Zufallsvariablen mit Erwartungswert $0$ und Varianz $\\sigma^2$ ist, und außerdem die dritten absoluten Momente $\\mathbb{E}|X_i^3| = \\rho < \\infty$ existieren,\n",
"Wenn $X_i$ eine Folge von iid Zufallsvariablen mit Erwartungswert $0$ und Varianz $\\sigma^2$ ist, und außerdem die dritten absoluten Momente $\\mathbb{E}|X_i^3| = \\rho < \\infty$ existieren,\n",
"wir $F_N$ für die kumulative Verteilungsfunktion von $\\frac{\\sqrt{N}}{N\\sigma} \\sum_{i=1}^N X_i$ schreiben und $\\Phi$ für die kumulative Verteilungsfunktion der Standardnormalverteilung $\\mathcal{N}(0,1)$, so gilt für alle $x$ und alle $N$:\n",
"wir $F_N$ für die kumulative Verteilungsfunktion von $\\frac{1}{\\sigma\\sqrt{N}} \\sum_{i=1}^N X_i$ schreiben und $\\Phi$ für die kumulative Verteilungsfunktion der Standardnormalverteilung $\\mathcal{N}(0,1)$, so gilt für alle $x$ und alle $N$:\n",
Betrachten wir eine Folge von Bernoulli-verteilten Zufallsvariablen $X_i$ mit gleichem Parameter $p$ und $S_n := \sum_{i=1}^n X_i$ die Summe über die ersten $n$ davon, so wissen wir bereits, dass $S_n \sim Bin(n,p)$, also dass diese Summe Binomialverteilt ist.
Betrachten wir eine Folge von Bernoulli-verteilten Zufallsvariablen $X_i$ mit gleichem Parameter $p$ und $S_n := \sum_{i=1}^n X_i$ die Summe über die ersten $n$ davon, so wissen wir bereits, dass $S_n \sim Bin(n,p)$, also dass diese Summe Binomialverteilt ist.
Für die konkreten Werte $n=100,\ p=0.4$ sieht ein Histogramm von $100000$ Samples etwa so aus:
Für die konkreten Werte $n=100,\ p=0.4$ sieht ein Histogramm von $100000$ Samples etwa so aus:
Da diese Form für große Stichproben stets so aussieht, unabhängig von $p$ (probieren Sie das aus!), könnte man sich vorstellen, dass die Verteilung sich approximieren lässt mit Hilfe einer Funktion, die leichter zu berechnen ist als Binomialkoeffizienten.
Da diese Form für große Stichproben stets so aussieht, unabhängig von $p$ (probieren Sie das aus!), könnte man sich vorstellen, dass die Verteilung sich approximieren lässt mit Hilfe einer Funktion, die leichter zu berechnen ist als Binomialkoeffizienten.
Tatsächlich gibt es zur Approximation von Binomialkoeffizienten auch die *Stirling-Formel*
Tatsächlich gibt es zur Approximation von Binomialkoeffizienten auch die *Stirling-Formel*
wobei für $x$ auf der rechten Seite die Folge $x=x_n$ mit
wobei für $x$ auf der rechten Seite die Folge $x=x_n$ mit
$x_n = x_n(k) = \frac{k-np}{\sqrt{np(1-p)}}$ eingesetzt werden muss. Das Symbol $\sim$ bedeutet: asymptotisch gleich, d.h. der Quotient konvergiert gegen $1$.
$x_n = x_n(k) = \frac{k-np}{\sqrt{np(1-p)}}$ eingesetzt werden muss. Das Symbol $\sim$ bedeutet: asymptotisch gleich, d.h. der Quotient konvergiert gegen $1$.
Diese Approximation ist insofern hilfreich, als dass wir nun die Funktion $e^{-\frac{x^2}{2}}$ tabellieren können und konkrete Werte für gewisse $n,p$ ablesen können. Das ist wesentlich effizienter, als Binomialkoeffizienten auszurechnen. Die ganze Beobachtung heißt auch **Satz** von deMoivre-Laplace und soll uns zunächst als Motivation dienen, die Funktion $e^{-\frac{x^2}{2}}$ näher zu untersuchen.
Diese Approximation ist insofern hilfreich, als dass wir nun die Funktion $e^{-\frac{x^2}{2}}$ tabellieren können und konkrete Werte für gewisse $n,p$ ablesen können. Das ist wesentlich effizienter, als Binomialkoeffizienten auszurechnen. Die ganze Beobachtung heißt auch **Satz** von deMoivre-Laplace und soll uns zunächst als Motivation dienen, die Funktion $e^{-\frac{x^2}{2}}$ näher zu untersuchen.
Um aus der Funktion $e^{-\frac{x^2}{2}}$ eine Wahrscheinlichkeitsdichte zu machen, muss das Integral $1$ ergeben. Wir berechnen, weil es danach sehr nützlich wird, gleich ein etwas allgemeineres Integral:
Um aus der Funktion $e^{-\frac{x^2}{2}}$ eine Wahrscheinlichkeitsdichte zu machen, muss das Integral $1$ ergeben. Wir berechnen, weil es danach sehr nützlich wird, gleich ein etwas allgemeineres Integral:
Da auf der rechten Seite eine Quadratwurzel steht, bietet es sich an, beide Seiten der Gleichung zu quadrieren. Wir formen die linke Seite dann weiter um, bis wir ein Integral über $\mathbb{R}^2$ in Polarkoordinaten transformieren können und dann leicht Stammfunktionen bestimmen können:
Da auf der rechten Seite eine Quadratwurzel steht, bietet es sich an, beide Seiten der Gleichung zu quadrieren. Wir formen die linke Seite dann weiter um, bis wir ein Integral über $\mathbb{R}^2$ in Polarkoordinaten transformieren können und dann leicht Stammfunktionen bestimmen können:
Da Integrale in der Statistik häufiger vorkommen, ist es nicht ganz verkehrt, sich bei dieser Rechnung klar zu machen, was genau warum in jedem Schritt passiert.
Da Integrale in der Statistik häufiger vorkommen, ist es nicht ganz verkehrt, sich bei dieser Rechnung klar zu machen, was genau warum in jedem Schritt passiert.
Der Ausdruck nach dem $\mu +$ ist einfach $0$, denn die Funktion ist punktsymmetrisch um $0$ (der Faktor $x$ ist offensichtlich eine ungerade Funktion, der andere Faktor hängt nur von $|x|$ ab).
Der Ausdruck nach dem $\mu +$ ist einfach $0$, denn die Funktion ist punktsymmetrisch um $0$ (der Faktor $x$ ist offensichtlich eine ungerade Funktion, der andere Faktor hängt nur von $|x|$ ab).
Genau so kann man bei der Varianz verfahren, indem man diesen Ausdruck vereinfacht:
Genau so kann man bei der Varianz verfahren, indem man diesen Ausdruck vereinfacht:
Man nennt eine Zufallsvariable mit $X \sim \mathcal{N}(0,1)$ auch *standardnormalverteilt*
Man nennt eine Zufallsvariable mit $X \sim \mathcal{N}(0,1)$ auch *standardnormalverteilt*
:::
:::
:::{admonition} Proposition
:::{admonition} Proposition
Wenn $X \sim \mathcal{N}(\mu,\sigma^2)$, so ist $\frac{X - \mu}{\sigma} \sim \mathcal{N}(0,1)$.
Wenn $X \sim \mathcal{N}(\mu,\sigma^2)$, so ist $\frac{X - \mu}{\sigma} \sim \mathcal{N}(0,1)$.
:::
:::
:::{admonition} Beweis
:::{admonition} Beweis
**Idee:**
**Idee:**
Es ist sofort klar, dass $\mathbb{E}(X-\mu) = 0$ und dass $\mathbb{V}\left(\frac{X-\mu}{\sigma}\right) = 1$.
Es ist sofort klar, dass $\mathbb{E}(X-\mu) = 0$ und dass $\mathbb{V}\left(\frac{X-\mu}{\sigma}\right) = 1$.
Weniger klar ist, dass die neue Zufallsvariable tatsächlich normalverteilt ist. Das lässt sich z.B. mit der Momenterzeugendenfunktion beweisen.
Weniger klar ist, dass die neue Zufallsvariable tatsächlich normalverteilt ist. Das lässt sich z.B. mit der Momenterzeugendenfunktion beweisen.
:::
:::
Alternativ nutzen wir, dass die Summe von unabhängigen Zufallsvariablen mit Dichten $f,g$ selbst wieder eine Dichte hat, nämlich die *Faltung* $f \ast g$. Anstatt das nun rigoros einzuführen und zu beweisen, benutzen wir es ein weiteres Mal, damit lässt sich nämlich zeigen:
Alternativ nutzen wir, dass die Summe von unabhängigen Zufallsvariablen mit Dichten $f,g$ selbst wieder eine Dichte hat, nämlich die *Faltung* $f \ast g$. Anstatt das nun rigoros einzuführen und zu beweisen, benutzen wir es ein weiteres Mal, damit lässt sich nämlich zeigen:
:::{admonition} Proposition
:::{admonition} Proposition
Wenn $X \sim \mathcal{N}(\mu_1,\sigma_1^2)$ und $Y \sim \mathcal{N}(\mu_2,\sigma_2^2)$,
Wenn $X \sim \mathcal{N}(\mu_1,\sigma_1^2)$ und $Y \sim \mathcal{N}(\mu_2,\sigma_2^2)$,
so ist $X+Y \sim \mathcal{N}(\mu_1 + \mu_2,\sigma_1^2 + \sigma_2^2)$.
so ist $X+Y \sim \mathcal{N}(\mu_1 + \mu_2,\sigma_1^2 + \sigma_2^2)$.
:::
:::
:::{admonition} Satz
:::{admonition} Satz
Unter allen Verteilungen reeller Zufallsvariablen $X$ mit festem Erwartungswert $\mu = \mathbb{E}(X)$ und Varianz $\sigma^2 = \mathbb{V}(X)$ ist die Normalverteilung diejenige mit der maximalen Entropie.
Unter allen Verteilungen reeller Zufallsvariablen $X$ mit festem Erwartungswert $\mu = \mathbb{E}(X)$ und Varianz $\sigma^2 = \mathbb{V}(X)$ ist die Normalverteilung diejenige mit der maximalen Entropie.
:::
:::
Um diesen Satz überhaupt präzise formulieren zu können, benötigen wir einen Entropiebegriff für stetige Verteilungen. Anstatt das jetzt zu tun, wollen wir uns später damit beschäftigen, wenn wir auch relative Entropie, die stetige Version davon und Likelihood diskutieren.
Um diesen Satz überhaupt präzise formulieren zu können, benötigen wir einen Entropiebegriff für stetige Verteilungen. Anstatt das jetzt zu tun, wollen wir uns später damit beschäftigen, wenn wir auch relative Entropie, die stetige Version davon und Likelihood diskutieren.
Wichtig ist aber die Take-Home-Message des Satzes: Wenn über eine stetige Verteilung reeller Zahlen außer Erwartungswert und Varianz nichts bekannt ist, dann ist die entprechende Normalverteilung die vernünftigste Annahme. In diesem Sinne ist die Normalverteilung ein guter stetiger Ersatz für die diskrete Gleichverteilung, aber nun auf ganz $\mathbb{R}$ (die Normalverteilung hat Träger $\mathbb{R}$).
Wichtig ist aber die Take-Home-Message des Satzes: Wenn über eine stetige Verteilung reeller Zahlen außer Erwartungswert und Varianz nichts bekannt ist, dann ist die entprechende Normalverteilung die vernünftigste Annahme. In diesem Sinne ist die Normalverteilung ein guter stetiger Ersatz für die diskrete Gleichverteilung, aber nun auf ganz $\mathbb{R}$ (die Normalverteilung hat Träger $\mathbb{R}$).
Wenn $X_i$ eine Folge von identisch verteilten, voneinander unabhängigen (iid = independent identically distributed) Zufallsvariablen mit Erwartungswert $\mathbb{E}(X_i)=0$ und Varianz $\mathbb{V}(X_i)=\sigma^2$ ist,
Wenn $X_i$ eine Folge von identisch verteilten, voneinander unabhängigen (iid = independent identically distributed) Zufallsvariablen mit Erwartungswert $\mathbb{E}(X_i)=0$ und Varianz $\mathbb{V}(X_i)=\sigma^2$ ist,
und wir die skalierte Summe $S_N := \dfrac{\sqrt{N}}{N}\sum_{i=1}^N X_i$ betrachten, dann gilt die Konvergenz in Verteilung:
und wir die skalierte Summe $S_N := \dfrac{1}{\sigma\sqrt{N}} \sum_{i=1}^N X_i$ (mit $\mathbb{E}(S_N)=0$ und $\mathbb{V}(S_N)=1$) betrachten, dann gilt die Konvergenz in Verteilung:
$$
$$
S_N \xrightarrow{N \to \infty} \mathcal{N}(0,1)
S_N \xrightarrow{N \to \infty} \mathcal{N}(0,1)
$$
$$
:::
:::
Konvergenz in Verteilung heißt, dass die Verteilungsfunktion von $S_N$ gegen die Verteilungsfunktion einer Standardnormalverteilung konvergiert.
Konvergenz in Verteilung heißt, dass die Verteilungsfunktion von $S_N$ gegen die Verteilungsfunktion einer Standardnormalverteilung konvergiert.
Von diesem Satz gibt es auch Abschwächungen, die gewisse Abhängigkeiten zwischen den $X_i$ erlauben.
Von diesem Satz gibt es auch Abschwächungen, die gewisse Abhängigkeiten zwischen den $X_i$ erlauben.
:::{admonition} Bemerkung
:::{admonition} Bemerkung
Wichtig ist der Satz für uns, weil er erlaubt eine Summe unabhängiger Zufallsvariablen mit einer Normalverteilung zu approximieren. Das tritt in der Praxis häufig auf, wenn man Messungen an physikalischen oder technosozialen Systemen vornimmt, die in der Regel von einer langen Liste weitgehend unabhängiger Störeinflüsse beeinträchtigt werden. Diese Summe an Fehlerquellen ist (für eine hinreichend große Zahl an unabhängigen Fehlerquellen) etwa normalverteilt.
Wichtig ist der Satz für uns, weil er erlaubt eine Summe unabhängiger Zufallsvariablen mit einer Normalverteilung zu approximieren. Das tritt in der Praxis häufig auf, wenn man Messungen an physikalischen oder technosozialen Systemen vornimmt, die in der Regel von einer langen Liste weitgehend unabhängiger Störeinflüsse beeinträchtigt werden. Diese Summe an Fehlerquellen ist (für eine hinreichend große Zahl an unabhängigen Fehlerquellen) etwa normalverteilt.
:::
:::
Um zwei konkrete Beispiele zu nennen: der Fehler bei der Ortsbestimmung mit GNSS-Systemen wie GPS ist normalverteilt (auch wenn die atmosphärischen Störungen, die den Wert ungenauer machen, nicht normalverteilt sind). Bei der industriellen Fertigung von Bauteilen gibt es ebenfalls im gesamten Produktionsprozess Fehlerquellen, die am Ende zu einer Normalverteilung aufsummieren - deren Varianz man hinreichend klein halten muss, damit das Bauteil seine Aufgabe erfüllen kann. So darf ein Legostein nicht zu stark von einem baugleichen Legostein abweichen, sonst hält das Bauwerk hinterher nicht richtig.
Um zwei konkrete Beispiele zu nennen: der Fehler bei der Ortsbestimmung mit GNSS-Systemen wie GPS ist normalverteilt (auch wenn die atmosphärischen Störungen, die den Wert ungenauer machen, nicht normalverteilt sind). Bei der industriellen Fertigung von Bauteilen gibt es ebenfalls im gesamten Produktionsprozess Fehlerquellen, die am Ende zu einer Normalverteilung aufsummieren - deren Varianz man hinreichend klein halten muss, damit das Bauteil seine Aufgabe erfüllen kann. So darf ein Legostein nicht zu stark von einem baugleichen Legostein abweichen, sonst hält das Bauwerk hinterher nicht richtig.
Man kann außerdem die Geschwindigkeit der Konvergenz abschätzen, und damit in Erfahrung bringen, wie gut die Approximation durch eine Normalverteilung ist:
Man kann außerdem die Geschwindigkeit der Konvergenz abschätzen, und damit in Erfahrung bringen, wie gut die Approximation durch eine Normalverteilung ist:
:::{admonition} Satz
:::{admonition} Satz
Es existiert eine Konstante $C > 0,4409$ mit der folgenden Eigenschaft:
Es existiert eine Konstante $C > 0,4409$ mit der folgenden Eigenschaft:
Wenn $X_i$ eine Folge von iid Zufallsvariablen mit Erwartungswert $0$ und Varianz $\sigma^2$ ist, und außerdem die dritten absoluten Momente $\mathbb{E}|X_i^3| = \rho < \infty$ existieren,
Wenn $X_i$ eine Folge von iid Zufallsvariablen mit Erwartungswert $0$ und Varianz $\sigma^2$ ist, und außerdem die dritten absoluten Momente $\mathbb{E}|X_i^3| = \rho < \infty$ existieren,
wir $F_N$ für die kumulative Verteilungsfunktion von $\frac{\sqrt{N}}{N\sigma} \sum_{i=1}^N X_i$ schreiben und $\Phi$ für die kumulative Verteilungsfunktion der Standardnormalverteilung $\mathcal{N}(0,1)$, so gilt für alle $x$ und alle $N$:
wir $F_N$ für die kumulative Verteilungsfunktion von $\frac{1}{\sigma\sqrt{N}} \sum_{i=1}^N X_i$ schreiben und $\Phi$ für die kumulative Verteilungsfunktion der Standardnormalverteilung $\mathcal{N}(0,1)$, so gilt für alle $x$ und alle $N$:
Für konkret bekannte $\sigma,\rho$ können wir also stets das $n$ bestimmen, um die linke Seite beliebig klein abzuschätzen. Mit anderen Worten: es lässt sich zu jeder gewünschten Genauigkeit berechnen, wie viele der iid Zufallsvariablen man (skaliert) aufaddieren muss, um es mit einer Standardnormalverteilung zu approximieren.
Für konkret bekannte $\sigma,\rho$ können wir also stets das $n$ bestimmen, um die linke Seite beliebig klein abzuschätzen. Mit anderen Worten: es lässt sich zu jeder gewünschten Genauigkeit berechnen, wie viele der iid Zufallsvariablen man (skaliert) aufaddieren muss, um es mit einer Standardnormalverteilung zu approximieren.
Klar: Wenn der Erwartungswert nicht $0$ ist, lässt sich eine Variante als Korollar beweisen (wie auch beim zentralen Grenzwertsatz), sodass die Konvergenz gegen $\mathcal{N}(\mu,1)$ geht. Wenn man anders reskaliert, auch gegen $\mathcal{N}(\mu,\sigma^2)$. In der Praxis sieht es eher so aus, dass man alle unbekannten Fehlerterme mit einer Normalverteilung modelliert, deren Erwartungswert und Varianz man empirisch schätzt.
Klar: Wenn der Erwartungswert nicht $0$ ist, lässt sich eine Variante als Korollar beweisen (wie auch beim zentralen Grenzwertsatz), sodass die Konvergenz gegen $\mathcal{N}(\mu,1)$ geht. Wenn man anders reskaliert, auch gegen $\mathcal{N}(\mu,\sigma^2)$. In der Praxis sieht es eher so aus, dass man alle unbekannten Fehlerterme mit einer Normalverteilung modelliert, deren Erwartungswert und Varianz man empirisch schätzt.