Skip to content
Snippets Groups Projects
Commit e27bfd10 authored by Konrad Völkel's avatar Konrad Völkel
Browse files

Klarer, was Exkurs ist und was nicht; Verweise auf MafIn-Skript

parent b31090dc
Branches
No related tags found
Loading
Pipeline #150386 passed with warnings
# Einführung in Stochastik
# Herleitung des mathematischen Formalismus der Stochastik
Sie haben bereits in Mathematik für Informatik 3 die Grundlagen der (diskreten) Wahrscheinlichkeitstheorie kennen gelernt. Wir werden diese auch noch im für uns nötigen Umfang wiederholen. In der Vorlesung werden wir vor Allem die Begrifflichkeiten der Wahrscheinlichkeitsmassefunktion (für diskrete Zufallsvariablen) und Wahrscheinlichkeitsdichtefunktion (für stetige Zufallsvariablen) verwenden, die aber beide auf dem Begriff des Wahrscheinlichkeitsmaß aufbauen. An dieser Stelle gibt es einen kleinen Exkurs, um zu erklären, warum es eigentlich genau so gemacht wird, und wie man auf den Begriff des Wahrscheinlichkeitsmaßes kommen kann. Der Begriff der Sigma-Algebra ($\sigma$-Algebra) und der messbaren Funktionen sind essentiell, um in der Stochastik Beweise zu führen und auch um komplexere Begriffe (wie sie etwa in der Finanzmathematik oder in der Theorie des maschinellen Lernens benötigt werden) einzuführen - wir können uns hier damit begnügen, mitzunehmen, wann wir über diese Begriffe hinweglesen können.
Man kann Stochastik als Oberbegriff für Wahrscheinlichkeitstheorie und Statistik auffassen. Die Statistik beschäftigt sich mit stochastischen Modellen, die anhand von Beobachtungen entwickelt werden, und macht Schlussfolgerungen. Die Wahrscheinlichkeitstheorie beschäftigt sich mit der Untersuchung von Modellen und der Theorie dahinter.
......@@ -12,14 +14,14 @@ Um mit Plausibilität genau so rechnen zu können wie mit Boolescher Logik, und
Wir wünschen uns außerdem, dass Plausibilitätslogik mit der klassischen Logik kompatibel ist, d.h. logisch äquivalente Aussagen sollten gleich plausibel sein und verschiedene Wege, um die Plausibilität einer Aussage zu bestimmen, sollten zum gleichen Ergebnis kommen (Konsistenz).
Um das in Mathematik zu formulieren, nennen wir nun eine endliche Menge von Aussagen, deren Plausibilität wir bewerten wollen, $X$ und die Zuordnung der Plausibilität ist eine Abbildung $p \colon X \to \mathbb{R}$.
Wenn man diese Forderungen präzisiert, kann man das Cox-Jaynes-Theorem beweisen, dass besagt, dass es eine mathematische Abbildung $cj$ von den reellen Zahlen in das geschlossene Intervall $[0,1]$ gibt, die Plausibilitäten auf "Wahrscheinlichkeiten" abbildet, sodass (fast) alle Regeln der klassischen Wahrscheinlichkeitstheorie erfüllt sind. So erfüllt $P := cj \circ p \colon X \to [0,1]$ die Regeln
Wenn man diese Forderungen präzisiert, kann man das [Cox-Jaynes-Theorem](https://en.wikipedia.org/wiki/Cox%27s_theorem) beweisen, dass besagt, dass es eine mathematische Abbildung $cj$ von den reellen Zahlen in das geschlossene Intervall $[0,1]$ gibt, die Plausibilitäten auf "Wahrscheinlichkeiten" abbildet, sodass (fast) alle Regeln der klassischen Wahrscheinlichkeitstheorie erfüllt sind. So erfüllt $P := cj \circ p \colon X \to [0,1]$ die Regeln
1. $P(WAHR) = 1$ und $P(FALSCH) = 0$.
1. Wenn $A_1,\dots,A_n$ eine endliche Menge paarweise unabhängiger Aussagen sind, dann gilt endliche Additivität:
$ P\left( \bigcup_{i=1} A_i \right) = \sum_{i=1}^n P(A_i) $
Wir werden uns nun der modernen Fassung des Wahrscheinlichkeitsbegriffs nähern. Dabei soll der Begriff der sigma-Algebra hier nur erwähnt werden, man darf ihn danach (für diese Vorlesung) wieder vergessen.
## Das Maßproblem
## Exkurs: Das Maßproblem
Bei einem Würfel oder einer Münze ist relativ klar, wie wir die Wahrscheinlichkeit modellieren und wie wir ein statistisches Modell aufstellen können, das wir auch implementieren können. In der Theorie stellt sich aber schnell die Frage, wie es z.B. mit einem unendlich oft wiederholten Experiment aussieht. Das ist keine rein theoretische Frage, denn wir sind an der Asymptotik interessiert, also wie sich ein hinreichend oft wiederholtes Experiment näherungsweise verhält.
......@@ -39,12 +41,12 @@ Dann erwarten wir für jede Teilmenge $A \subset \Omega$ dass $P(F_n A) = P(A)$
Im Jahr 1923 hat Banach mit Hilfe des Auswahlaxioms bewiesen, dass es zwar möglich ist, nicht-konstruktiv so eine Wahrscheinlichkeit $P$ zu definieren, dass es aber nicht eindeutig möglich ist!
Wenn wir eine unserer Forderungen verschärfen, nämlich von der endlichen Additivität zur $\sigma$-Additivität (man sagt Sigma-Additivität oder abzählbare Additivität), hat schon 1905 Vitali bewiesen, dass es überhaupt keine solche Abbildung $P$ gibt, es also unmöglich ist, unendlichen Münzwürfen so Wahrscheinlichkeiten zuzuordnen. Woran liegt das, und was soll das mit der $\sigma$-Additivität?
Wenn wir eine unserer Forderungen verschärfen, nämlich von der endlichen Additivität zur $\sigma$-Additivität (man sagt Sigma-Additivität oder abzählbare Additivität), [hat schon 1905 Vitali bewiesen](https://de.wikipedia.org/wiki/Ma%C3%9Fproblem#Unl%C3%B6sbarkeit_des_Ma%C3%9Fproblems), dass es überhaupt keine solche Abbildung $P$ gibt, es also unmöglich ist, unendlichen Münzwürfen so Wahrscheinlichkeiten zuzuordnen. Woran liegt das, und was soll das mit der $\sigma$-Additivität?
## Offene Mengen messen
## Exkurs: Offene Mengen messen
Eine sehr praktische Definition für jede Menge $X$ auf der es einen Abstandsbegriff gibt (genauer: $X$ ein metrischer Raum) ist diese:
Eine Menge $U \subset X$ heißt *offen* wenn es um jeden Punkt $u \in U$ einen Abstand $\epsilon > 0$ gibt, sodass alle Punkte $x \in X$ mit Abstand $d(x,u) < \epsilon$ bereits gänzlich in $U$ liegen, also $x \in U$.
Eine Menge $U \subset X$ heißt *offen* wenn es um jeden Punkt $u \in U$ einen Abstand $\epsilon > 0$ gibt, sodass alle Punkte $x \in X$ mit Abstand $d(x,u) < \epsilon$ bereits gänzlich in $U$ liegen, also $x \in U$. Für $X=\mathbb{R}$ sind z.B. endliche Vereinigungen von offenen Intervallen solche offenen Mengen, daher der Name.
Man kann nun zeigen, dass die klassische $\epsilon$-$\delta$-Definition von Stetigkeit äquivalent ist zu: $f \colon X \to Y$ heißt *stetig* wenn die Urbilder offener Mengen $U \subset Y$ auch offene Mengen $f^{-1}(U) \subset X$ sind.
......@@ -69,6 +71,8 @@ Terminologie: wir nennen die Elemente von $\Omega$ die *Ergebnisse* und die Elem
ein gewöhnlicher Würfel hat Zustandsraum $\Omega = \{1,2,3,4,5,6\}$ und die Potenzmenge $\mathcal{P}(\Omega)$ ist bereits eine $\sigma$-Algebra (es gibt also keine nicht-meßbaren Mengen - das klappt für endliches $\Omega$ immer). Ein einzelner Würfelwurf liefert ein Ergebnis, die Augenzahl. Die Aussage "die Würfelaugen sind eine gerade Zahl" ist eine logische Aussage, die zu dem Ereignis $\{2,4,6\} \subset \Omega$ korrespondiert. In sehr vielen Fällen sind wir (notgedrungen) nicht an konkreten Ergebnissen interessiert, sondern an bestimmten Ereignissen.
:::
Merkregel: wenn unklar ist, was die $\sigma$-Algebra sein soll, ist es $\mathcal{P}(\Omega)$; mit anderen Worten: wenn unklar ist, was eine "messbare Menge" sein soll, ist einfach nur "Menge" gemeint.
:::{admonition} Definition
Eine Funktion $P \colon \mathcal{F} \to [0,1]$ von einer $\sigma$-Algebra auf einer Menge $\Omega$ in das Einheitsintervall heißt *Wahrscheinlichkeitsmaß* wenn
1. $P(\Omega) = 1$ (Normierung) und
......@@ -78,6 +82,8 @@ $P \left( \bigcup_{i\geq 1} A_i \right) = \sum_{i\geq 1} P(A_i)$
Das Tripel $(\Omega, \mathcal{F}, P)$ heißt *Wahrscheinlichkeitsraum*.
:::
Vergleichen Sie dazu im Skript "Mathematik für Informatik" Definition 12.2.5 sowie Bemerkung 12.2.8, in der als Spezialfall $\mathcal{F} = \mathcal{P}(\Omega)$ und $\Omega$ endlich angenommen werden.
:::{admonition} Beispiel
Auf einer endlichen Menge $\Omega$ von Kardinalität $N := |\Omega|$ (also Anzahl der Elemente $N$) ist mit $\mathcal{F} := \mathcal{P}(\Omega)$ und $P(A) := |A| / N$ ein Wahrscheinlichkeitsmaß definiert, dass wir *Gleichverteilung* nennen.
:::
......@@ -114,6 +120,8 @@ Für jeden Wahrscheinlichkeitsraum $(\Omega,\mathcal{F},P)$ mit $A,B \in \mathca
Eine Funktion $f \colon X\to Y$ zwischen Wahrscheinlichkeitsräumen $X$ und $Y$ (die $\sigma$-Algebren und Wahrscheinlichkeitsmaße notieren wir nicht mehr extra dazu) heißt *meßbar* oder auch *Zufallsvariable* wenn für meßbare Mengen $U \subset Y$ die Urbilder $f^{-1}(U) \subset X$ ebenfalls meßbar sind.
:::
Merkregel: wenn unklar ist, was die $\sigma$-Algebren sein sollen, stellen wir uns jede Abbildung (=Funktion) als meßbar vor. Das ist strenggenommen in der Regel falsch, sobald wir uns mit stetigen Zufallsvariablen beschäftigen - und wird uns doch in der Praxis nicht stören.
:::{admonition} Beispiel
Wenn wir auf $[0,1]$ die Gleichverteilung definieren, indem wir auf offenen Intervallen die Intervalllänge als Wahrscheinlichkeitsmaß festlegen, so ist jede stetige Funktion $f \colon [0,1] \to [0,1]$ auch meßbar.
:::
......@@ -132,7 +140,9 @@ Zu jeder $\sigma$-Algebra auf $X$ und jeder meßbaren Funktion $f \colon X \to \
Damit lassen sich sehr viele Aussagen beweisen, indem man sie für Treppenfunktionen beweist (so auch die Konstruktion des Lebesgue-Integrals). Man kann daraus auch weitreichende Universalitätsaussagen konstruieren, wenn ein Computermodell in der Lage ist, Treppenfunktionen beliebig genau zu approximieren. Damit lässt sich auch die Universalität von neuronalen Netzen einsehen.
Zuletzt soll nicht unerwähnt bleiben, dass es einen berechtigten Einwand gegenüber diesem Formalismus gibt: am Rechner lässt sich nur konstruktive Mathematik implementieren, der Satz vom ausgeschlossenen Dritten und das Auswahlaxiom sind nicht implementierbar. In dieser Logik aber (der konstruktivistischen / sogenannten intuitionistischen) lassen sich für einen metrischen Raum $X$ alle Mengen als meßbar bezeichnen, weil die nicht-meßbaren Teilmengen eben nicht konstruierbar sind. Damit wird manches einfacher, aber eben auch vieles unmöglich. Wir begnügen uns nun als damit, dass wir wissen, wie sich Texte lesen lassen, die den üblichen Formalismus verwenden, und außerdem eine gute Ausrede zur Hand haben, warum wir uns mit dem Formalismus nicht länger auseinander setzen werden.
Zuletzt soll nicht unerwähnt bleiben, dass es einen berechtigten Einwand gegenüber diesem Formalismus gibt: am Rechner lässt sich nur konstruktive Mathematik implementieren, der Satz vom ausgeschlossenen Dritten und das Auswahlaxiom sind nicht implementierbar. In dieser Logik aber (der konstruktivistischen / sogenannten intuitionistischen) lassen sich für einen metrischen Raum $X$ alle Mengen als meßbar bezeichnen, weil die nicht-meßbaren Teilmengen eben nicht konstruierbar sind. Damit wird manches einfacher, aber eben auch vieles unmöglich. Wir begnügen uns nun also damit, dass wir wissen, wie sich Texte lesen lassen, die den üblichen Formalismus verwenden, und außerdem eine gute Ausrede zur Hand haben, warum wir uns mit dem Formalismus nicht länger auseinander setzen werden.
Sie können also nun ein Stochastik-Buch in die Hand nehmen, dort einen Satz vorfinden "Sei X eine Menge mit einer $\sigma$-Algebra ..." und dabei den Teil mit der $\sigma$-Algebra für's erste überlesen, da Sie in der Praxis den nicht-messbaren Mengen (also denen, die nicht Teil des Mengensystems sind, welches $\sigma$-Algebra genannt wird) nicht über den Weg laufen. Mit anderen Worten: stellen Sie sich in erster Näherung vor, dass "messbar" keine Einschränkung ist. Was wir aber aus diesem Kapitel mindestens mitnehmen sollten ist der Begriff der Zufallsvariable, die Rechenregeln für Wahrscheinlichkeitsmaße $P$ und das wichtige Beispiel der Gleichverteilung.
Wenn Sie sich gern im weiteren Verlauf der Vorlesung mit interaktiven Spielchen der Stochastik nähern wollen, ist [Random Services](
https://randomservices.org/random/prob/index.html) genau das Richtige für Sie.
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment