Skip to content
Snippets Groups Projects
Commit be86509a authored by Konrad Völkel's avatar Konrad Völkel
Browse files
parents 3a211938 3aa9494c
No related branches found
No related tags found
No related merge requests found
Pipeline #114164 passed
......@@ -7,6 +7,7 @@ parts:
- file: was-ist-data-science
- file: intro-stochastik
- file: intro-python
- caption: Diskrete Stochastik und Numpy
numbered: true
chapters:
......@@ -14,15 +15,24 @@ parts:
- file: zufallsvariablen-verteilungen
- file: erwartungswert
- file: numpy
- caption: Stetige Stochastik und Scipy
numbered: true
chapters:
- file: stetige-verteilungen
- file: normalverteilung
- file: wichtigste-stetige-verteilungen
- caption: Explorative Datenanalyse
numbered: true
chapters:
- file: deskriptive-statistik
- file: explorative-analyse-beispiele
- file: iris
- caption: Multivariate Stochastik
numbered: true
chapters:
- file: kovarianz
- file: multivariate-normalverteilung
- file: relative-entropie
\ No newline at end of file
......@@ -110,7 +110,7 @@ Die beschreibende (deskriptive) Statistik besteht aus den Datenanalysen, die *vo
Wozu visualisieren?
[Alberto Cairo hat den 'Datasaurus' erfunden](http://www.thefunctionalart.com/2016/08/download-datasaurus-never-trust-summary.html) um auf den Unterschied zwischen zusammenfassender Statistik und Visualisierung hinzuweisen. [Justin Matejka und George Fitzmaurice haben die 'Datasaurus Dozen' entwickelt](https://www.autodesk.com/research/publications/same-stats-different-graphs), eine Reihe von Datensätzen, die allesamt gleiche zusammenfassende Statistiken aufweisen, aber visuell sehr deutliche Unterschiede zeigen.
[Alberto Cairo hat den 'Datasaurus' erfunden](http://www.thefunctionalart.com/2016/08/download-datasaurus-never-trust-summary.html) um auf den Unterschied zwischen zusammenfassender Statistik und Visualisierung hinzuweisen. [Justin Matejka und George Fitzmaurice haben die 'Datasaurus Dozen' entwickelt](https://dl.acm.org/doi/10.1145/3025453.3025912), eine Reihe von Datensätzen, die allesamt gleiche zusammenfassende Statistiken aufweisen, aber visuell sehr deutliche Unterschiede zeigen.
```{figure} images/AllDinosGrey_1.png
:width: 480px
......
images/1920px-Entropy-mutual-information-relative-entropy-relation-diagram.svg.png

101 KiB

# Multivariate Statistik: Kovarianz und Abhängigkeit
## Gemeinsame Verteilung und Bayes
:::{admonition} Definition
Sind $X \colon \Omega_1 \to \mathbb{R}$ und $Y \colon \Omega_2 \to \mathbb{R}$ zwei Zufallsvariablen, so können wir das **Produkt** bilden:
$$
X \times Y \colon \Omega_1 \times \Omega_2 \to \mathbb{R}^2,\ (a,b) \mapsto (X(a),Y(b)).
$$
:::
:::{admonition} Definition
Wenn $X,Y \colon \Omega \to \mathbb{R}$ zwei Zufallsvariablen mit dem selben Definitionsbereich sind, können wir die **gemeinsame Verteilung** bilden:
$$
(X, Y) := (X \times Y) \circ \Delta \colon \Omega \to \mathbb{R}^2,\ a \mapsto (X(a),Y(a)).
$$
Dabei ist $\Delta \colon \Omega \to \Omega \times \Omega$ die *Diagonalabbildung* $a \mapsto (a,a)$.
:::
:::{admonition} Definition
Zu einer Zufallsvariable $X \colon \Omega \to \mathbb{R}^n$ können wir $X = (X_1,\dots,X_n)$ schreiben mit $X_i \colon \Omega \to \mathbb{R}$ gegeben als $\pi_i \circ X$, wobei $\pi_i \colon \mathbb{R}^n \to \mathbb{R}$ die $i$-te Koordinatenprojektion ist.
Die Zufallsvariablen $X_i$ heißen **Randverteilungen** oder **Marginalverteilungen**.
:::
Allgemeiner wird auch z.B. $(X_1,X_3,X_9)$ als Marginalverteilung von $X$ bezeichnet,
oder auch jede Verkettung von $X$ mit einer linearen Projektion $\pi \colon \mathbb{R}^n \to \mathbb{R}^m$, nicht notwendig auf die Koordinaten(hyper)ebene(n) der Standardbasis in $\mathbb{R}^n$.
:::{admonition} Bemerkung
Die Verteilung von $X_i$ ist $P(X_i \in A) = P(X \in \pi_i^{-1}(A))$.
Zu einer Zufallsvariable $(X,Y) \colon \Omega \to \mathbb{R}^2$ können wir die Verteilung von $Y$ berechnen als
$P(Y \in A) = \sum_{x \in X(\Omega)} P((X,Y) \in \{x\} \times A)$ im diskreten Fall (und mit einem entsprechenden Integral im stetigen Fall), wobei wir $\pi_1^{-1}(A) = X(\Omega)\times A$ in disjunkte Teilmengen zerlegt haben.
:::
:::{admonition} Bemerkung
Zu einer Zufallsvariable $(X,Y) \colon \Omega \to \mathbb{R}^2$ ist
$$
P((X,Y) = (x,y)) = P(X = x, Y=y) = P(Y = y | X = x)P(X = x)
$$
nach Definition der bedingten Wahrscheinlichkeit.
In der Notation mit pmf schreiben wir auch
$$
p(x,y) = p(y|x)p(x)
$$
wobei das als Definition zu verstehen ist:
$$
p(y|x) = \frac{p(x,y)}{p(x)}
$$
:::
:::{admonition} Satz
**von Bayes:**
Gegeben zwei Ereignisse $A,B \subseteq \Omega$ ist
$$
P(A|B) = \dfrac{P(B|A)P(A)}{P(B)}.
$$
:::
:::{admonition} Beweis
Die Definition der bedingten Wahrscheinlichkeit ist
$P(A|B) = \dfrac{P(A \cap B)}{P(B)}$
und das wenden wir auch auf vertauschte Rollen von $A$ und $B$ an.
:::
:::{admonition} Satz
**von Bayes, Fassung 2:**
Gegeben zwei Zufallsvariablen $X,Y \colon \Omega \to \mathbb{R}^n$ ist
$$
P(X=x | Y=y) = \dfrac{ P(Y=y|X=x)P(X=x) }{P(Y=y)}.
$$
:::
Das wenden wir häufig so an: $Y$ ist 'bekannt' und $X$ ist das vorläufige Modell.
Dabei nennen wir $Y=y$ die *Daten* $D$ und $X=x$ die *Hypothese* $H$.
Gegeben Daten und Hypothese erhalten wir so
:::{admonition} Satz
**von Bayes, Fassung 3:**
$$
P(H|D) = \dfrac{ P(D|H) P(H) }{ P(D) }
$$
Dabei heißt $P(H)$ der **Prior** (die a priori Wahrscheinlichkeit der Hypothese),
$P(D)$ die **Evidenz**, $P(D|H)$ die **Likelihood** und $P(H|D)$ der **Posterior** (die a posteriori Wahrscheinlichkeit der Hypothese). Man merkt sich: 'how likely is the data, if the hypothesis were true?' = Likelihood.
Im Gegensatz zu $P(H)$ ist die Likelihood $P(D|H)$ zumindest im Prinzip berechenbar.
:::
:::{admonition} Satz
**von Bayes, Fassung 4:**
$$
\text{Posterior} = \dfrac{ \text{Likelihood} * \text{Prior} }{ \text{Evidenz} }.
$$
:::
:::{admonition} Beispiel
Die Hypothese $H$ ist, dass die Daten standardnormalverteilt sind. Dann lässt sich $P(D|H)$ berechnen und $P(H|D)$ ist ein Schätzwert für $P(H)$, der $D$ berücksichtigt. Wenn wir also $P(H)$ zunächst schätzen, und dann die Daten $D$ betrachten, erhalten wir eine bessere Schätzung (die aber auch von der vorherigen abhängt).
Diesen Prozess nennt man *Bayessches Updaten*.
:::
## Kovarianz
:::{admonition} Definition
Gegeben zwei Zufallsvariablen $X,Y \colon \Omega \to \mathbb{R}$ ist die **Kovarianz**
definiert als
$$
\operatorname{Cov}(X,Y) := \mathbb{E}\left( \left( X - \mathbb{E}X \right) \left( Y - \mathbb{E}Y \right) \right),
$$
:::
also auch $\mathbb{V}(X) = \operatorname{Cov}(X,X)$.
Die Kovarianz hat die gleiche Krankheit wie die Varianz: sie ist skalenabhängig. Zur Heilung normiert man mit den Standardabweichungen:
:::{admonition} Definition
Der (Pearsonsche) **Korrelationskoeffizient** ist
$$
\rho(X,Y) := \dfrac{\operatorname{Cov}(X,Y)}{\sigma(X)\sigma(Y)}.
$$
Klar: $\rho(X,Y)=0$ genau dann wenn $\operatorname{Cov}(X,Y)=0$.
Man sagt, $X$ und $Y$ sind **positiv korreliert**, wenn $\rho(X,Y) > 0$ ist,
**negativ korreliert** (oder antikorreliert), wenn $\rho(X,Y) < 0$ ist,
und **unkorreliert**, wenn $\rho(X,Y)=0$ ist.
:::
:::{admonition} Proposition
Die Kovarianz ist symmetrisch: $\operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X)$
Die Kovarianz ist bilinear: $\operatorname{Cov}(aX+bY, Z) = a\operatorname{Cov}(X,Z) + b\operatorname{Cov}(Y,Z)$ für $a,b \in \mathbb{R}$.
Die Kovarianz ist positiv (semi)definit: $\operatorname{Cov}(X,X) \geq 0$.
:::
Damit verhält sich die Kovarianz wie ein Skalarprodukt. Man kann das rigoros machen, und die Kovarianz als Skalarprodukt in einem $\mathcal{L}^2$-Raum von Zufallsvariablen auffassen. Der Korrelationskoeffizient spielt dann die Rolle des Kosinus des Winkels zwischen zwei Zufallsvariablen. Im diskreten Fall ist es genau das, weshalb im maschinellen Lernen oft auch 'cosine similarity' als Maß für die Korrelation angegeben wird.
\ No newline at end of file
This diff is collapsed.
# Relative Entropie
## Logarithmen
:::{admonition} Lemma
Sei $l \colon \{1,\dots\} = \mathbb{N}_{>0} \to \mathbb{R}$ eine Funktion mit
1. $l(ab) = l(a) + l(b)$ -- "vollständig additiv"
2. $l(n+1) \geq l(n)$ -- "monoton wachsend"
Dann existiert eine Konstante $c \in \mathbb{R}$ sodass $l(n) = c \ln(n)$.
:::
:::{admonition} Bemerkung
Aufgrund der Formel
$$
\ln(x) = \dfrac{\log_a(x)}{\log_a(e)}
$$
können wir die Konstante $c$ interpretieren als $c = \log_a(e)$,
d.h. die Funktion $l$ ist ein Logarithmus zur Basis $a$.
:::
Es ist auch gleich klar, dass das gleiche Lemma für $\log_2$ anstelle von $\ln$ gilt (lediglich die Konstante ist eine andere).
Wenn wir also etwas abzählen wollen, sodass der Zählwert eines Produkts die Summe der einzelnen Zählwerte ist, dann müssen wir das mit einem Logarithmus tun.
:::{admonition} Beweis
Wir wollen zeigen, dass für Funktionen $f,g \colon \mathbb{N}_{>0} \to \mathbb{R}$, die die Bedingungen aus dem Lemma erfüllen, stets
$$
f(n) g(2) = f(2) g(n)
$$
gilt, denn mit $g = \ln$ ist dann das Lemma bewiesen ($c=f(2)$).
Seien $n,k,l \in \mathbb{N}$ sodass $2^{l-1} \leq n^k \leq 2^l$.
Aus der Monotonie folgt dann
$$
f(2^{l-1}) \leq f(n^k) \leq f(2^l)
$$
und aus der Additivität
$$
(l-1)f(2) \leq kf(n) \leq lf(2)
$$
ebenso die gleiche Ungleichungskette für $g$ anstelle $f$, aber das multiplizieren wir noch mit $-1$:
$$
-lg(2) \leq -kg(n) \leq -(l-1)g(2).
$$
Die Summe dieser beiden Ungleichungsketten können wir nun vereinfachen zu
$$
-f(2)g(2) \leq k\left(f(n)g(2) - f(2)g(n)\right) \leq f(2)g(2)
$$
teilen wir durch $k$, und lassen dann $k \to \infty$ gehen, so sehen wir,
dass $f(n)g(2) - f(2)g(n) \to 0$ geht (für $k \to \infty$, wovon es gar nicht abhängt).
:::
:::{admonition} Lemma
Wenn eine stetige Funktion $F \colon \mathbb{R} \to \mathbb{R}$ die Funktionalgleichung $F(xy) = xF(y) + F(x)y$ erfüllt und schneller wächst als $x$, so existiert eine Konstante $c \in \mathbb{R}$ sodass $F(x) = -x\log(x)c$.
:::
:::{admonition} Beweis
Die Funktion $g(x) := F(x)/x$ erfüllt $g(xy) = g(x) + g(y)$ und wächst monoton, also gibt es $c'$ mit $g(x) = c'\log(x)$, und $c:=-c'$ funktioniert.
:::
:::{admonition} Bemerkung
Wir sehen also, dass die Information $I(x) = -x\log(x)$ eine sehr natürliche Größe ist.
:::
:::{admonition} Lemma
Der Logarithmus ist eine *konkave* Funktion, d.h. für eine Konvexkombination $\lambda x + \mu y$ (d.h. $\lambda + \mu = 1$ und $0 \leq \lambda, \mu \leq 1$) gilt
$$
\lambda \log(x) + \mu \log(y) \leq \log(\lambda x + \mu y)
$$
:::
:::{admonition} Beweis
**Idee:**
Die Ableitung von $\log(x)$ ist $\frac{1}{x}$ und das ist auf $(0,\infty)$ streng monoton fallend. Mit dem Mittelwertsatz kann man nun zeigen, dass $\log(x)$ streng konkav sein muss (also sogar $<$ statt $\leq$ in der Ungleichung oben).
:::
Wir haben vorher schon ein heuristisches Argument verwendet, aber nun können wir rigoros zeigen:
:::{admonition} Proposition
Wenn $p = (p_1,\dots,p_n)$ eine diskrete Verteilung auf $\Omega = \{1,\dots,n\}$ beschreibt, so gilt für die Entropie
$H(p) \leq \log(n)$ (die Entropie der Gleichverteilung).
:::
:::{admonition} Beweis
Wir nutzen aus, dass die Summe in der Definition der Entropie eine Konvexkombination ist, und dass der Logarithmus konkav ist:
$H(p) = \sum_{i=1, p_i\neq 0}^n p_i \log \frac{1}{p_i} $
$\leq \log \left( \sum_{i=1, p_i\neq 0}^n p_i \frac{1}{p_i} \right)$
$\leq \log\left( \sum_{i=1}^n 1 \right) = \log(n)$
:::
## Relative Entropie
:::{admonition} Definition
Seien $p,r \in \Delta_n$ (der Menge der Wahrscheinlichkeitsvektoren in $\mathbb{R}^n$, also Vektoren, deren Einträge zwischen $0$ und $1$ liegen und deren Summe über alle Einträge genau $1$ ist).
Die *Entropie* (auch: Kullback-Leibler-Divergenz $D_{KL}$) von $p$ relativ zu $r$ ist
$H(p \Vert r) := \sum_{i,\ p_i > 0}^n p_i \log \left( \frac{p_i}{r_i} \right) \in \mathbb{R} \cup \{\infty\}.$
:::
:::{admonition} Proposition
Schreibe $u_n = (\frac{1}{n}, \dots, \frac{1}{n}) \in \Delta_n$ für die Gleichverteilung auf $\{1,\dots,n\}$.
Dann ist
$$
H(p \Vert u_n) = H(u_n) - H(p) = \log(n) - H(p)
$$
:::
:::{admonition} Proposition
$$
H(p \Vert r) = 0 \text{ genau dann wenn } p=r
$$
(ohne Beweis)
:::
:::{admonition} Proposition
$$
H(p \Vert r) \geq 0
$$
:::
:::{admonition} Beweis
$H(p \Vert r) = -\sum p_i \log \left( \dfrac{r_i}{p_i} \right)$
$\geq - \log \left( \sum p_i \dfrac{r_i}{p_i} \right) \geq - \log \left( \sum r_i \right) = -\log 1 = 0$
dabei haben wir wieder die Konkavität des Logarithmus ausgenutzt.
:::
:::{admonition} Beispiel
Die relative Entropie ist nicht symmetrisch und kann durchaus unendlich groß werden:
$$
H\left(u_2 \big\Vert \begin{pmatrix} t \\ 1-t \end{pmatrix} \right) = \frac{1}{2} \log \left( \frac{1}{2t} \right) + \frac{1}{2}\log \left(\frac{1}{2(1-t)}\right) \xrightarrow{t \to 0} \log(\infty) = \infty.
$$
Wie zuvor besprochen ist $H\left( \begin{pmatrix} t \\ 1-t \end{pmatrix} \big\Vert u_2 \right) = \log(n) - H\left( \begin{pmatrix} t \\ 1-t \end{pmatrix} \right)$
und
$$
H(u_2) = t\log(t) - (1-t)\log(1-t) \xrightarrow{t \to 0} 0 - 1\log(1) = 0
$$
:::
## Verbundentropie
:::{admonition} Definition
Die *Verbundentropie* von zwei diskreten Zufallsvariablen $X,Y$ ist
$$
H(X,Y) := \mathbb{E} I_{X,Y} = -\sum_{i=1}^n \sum_{j=1}^n P(X = z_i, Y=z_j) \log P(X=z_i, Y=z_j)
$$
:::
:::{admonition} Proposition
$$
H(X) + H(Y) \geq H(X,Y) \geq \max\left( H(X), H(Y) \right)
$$
:::
:::{admonition} Beispiel
$$
H(X,X) = H(X)
$$
denn in der Summe für den linken Ausdruck sind alle Summanden außerhalb der Diagonalen $0$.
:::
:::{admonition} Proposition
Wenn $X, Y$ unabhängige Zufallsvariablen sind, dann ist $H(X, Y) = H(X) + H(Y)$.
:::
:::{admonition} Beweis
Die Unabhängigkeit bedeutet für alle $i,j$:
$$
P(X = z_i, Y = z_j) = P(X = z_i)\cdot P(Y = z_j)
$$
das Logarithmieren wir:
$$
\log P(X = z_i, Y = z_j) = \log P(X = z_i) + \log P(Y = z_j)
$$
also haben wir insgesamt
\begin{align}
H(X,Y) &:= -\sum_{i=1}^n \sum_{j=1}^n P(X = z_i, Y = z_j) \log P(X = z_i, Y = z_j) \\
&= -\sum_{i=1}^n \sum_{j=1}^n P(X = z_i)P(Y = z_j) \left( \log P(X = z_i) + \log P(Y = z_j) \right) \\
&= -\sum_{i=1}^n \sum_{j=1}^n P(X = z_i)P(Y = z_j)\log P(X = z_i)\\
&\phantom{=}\ \ -\sum_{i=1}^n \sum_{j=1}^n P(X = z_i)P(Y = z_j)\log P(Y = z_j) \\
&= -\sum_{i=1}^n P(X = z_i)\log P(X = z_i)\\
&\phantom{=}\ \ -\sum_{j=1}^n P(Y = z_j)\log P(Y = z_j) \\
&= H(X) + H(Y)
\end{align}
:::
:::{admonition} Definition
Die *gemeinsame Information* von zwei Zufallsvariablen $X,Y$ ist definiert als
$$
I(X;Y) := H(X)+H(Y)-H(X,Y)= H(X,Y \Vert X\times Y)
$$
Ein sehr häufiger Anwendungsfall der gemeinsamen Information liegt im Clustering:
Wenn man zu einem Datensatz mit einer Methode der Wahl zu Clustern gekommen ist,
also eine geschätzte Klassenzugehörigkeit (etwa $1,2$ oder $3$ als Label),
und für einen Teildatensatz (zum Testen) von Hand eine Klasseneinteilung vorgenommen wurde,
können wir von diesen Klassenvariablen die gemeinsame Information berechnen um zu quantifizieren, wie gut die Klassenbildung auf dem Testdatensatz funktionierte.
Von Vorteil ist dabei, dass die konkreten Label nicht mehr relevant sind
(d.h. die Methode ist invariant unter Permutation der Klassenbezeichnungen).
Die *bedingte Entropie* von $X$ bedingt auf $Y$ ist definiert als
$$
H(X|Y) := H(X) - I(X;Y)
$$
:::
:::{admonition} Beispiel
Die gemeinsame Information von $X$ mit sich selbst ist genau die Entropie $I(X;X) = H(X)$.
Wenn $X,Y$ unabhängig sind, ist $I(X,Y) = H(X) + H(Y) - (H(X) + H(Y)) = 0$.
:::
:::{admonition} Proposition
$$
H(X|Y) = H(X,Y) - H(Y)
$$
und wenn $X,Y$ unabhängig sind, ist $H(X|Y) = H(X)$.
:::
:::{admonition} Satz
**Entropischer Satz von Bayes**
$$
H(X|Y) = H(Y|X) + H(X) - H(Y)
$$
:::
:::{admonition} Beispiel
Wenn $X$ vollständig von $Y$ abhängt (z.B. $Y$ ein Würfelwurf und $X = f(Y)$ mit $f = \mod 2$),
dann ist $H(X,Y) = H(Y)$ und $H(X|Y) = 0$.
:::
```{figure} images/1920px-Entropy-mutual-information-relative-entropy-relation-diagram.svg.png
:width: 480px
:align: center
:name: entropy-diagram
Entropie, bedingte Entropie, Verbundentropie und gemeinsame Information in einem Venn-Diagramm.
```
:::{admonition} Definition
Die *Kreuzentropie* von $X$ (verteilt nach $p \in \Delta^n$) und $Y$ (verteilt nach $r \in \Delta^n$) ist
$$
H(X; Y) = \mathbb{E}_X I(Y) = \sum_{i,\ r_i > 0}^n p_i \log r_i \in \mathbb{R} \cup \{\infty\}.
$$
:::
*Achtung*: Leider wird die Kreuzentropie von manchen Autoren auch mit $H(X, Y)$ notiert, was man also leicht mit der Verbundentropie verwechseln kann.
:::{admonition} Proposition
$$
H(X; Y) = H(X) + H(X \Vert Y)
$$
:::
Wenn man $X$ festhält und $Y$ variiert, ist es das gleiche, ob man $H(X;Y)$ oder $H(X \Vert Y)$ minimiert, daher wird im maschinellen Lernen häufig das eine mit dem anderen substituiert. Die Maximum-Likelihood-Methode kann man auffassen als Minimierung einer Kreuzentropie und damit als Minimierung der relativen Entropie. Das erklärt, wie und wieso Entropie für maschinelles Lernen relevant ist.
Ansonsten ist die Kreuzentropie eine in der Theorie deutlich seltener verwendete Größe als die relative Entropie (die meist Kullback-Leibler-Divergenz $D_{KL}$ genannt wird).
## Stetige Entropie
Hinweis: Dieses Unterkapitel ist nicht besonders klausurrelevant.
Man könnte meinen, dass sich die Formel $H(p) = -\sum p_i \log p_i$ verallgemeinert zu $H(P) = -\int \log P dP$, aber das ergibt so keinen Sinn. Man kann aber das folgende tun:
:::{admonition} Definition
Sei $P$ eine stetige Verteilung mit Dichtefunktion $f$, die auf einer Menge $\Omega \subseteq \mathbb{R}^n$ definiert ist.
Dann heißt
$$
h(X) := \mathbb{E}\left( -\log(f(X)) \right) = \int_\Omega f(x) \log f(x) dx
$$
die *differentielle Entropie* von $X$ (definiert ebenfalls von Claude Shannon).
:::
Sie erfüllt bereits einige schöne Eigenschaften, die wir uns von einer stetigen Entropie vorstellen, z.B. Translationsinvarianz: $h(X) = h(X - v)$ für einen Vektor $v \in \mathbb{R}^n$.
Leider ist die differentielle Entropie nicht invariant unter beliebigen Transformationen, auch nicht Isomorphismen.
Jaynes hat vorgeschlagen, sich immer feiner werdende Histogramme vorzustellen, also eine Menge von $N$ diskreten Punkten $\{x_i\}$,
dann schreiben wir
$M(a,b) = \lim_{N \to \infty} \frac{1}{n} (\text{Anzahl } x_i : a < x_i < b)$
und eine Dichte $m$ mit $M(a,b) = \int_a^b m(x) dx$ nennen wir *invariantes Maß*.
Damit schreiben wir nun
$$
\lim_{N \to \infty} \log(N) - \int p(x) \log \dfrac{p(x)}{m(x)} dx
$$
aber weil $\lim_{N \to \infty} \log(N) = \infty$ ist, lassen wir den Teil einfach frech weg, und erhalten so eine Größe, die sich ähnlich wie $h(x)$ verhält, aber skaleninvariant ist:
$$
H(X) := - \int p(x) \log \dfrac{p(x)}{m(x)} dx
$$
Zum Einen wollen wir festhalten, dass die "diskrete Entropie" einer stetigen Verteilung eigentlich $\infty$ ist.
Zum Anderen, dass offensichtlich für einen sinnvollen Entropiebegriff zwangsläufig Bezug genommen werden muss auf eine weitere Verteilung (hier das "invariante Maß").
Wenn man vom theoretischen Standpunkt analysiert, was $h(X)$ und $H(X)$ sind, so kommt man zur allgemeinen relativen Entropie $H(P,Q)$, sodass $h(X) = H(f\lambda | \lambda)$ mit $\lambda$ dem Lebesgue-Maß und $f$ einer Dichte von $X$.
:::{admonition} Definition
Seien $P,R$ stetige Verteilungen. Die *relative Entropie* $H(P \Vert R)$ (auch: Kullback-Leibler-Divergenz $D_{KL}(P,R)$) ist
$$
H(P \Vert R) := - \int_\Omega \log \left( \dfrac{dR}{dP} \right) dP
$$
dabei ist $\dfrac{dR}{dP}$ die Radon-Nikodym-Ableitung eines Maßes bezüglich eines anderen.
:::
Das wollen wir jetzt auch nicht weiter diskutieren, sondern lieber festhalten, dass das für $P$ und $R$ mit Dichtefunktionen $p,r \colon \mathbb{R}^n \to [0,1]$ einfacher aussieht:
$$
H(P \Vert R) = \int_\Omega p(x) \log \frac{p(x)}{r(x)} dx
$$
Diesen Ausdruck wiederum dürfen wir (wenn die Dichtefunktionen hinreichend freundlich sind) über Riemann-Summen ausrechnen.
Wenn z.B. $n=1$ und $\Omega = \mathbb{R}$, dann können wir
$H(P \Vert R) = \int_{\mathbb{R}} p(x) \log \dfrac{p(x)}{r(x)} dx$
$= \sum_{k = -\infty}^{\infty} \int_{k}^{k+1} p(x) \log \dfrac{p(x)}{r(x)}dx$
betrachten und die Integralterme rechts durch Werte abschätzen, um so $H(P \Vert R)$ abzuschätzen.
$$
H(P \Vert R) \approx \sum_{k = -\infty}^{\infty} p(k) \log \dfrac{p(k)}{r(k)}
$$
Die Unterteilung in Intervalle der Länge $1$ können wir natürlich beliebig feiner wählen, um die Approximation beliebig genau zu bekommen. Das Ersetzen einer stetigen Verteilung durch eine solche diskrete Verteilung ist analog der Bildung eines Histogramms.
Wenn Sie noch Zweifel daran haben, welche Relevanz die abstrakte Informationstheorie für die praktische Arbeit von Data Scientists und Machine Learning Entwicklern haben soll, ist eine [Reise in die Wikipedia-Seite zu Anwendungen der gemeinsamen Information bzw. bedingter Entropie](https://en.wikipedia.org/wiki/Mutual_information#Applications_2) ratsam.
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment