Skip to content
Snippets Groups Projects
Select Git revision
0 results

statistische-tests.md

Blame
  • Code owners
    statistische-tests.md 37.80 KiB

    Statistische Tests

    Bei der explorativen Datenanalyse kommen wir zu Hypothesen, welche Zusammenhänge in den Daten stecken. Bei der Implementierung von Systemen mit maschinellem Lernen müssen wir zahlreiche Entscheidungen treffen, etwa ob wir eine Variable als Normalverteilt annehmen können, ob die Verteilung für zwei Gruppen oder Cluster etwa gleich oder sehr verschieden ist.

    Genau genommen gehören statistische Tests nicht in das Gebiet "maschinelles Lernen", aber vom Ablauf der Vorlesung passt es hier ganz gut hin.

    Ein Test lässt sich interpretieren als ein Schätzer, der keinen einzelnen Wert, sondern einen ganzen Bereich als mögliche Werte schätzt, gefolgt von einer Entscheidungsregel, die das Schätzergebnis interpretiert hinsichtlich einer Hypothese. Bevor wir uns mit dem Thema oberflächlich beschäftigen, damit wir einordnen können, was ein Test leisten könnte, und was die Grenzen der statistischen Tests sind, schauen wir uns noch an, was der Unterschied zwischen einzelnen Werten und Bereichen von Werten für die Kommunikation von wissenschaftlichen Ergebnissen bzw. Data Science Ergebnissen ausmacht.

    Prognoseintervalle

    Wir betrachten zur Motivation die Grafik {ref}warming-without-confidence und setzen Sie danach in Bezug zu {ref}warming-with-confidence

    :width: 280px
    :align: center
    :name: warming-without-confidence
    
    Globale Erwärmung, Projektion (A2r Szenario bei 970 ppmv, IIASA 2009)

    Gezeigt ist eine Projektion eines statistischen Modells zur Vorhersage der globalen Erwärmung (hier angegeben als Temperaturänderung relativ zum vorindustriellen Niveau, was definiert ist als Temperaturmittelwert der Jahre 1850 bis 1900) unter der Voraussetzung, dass der CO2-Gehalt der Atmosphäre auf 970 ppmv (parts per million by volume) ansteigt (vgl. 30.5.2022: 421 ppmv und 1900: 296 ppmv). Kontext: das Pariser Klimaschutzabkommen schreibt eine Begrenzung auf 1.5°C bzw. 2°C fest - nicht bis 2040, sondern bis 2100.

    Betrachten wir diese Grafik mit den Data Science Augen: was gäbe es daran zu kritisieren?

    Ein häufiger Einwand gegenüber solchen Modellen und Grafiken ist, dass es so kommen könnte, genauso gut aber auch ganz anders, da es sich ja nur um theoretische Modelle handle. Die Grafik drückt eine große Sicherheit beim Verlauf der Kurve aus, die so nicht gegeben sein kann - damit ist die Aussage "es wird so kommen" von vornherein unglaubwürdig. Klar: kommuniziert werden soll "es könnte so kommen", aber das ist für sich genommen etwa so nützlich wie "es könnte regnen oder auch trocken bleiben".

    Um Entscheidungen auf Grundlage einer statistischen Vorhersage treffen zu können, müssen wir auch wissen, mit welcher Plausibilität die Vorhersage getroffen werden kann. Betrachten wir zum Vergleich {ref}warming-with-confidence, eine Grafik aus dem IPCC (Weltklimarat) Bericht SR15, Summary for Policymakers, Figure 1 a) {cite}sr15:

    :width: 480px
    :align: center
    :name: warming-with-confidence
    
    Globale Erwärmung, Projektion (IPCC SR15, Fig.1)

    Um diese Grafik richtig lesen zu können, müssen wir noch die IPCC Calibrated Language kennen, genau genommen die Likelihood scale (dabei beziehen sich AR4 und AR5 auf 'assessment reports', die vor dem Sonderbericht über 1.5°C erschienen sind):

    :width: 560px
    :align: center
    :name: likelihood-scale
    
    IPCC Likelihood scale

    Nun sehen wir, dass es sich beim grau schattierten Bereich um den Bereich handelt, in dem mit mind. 2/3 Wahrscheinlichkeit die tatsächlichen Messwerte liegen werden (laut Modell). Anhand dieser Information kann man deutlich besser einschätzen, welche zukünftigen Erwärmungen zu erwarten sind, selbst wenn wir 'Glück haben' oder auch wie schlimm es werden könnte, wenn wir 'Pech haben'. Der grau schattierte Bereich ist genau genommen ein Prognoseintervall, in dem der tatsächliche Wert in Zukunft mit hoher Wahrscheinlichkeit vermutet wird. Eng verwandt ist ein Konfidenzintervall, welches der Bereich ist, in dem der tatsächliche Wert in (z.B.) 95% der erwarteten Beobachtungen vermutet wird.

    Wir verweisen für die mathematische Theorie von Bereichsschätzern / Konfidenzintervallen auf Vorlesungen über Statistik. Unser Ziel soll im Folgenden vor Allem sein, den Begriff des Tests so weit verstanden zu haben, dass wir einordnen können, ob eine angebliche Interpretation eines statistischen Tests seriös ist. Wenn wir das können, wollen wir außerdem in der Lage sein, zu identifizieren, in welchen Situationen ein Hypothesentest sinnvolle Erkenntnisse liefern kann. Dafür wird es vor allem wichtig sein, den Begriff der Signifikanz zu besprechen.

    Konfidenzintervalle

    Hinweis: dieser Abschnitt ist vor Allem zum besseren Verständnis statistischer Tests hier, und wird für sich genommen nicht in der Klausur abgefragt.

    :::{admonition} Definition Sei (\mathcal{X}, P_\theta : \theta \in \Theta) ein statistisches Modell, \Sigma eine beliebige Menge und \tau \colon \Theta \to \Sigma eine zu schätzende Größe in Abhängigkeit des Parameters \theta. Sei außerdem 0 < \alpha < 1 eine reelle Zahl. Eine Abbildung C \colon \mathcal{X} \to \mathcal{P}(\Sigma), die jedem möglichen Beobachtungsergebnis x \in \mathcal{X} eine Menge C(x) \subseteq \Sigma zuordnet, heißt Konfidenzbereich für \tau zum Irrtumsniveau \alpha, wenn

    \inf_{\theta \in \Theta} P_{\theta}\left( x \in \mathcal{X} \colon \tau(\theta) \in C(x) \right) \geq 1 - \alpha.