"In diesem Notebook nutzen wir nur Numpy (kein Pandas, Scikit-learn o.ä.) um eine diskrete Analyse des Kaggle-Titanic-Datensatzes durchzuführen. Die naheliegenden Aufgaben sind explorative Analyse (EDA) und das Modellieren der Variable 'Überlebenswahrscheinlichkeit' für die Instanzen (ein Auszug aus der Passagierliste der Titanic). Wir wollen am Rande zur Motivation auch eine erste multivariate Analyse betrachten, auch wenn wir die Theorie dazu noch nicht besprochen haben.\n",
"\n",
"## Daten laden\n",
"\n",
"Wir werden erstmal naiv die Komma-separierte Datei von Kaggle (die mit Überschriften daher kommt) laden, und schauen, was passiert."
"1,0,3,\"Braund, Mr. Owen Harris\",male,22,1,0,A/5 21171,7.25,,S\n",
"\n"
]
}
],
"source": [
"with open(filename, \"r\") as file:\n",
" for i in range(2):\n",
" print(file.readline())"
]
},
{
"cell_type": "markdown",
"id": "17cb9168-8bd2-4f52-970c-91db333c9a44",
"metadata": {},
"source": [
"Die einfachste Lösung ist nun einen besseren CSV-Parser einzusetzen. Damit wir uns jetzt nicht damit auseinandersetzen müssen, tun wir einfach so, als hätten wir das in der Vergangenheit getan. Tatsächlich ist die CSV mit Libreoffice in ein TSV (tab-separated-values) umgewandelt worden."
"Wir haben noch nicht formal eingeführt, was das ist, aber so lassen wir schnell den sogenannten Korrelationskoeffizienten ausrechnen. Wir können uns für später aufheben, wie wir das interpretieren, was wir hier sehen."
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "460cb886-4477-4d69-a4c8-73d29301f999",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Correlation between being female and survival: 0.54\n",
"Correlation between being male and survival: -0.54\n"
In diesem Notebook nutzen wir nur Numpy (kein Pandas, Scikit-learn o.ä.) um eine diskrete Analyse des Kaggle-Titanic-Datensatzes durchzuführen. Die naheliegenden Aufgaben sind explorative Analyse (EDA) und das Modellieren der Variable 'Überlebenswahrscheinlichkeit' für die Instanzen (ein Auszug aus der Passagierliste der Titanic). Wir wollen am Rande zur Motivation auch eine erste multivariate Analyse betrachten, auch wenn wir die Theorie dazu noch nicht besprochen haben.
## Daten laden
Wir werden erstmal naiv die Komma-separierte Datei von Kaggle (die mit Überschriften daher kommt) laden, und schauen, was passiert.
Die einfachste Lösung ist nun einen besseren CSV-Parser einzusetzen. Damit wir uns jetzt nicht damit auseinandersetzen müssen, tun wir einfach so, als hätten wir das in der Vergangenheit getan. Tatsächlich ist die CSV mit Libreoffice in ein TSV (tab-separated-values) umgewandelt worden.
Wir haben noch nicht formal eingeführt, was das ist, aber so lassen wir schnell den sogenannten Korrelationskoeffizienten ausrechnen. Wir können uns für später aufheben, wie wir das interpretieren, was wir hier sehen.