# Einführung in Python

## Einordnung

Python hat eine andere Designphilosophie als C, C++, Perl, Lisp, Pascal, aber viele Einflüsse aus früheren Sprachen. Durch einen aktiven Community-Prozess entwickelt sich die Sprache immer weiter.

Python ist konzipiert als Sprache, die besonders gut lesbar ist, und deren Syntax es Programmierer\*innen erlaubt, Konzepte mit weniger Codezeilen auszudrücken. Klar: Python ist eine high-level-Programmiersprache, weiter weg von konkreten Maschinenmodellen als C.
Ähnlich wie Java verwendet Python eine Garbage Collection, sodass man nicht explizit Speicher reservieren und freigeben muss, um Variablen zu belegen.

Mit Python lassen sich funktionale Programmierparadigmen verwenden wie in R oder Haskell, aber auch objektorientierte Paradigmen wie in C# oder Java.
Anders als diese Sprachen ist Python zwar auch statisch getypt, aber dynamisch gebunden. So kann ein Variablenname einmal einen String zugewiesen bekommen, direkt danach einen Boolean und danach einen Integer. Wer striktere Typen bevorzugt, kann mittlerweile mit type annotations und speziellen Lintern arbeiten.

Es gibt zwei klassische Arten, Python zu verwenden.
Mit einer REPL (read-eval-print loop), ähnlich einer Shell in der Kommandozeile, lässt sich schnell prüfen, ob kurze Codeschnipsel syntaktisch korrekt sind und sich so verhalten, wie man erwartet.
Jede\*r Anwender\*in von Python sollte sich mit dem Interpreter (also der REPL) vertraut machen.

Durch kompilieren eines Programms (.py) zu Python Bytecode (.pyc) und ausführen des Bytecodes durch Python lassen sich komplexere Aufgaben lösen. Aus einer Datei heraus lassen sich andere als Module importieren.

Ursprünglich nutzte man zum Hinzufügen von Paketen (so heißen libraries bzw. Bibliotheken bei Python) zu einer Python-Umgebung das Programm pip (Pip Installs Packages). Dieses greift z.B. auf den PyPI (Python Package Index) zurück (analog zum CPAN für Perl, CRAN für R, CTAN für TeX). Erst, wenn man ein Paket heruntergeladen und installiert hat, kann man es in seinen Code importieren und verwenden.

Inzwischen wird im Bereich Data Science meist der Package Manager conda eingesetzt (der auch für R Umgebungen verwendet werden kann). Conda kann Abhängigkeiten zwischen Paketversionen besser verwalten als Pip.

Python wird für den Data Science und Machine Learning Bereich auch in Distributionen angeboten, also gebündelt mit einigen ausgewählten Paketen. Für die Übungsaufgaben verwenden wir später die Distribution Anaconda mit Jupyter Notebooks.

Ein (Jupyter/IPython) Notebook ist ein Dokument, welches aus mehreren Zellen besteht. Jede Zelle kann entweder Text enthalten, Mathematik (LaTeX), oder auch Python-Code, der dann direkt ausgeführt wird (wie eine Browser-gestützte REPL).
Implementiert sind diese Notebooks (.ipynb) als JSON-Dokumente.

Dieses Buch ist auch eine Sammlung von Notebooks, die von Jupyter-Books zu einem zusammenhängenden Vorlesungsskript kompiliert werden.

## Weiterführende Literatur

Natürlich gibt es zu Python mittlerweile viel Material. Da die Sprache sehr lebendig ist, lohnt es sich, darauf zu achten, dass man mit python3 arbeitet. Die aktuellste Version, während diese Zeilen geschrieben werden, ist Python 3.10. Dieses Skript wurde größtenteils mit Python 3.8 erstellt.

Eine sehr nützliche Resource ist
[PEP 8, der Python Style Guide](http://www.python.org/peps/pep-0008.html),
in dem die üblichen Code Konventionen festgehalten sind.
Da Whitespace (Einrückung insb.) bei Python syntaktisch relevant ist, lohnt es sich, den Style Guide einmal zu überfliegen.

PEP steht für [Python Enhancement Proposal](https://www.python.org/dev/peps/), das ist der Community-Prozess zur Weiterentwicklung der Sprache.

Die [offizielle Dokumentation der Sprache](https://docs.python.org/3.8/) ist ausführlich und sehr nützlich. So kann man für eine bestimmte Aufgabe oft im [Python Modulindex](https://docs.python.org/3.8/py-modindex.html) ein mitgeliefertes Modul finden, dass diese Aufgabe erfüllen kann.

Für erfahrene Programmierer\*innen wurde das frei verfügbare [Dive Into Python](https://diveintopython3.net/) geschrieben. Sehr ausführlich über Installation, Konfiguration, IDEs, Coding Styles und Common Gotchas kann man im frei verfügbaren [Hitchhiker's Guide to Python](https://docs.python-guide.org/) nachlesen. Eine freundliche langsame Einführung in Python für Wissenschaftler\*innen gibt es mit der [Whirlwind Tour of Python](https://jakevdp.github.io/WhirlwindTourOfPython/) (auch wenn man das PDF unter CC0-Lizenz des bei O'Reilly erschienenen Buchs mittlerweile etwas suchen muss).

Auf Deutsch ist unter anderem der [Python-Kurs von Bernd Klein](https://www.python-kurs.eu/python3_kurs.php) gut und aktuell.

Wer gern etwas über die skurrileren Seiten (auch der Implementierung) lernen möchte, ist mit [WTF Python](https://github.com/satwikkansal/wtfpython) gut bedient.

## Wichtigstes

Um die Dokumentation und den Code von Python-Modulen schnell zu verstehen, muss man syntaktische Eigenarten und Konzepte von Python kennen. Hier sind einige der wichtigsten zusammengestellt.

### Datentypen

**Zahlen** werden entweder als Integer (int) oder als Floating Point Number (float) repräsentiert, und es gibt sogar komplexe Zahlen (complex).

In [1]:
print("23 ist", type(23), "und 23.0 ist", type(23.0))
print("und 23+2j ist", type(23+2j))
print("Addieren wir int und floats gibt's", type(23+23.0))
print("Division von Ganzzahlen ergibt float, also ist 5/2 =", 5/2)
print("Wenn wir das nicht wollen, können wir rechnen 5//2 =", 5//2)

23 ist <class 'int'> und 23.0 ist <class 'float'>
und 23+2j ist <class 'complex'>
Addieren wir int und floats gibt's <class 'float'>
Division von Ganzzahlen ergibt float, also ist 5/2 = 2.5
Wenn wir das nicht wollen, können wir rechnen 5//2 = 2


**Strings** (Zeichenketten) sind grundsätzlich Unicode, wobei auf UTF-8 zurückgegriffen wird, wenn nichts anderes spezifiziert wird. Das bedeutet heutzutage im Alltag meist, dass die Quelltexte auch mit Umlauten und Akzentzeichen klarkommen, aber bei relativ alten Dateien (gerade aus der Python2-Ära) evtl. das Encoding geändert bzw. spezifiziert werden muss. Uns wird das nicht beschäftigen.

**Dictionaries** sind Abbildungen mit endlichem Definitionsbereich, man notiert z.B. den mathematischen Sachverhalt $f \colon \{a,b\} \to \mathbb{R},\ a \mapsto 1,\ b \mapsto 2$ und $f(a) = 1$ als

In [2]:
f = {"a":1, "b":2}
if(f == dict(a=1, b=2)):
 print("Syntaktischer Zucker erlaubt es gelegentlich, auf Anführungszeichen zu verzichten.")
if(f["a"] == 1):
 print("Alles wie geplant")
print(f, "is a", type(f))
try:
 print(f["c"])
 print("an diese Stelle kommt der Interpreter nie")
except KeyError:
 f["c"] = "Man muss aufpassen, wo eckige und wo runde Klammern hinkommen"
finally:
 print(f["c"]) # aber jetzt!

Syntaktischer Zucker erlaubt es gelegentlich, auf Anführungszeichen zu verzichten.
Alles wie geplant
{'a': 1, 'b': 2} is a <class 'dict'>
Man muss aufpassen, wo eckige und wo runde Klammern hinkommen


**Tupel** sind längenfixierte unveränderliche Listen, also z.B. Paare oder Tripel. Achtung: die Addition ist nicht elementweise, sondern eine Listenkonkatenation, die ein neues (vom alten verschiedenes) Tupel erzeugt:

In [3]:
paar = (2,3)
print(paar, "is a", type(paar), "of length", len(paar))
tripel = (4,5,6)
print(paar, "+", tripel, "=", paar+tripel)
print((0,1), "* 3 =", (0,1)*3)

(2, 3) is a <class 'tuple'> of length 2
(2, 3) + (4, 5, 6) = (2, 3, 4, 5, 6)
(0, 1) * 3 = (0, 1, 0, 1, 0, 1)


**Mengen** sind ungeordnete Listen, auch die notiert man mit geschweiften Klammern:

In [4]:
Menge = {3,2,1}
print(Menge)
Nochnemenge = set((2,3,1))
Menge == Nochnemenge

{1, 2, 3}


True

**Listen** sind geordnet und können verlängert werden. Unter der Haube verwendet Python je nach Länge und Implementierung des jeweiligen Interpreters oder Compilers dann einen Array mit fester Länge (der dann notfalls getauscht wird, wenn die Liste wächst) oder eine linked List oder so. Als Anwender merkt man davon nichts und es ist für Performancefragen in der Regel irrelevant. Eine list comprehension ist eine Art, über eine Liste zu iterieren um eine weitere zu erstellen.

In [5]:
liste = [3,1,4,1,5,9]
if(5 in liste):
 print(liste, "vom Typ", type(liste), "hat Länge", len(liste))
print(liste + [-1,-1,-1])
liste += [0]
print(liste)
tripel = (1,2,3)
print(list(tripel))
# hier kommt die list comprehension:
neue = [x+2 for x in liste]
print(neue)

[3, 1, 4, 1, 5, 9] vom Typ <class 'list'> hat Länge 6
[3, 1, 4, 1, 5, 9, -1, -1, -1]
[3, 1, 4, 1, 5, 9, 0]
[1, 2, 3]
[5, 3, 6, 3, 7, 11, 2]


**Slicing** nennt man es, wenn man einen Teil einer Liste in Python auswählt mit der Doppelpunkt-Syntax.

In [6]:
zahlen = range(0,10) # Achtung, geht mit 0 los, 10 ist nicht dabei.
print(zahlen, type(zahlen))
zahlen = list(zahlen)
print(zahlen, type(zahlen))
print(zahlen[1:9]) # hier ist auch die 9 nicht dabei.
print(zahlen[:5] + zahlen[5:])
print("es geht auch negativ:", zahlen[-1:])
print(zahlen[:-1] + zahlen[-1:])

range(0, 10) <class 'range'>
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] <class 'list'>
[1, 2, 3, 4, 5, 6, 7, 8]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
es geht auch negativ: [9]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


**Generatoren** sind Objekte, die Listen in einer Hinsicht verallgemeinern: man kann sich das nächste Element geben lassen. Es muss aber keine ganze Liste im Speicher gehalten werden (und auch nicht im voraus berechnet werden), daher sind Generator-Ausdrücke an vielen Stellen die richtige Wahl für Datenverarbeitungs-Pipelines innerhalb Python.
Man kann jede Liste und jedes Tupel als Generator verwenden und auch die range-Objekte sind Generatoren.

In [7]:
gen = (x + 2 for x in range(0,5))
print(gen, "hat den Typ", type(gen))
# und erst jetzt wird die Berechnung ausgeführt:
for x in gen:
 print(x)

<generator object <genexpr> at 0x7f12b85e4660> hat den Typ <class 'generator'>
2
3
4
5
6


### Gleichheit und Identität

*Wertgleichheit* wird mit dem Operator `==` geprüft,
*Referenzgleichheit* mit dem Schlüsselwort `is`,
das entspricht einer Wertgleichheit der `id`s.

In [8]:
print(123 == 121 + 2)
a = [1,2,3]
b = a[:] # Kopie
print(id(a) == id(b))
print(a is b)
print(a is [1,2,3])
print(a == b)


True
False
False
False
True


*Typenzugehörigkeit* prüfen wir mit der Methode `isinstance`.

In [9]:
print(isinstance("a", str))
print(isinstance(123, bool))
print(type(123))
print(isinstance(123, object))

True
False
<class 'int'>
True


Noch schwächer als `==` ist ein Vergleich der darstellenden Strings (das ist etwas anderes als eine Typenkonversion zum Typ `str`). Dabei soll `repr()` einen möglichst eindeutigen String liefern, während `str()` einen möglichst lesbaren String liefern soll. Oft lässt sich der `repr`-String als Python-Code evaluieren mit `eval`, der eine Kopie des Objekts erzeugt.

In [10]:
a = dict(key1=1, key2=2)
b = {"key1":'1', "key2":'2'}
print("echt verschiedene dict Objekte haben verschiedene Repräsentationen:")
print("(", a, "==", b, ") =", a == b)
print("aber bei dict Objekten ist str() das gleiche wie repr()")
print("(", repr(a), "==", str(a), ") = ", repr(a) == str(a))

c = eval(repr(a))
print(c)

print(str(3) == str("3"))
print(repr(3) == repr("3"))
print(repr(3), "!=", repr("3"))

echt verschiedene dict Objekte haben verschiedene Repräsentationen:
( {'key1': 1, 'key2': 2} == {'key1': '1', 'key2': '2'} ) = False
aber bei dict Objekten ist str() das gleiche wie repr()
( {'key1': 1, 'key2': 2} == {'key1': 1, 'key2': 2} ) = True
{'key1': 1, 'key2': 2}
True
False
3 != '3'


<!--
### Funktionale Programmierung


### map, filter, reduce, zip

### lambda

### 
-->


### Objektorientierte Programmierung

In [11]:
class meineKlasse():
 def meineMethode(self, methodisch):
 print(methodisch, self)
 
 def __init__(self):
 self.attribut = 123
 
 def __repr__(self):
 return str(self.attribut)
 
x = meineKlasse()
x.meineMethode("test")
print(type(x))
isinstance(x, object)

test 123
<class '__main__.meineKlasse'>


True

Der Polymorphismus geht so weit, dass man oft nicht wissen muss, ob eine Variable nun auf eine Klasse oder eine Methode verweist - wenn es `Callable` ist, kann man `()` dahinter hängen und bekommt etwas.


### Privat und Öffentlich

Es gibt (im Gegensatz zu z.B. Java) in Python keine Möglichkeit, etwas zu verstecken (private, protected, etc.) außer durch Konvention: wenn ein Objektattribut oder eine Methode mit einem einzelnen Underscore vorangestellt gekennzeichnet ist, soll sie als "privat" betrachtet werden.

### Dictionaries und Tupel sind überall

Tupel lassen sich auspacken:

In [12]:
t = (1, 2, 3)
a, b, c = t
print(t, a, b, c)

(1, 2, 3) 1 2 3


In einer Methodendeklaration gibt es die Möglichkeit, beliebig viele Positionsargumente zuzulassen:

In [13]:
def methode(*args):
 return args

methode()
print(methode(1,2,3,"vier"))

def neuemethode(argmusssein, *args):
 return args

print(neuemethode(1,2,3,"vier"))

(1, 2, 3, 'vier')
(2, 3, 'vier')


In [14]:
try:
 neuemethode()
except TypeError as e:
 print(e)

neuemethode() missing 1 required positional argument: 'argmusssein'


Ebenso kann man mit Schlüsselwortargumenten umgehen:

In [15]:
def methode(**kwargs):
 return kwargs

methode()
print(methode(key="value"))

try:
 methode("123")
except TypeError as e:
 print(e)

{'key': 'value'}
methode() takes 0 positional arguments but 1 was given


Insgesamt kann man eine Folge von zwingenden Positionsargumenten, eine Folge von spezifizierten Schlüsselwortargumenten und beliebiege weitere zulassen:

In [16]:
def methode(posarg, posarg2, *args, kwarg=None, kwarg2=True, **kwargs):
 return args, kwargs

#methode() # <--- geht nicht

methode(1, 2, 3, 4, 5, kwarg2=False, kwarg3="test")

((3, 4, 5), {'kwarg3': 'test'})

Um direkt ein ganzes `dict`-Objekt als Schlüsselwortargumente zu übergeben, kann man dies entpacken (und genau so Tupel):

In [17]:
args = (1, 2, 3, 4, 5)
kwargs = {"kwarg2": False, "kwarg3": "test"}
print(methode(*args, **kwargs))

print(args)
print(*args)

((3, 4, 5), {'kwarg3': 'test'})
(1, 2, 3, 4, 5)
1 2 3 4 5


Auch Objektattribute werden in einem `dict` verwaltet:

In [18]:
class neueKlasse():
 def __init__(self):
 self.x = 1
 self.y = 2
 
neuesObjekt = neueKlasse()
print(neuesObjekt.__dict__)
neuesObjekt.__dict__["z"] = 3
neuesObjekt.z == 3

{'x': 1, 'y': 2}


True



[Link zum Comic (Randall Munroe, CC-BY-NC 2.5)](https://xkcd.com/353)