Pandas DataFrame: Tabellen in Python effizient und strukturiert bearbeiten!

Inhaltsverzeichnis

Der pandas DataFrame ist eine Python-Datenstruktur, mit der du Tabellen erstellen und bearbeiten kannst. Wir erklären dir den Aufbau dieser Struktur sowie die wichtigsten Methoden und Eigenschaften.

Wie funktionieren pandas DataFrames?

pandas DataFrames sind das Herzstück der Python-pandas-Bibliothek und ermöglichen eine effiziente und flexible Datenanalyse in Python. Ein pandas DataFrame ist eine zweidimensionale tabellarische Datenstruktur mit nummerierten Zeilen und beschrifteten Spalten. Diese Struktur erlaubt es, Daten leicht verständlich zu organisieren, ähnlich wie in Excel oder LibreOffice. Jede Spalte kann unterschiedliche Python-Datentypen enthalten. Ein DataFrame kann also heterogene Daten speichern – etwa Zahlen, Text und Booleans in einer einzigen Tabelle.

Tipp

pandas DataFrames basieren auf NumPy-Arrays, was eine schnelle Handhabung von Daten ermöglicht. Allerdings unterscheiden sie sich von NumPy-Strukturen durch ihre Heterogenität und die Dimensionen. Während NumPy ideal für riesige Mengen numerischer Werte ist, eignen sich pandas DataFrames besser für die allgemeine Datenmanipulation.

Aufbau von pandas DataFrames

Ein DataFrame besteht aus drei Kernkomponenten: den Daten, den Zeilenindizes und den Spaltennamen. Der Zeilenindex dient als eindeutige Kennung für jede Zeile. Standardmäßig sind Zeilen numerisch indexiert, du kannst sie aber durch Strings ersetzen. Beachte, dass pandas DataFrames null-indexiert sind, die Indizes beginnen also bei 0.

pandas DataFrames sind tabellarisch aufgebaut und ähneln Excel- oder SQL-Tabellen.

Hinweis

Obwohl pandas DataFrames extrem nützlich sind, gehören sie nicht zum Standardumfang von Python und müssen extra eingebunden werden. Das erledigst du mit der Zeile import pandas oder from pandas import DataFrame am Anfang deiner Datei. Alternativ nutzt du import pandas as pd, um das Modul mit dem kurzen Namen „pd“ anzusprechen.

Der Umgang mit pandas DataFrames

pandas DataFrames bieten viele Methoden, um Daten effizient zu bearbeiten, zu analysieren und zu visualisieren. Hier lernst du die wichtigsten Konzepte zur Datenmanipulation kennen.

Pandas DataFrame erstellen

Hast du deine Daten bereits in einer Python-Liste oder einem Python-Dictionary, kannst du daraus leicht einen DataFrame erstellen. Übergib die Struktur einfach dem Konstruktor pandas.DataFrame([Daten]). Die Interpretation hängt vom Typ ab. So erstellst du einen DataFrame aus einer Liste:

import pandas
liste = ["Ahmed", "Beatrice", "Candice", "Donovan", "Elisabeth", "Frank"]
df = pandas.DataFrame(liste)
print(df)
# Ausgabe:
#            0
# 0     Ahmed
# 1      Beatrice
# 2     Candice
# 3    Donovan
# 4    Elisabeth
# 5  Frank

python

Wie du im Beispiel siehst, entstehen aus einfachen Listen DataFrames mit nur einer einzelnen, unbeschrifteten Spalte. Daher ist es besser, DataFrames aus Dictionaries mit Listen zu erstellen. Dabei werden die Schlüssel zu Spaltennamen und die Listen zu den Daten. Hier ein Beispiel:

import pandas
daten = {
    'Name': ['Arthur', 'Bruno', 'Christoph'],
    'Alter': [34, 30, 55],
    'Gehalt': [75000.0, 60000.5, 90000.3],
}
df = pandas.DataFrame(daten)
print(df)
# Ausgabe:
#         Name  Alter   Gehalt
# 0     Arthur     34  75000.0
# 1      Bruno     30  60000.5
# 2  Christoph     55  90000.3

python

So erhält der DataFrame sofort das richtige Format. Du kannst Daten aber auch **aus externen Quellen laden**, etwa aus CSV-Dateien oder einer [SQL](t3://page?uid=32449)-Datenbank. Nutze dafür die passende pandas-Funktion:

import pandas
import sqlalchemy
# DataFrame von CSV:
csv = pandas.read_csv("csv-dateien/daten.csv")
# DataFrame von SQL:
engine = create_engine('postgresql://benutzername:passwort@localhost:5432/meine_datenbank')
sql = pandas.read_sql_query('SELECT * FROM tabelle', engine)

python

Die DataFrames csv und sql enthalten nun alle Daten aus der Datei daten.csv bzw. der SQL-Tabelle tabelle. Du kannst beim Import weitere Details festlegen, etwa ob Indizes übernommen werden sollen. Details dazu findest du in der offiziellen pandas-Dokumentation.

Tipp

Um einen DataFrame aus einer SQL-Tabelle zu laden, kombiniere pandas mit einem Modul wie SQLAlchemy. Baue die Verbindung zur Datenbank auf und übergib sie an read_sql_query().

Pandas DataFrames: Daten anzeigen

Du kannst die ganze Tabelle oder gezielt Zeilen und Spalten ausgeben. Das folgende Beispiel zeigt, wie du einzelne oder mehrere Bereiche selektierst:

# 0-te Zeile ausgeben
print(df.loc[0])
# Zeilen 3 bis 6 ausgeben
print(df.loc[3:6])
# Zeilen 3 und 6 ausgeben
print(df.loc[[3, 6]])
# Spalte „Beruf“ ausgeben
print(df["Beruf"])
# Spalten „Beruf“ und „Alter“ ausgeben
print(df[["Beruf", "Alter"]])
# Auswahl mehrerer Zeilen und Spalten
print(df.loc[[3, 6], ['Beruf', 'Alter']])

python

Spalten sprichst du über ihren Namen in Klammern an, ähnlich wie bei Dictionaries. Für Zeilen nutzt du das Attribut loc. Mit loc kannst du Daten auch nach logischen Bedingungen filtern. Hier werden nur Zeilen ausgegeben, in denen „Alter“ über 30 liegt:

print(df.loc[df['Alter'] > 30])

python

Mit dem Attribut iloc wählst du Daten basierend auf ihrer Position aus. So greifst du etwa auf die Zelle in der dritten Zeile und vierten Spalte zu:

print(df.iloc[3, 4])
# Ausgabe:
# Hamburg
print(df.iloc[[3, 4, 6], 4])
# Ausgabe:
# 3    Hamburg
# 4    München
# 6    Saarbrücken

python

Pandas DataFrames: Über Zeilen iterieren

Oft musst du jede Zeile einzeln bearbeiten. pandas bietet dafür zwei Methoden: itertuples() und iterrows(). Beide haben Vor- und Nachteile bei Performance und Komfort.

Die Methode iterrows() liefert für jede Zeile ein Tupel aus Index und Series zurück. Eine Series ist ähnlich wie eine Liste, aber performanter. Der Zugriff erfolgt bequem über den Spaltennamen.

Obwohl Series effizient sind, verursachen sie Rechenaufwand. Daher ist itertuples() bei sehr großen DataFrames besser. Im Gegensatz zu iterrows() gibt itertuples() die ganze Zeile inkl. Index als Tupel zurück. Diese sind schneller, und der Zugriff erfolgt per Punkt-Notation, wie bei Objekt-Attributen.

Wichtig: Tupel sind unveränderbar (immutable). Willst du Werte während der Iteration mit itertuples() ändern, musst du den DataFrame über das at-Attribut und den Index referenzieren. Das funktioniert ähnlich wie loc. Hier der Vergleich:

import pandas
df = pandas.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Alter': [25, 30, 35],
    'Gehalt': [70000.0, 80000.5, 90000.3]
})
for index, row in df.iterrows():
        row['Gehalt'] += 1000
        print(f"Index: {index}, Alter: {row['Alter']}, Gehalt: {row['Gehalt']}")
for tup in df.itertuples():
        df.at[tup.Index, 'Gehalt'] += 1000 # Wert mittels at[] direkt im DataFrame ändern
        print(f"Index: {tup.Index}, Alter: {tup.Alter}, Gehalt: {df.loc[tup.Index, 'Gehalt']}")
# Beide Schleifen haben dieselbe Ausgabe

python

So nutzt du Pandas any() richtig

Mit der Pandas-Methode `any()` prüfst du blitzschnell, ob in deinem DataFrame auf der gewählten Achse zumindest ein True-Wert vorkommt. Das Tool ist beim Analysieren und Validieren deiner Daten ein echtes Ass im Ärmel. Wir erklären dir, wie du die Funktion gezielt anwendest und…

UndreyShutterstock

Python Pandas: Datenzugriff mit iloc[]

Analysierst du Daten in Python Pandas, ist oft nur ein Teil deines DataFrames wirklich relevant. Mit der Eigenschaft iloc[] hast du das ideale Werkzeug parat, um Zeilen oder Spalten ganz einfach über ihre Indizes herauszufiltern. Erfahre hier, wie du diese Funktion effizient für…

REDPIXEL.PLShutterstock

Pandas mean(): Mittelwerte ganz unkompliziert berechnen

Die Methode Pandas DataFrame.mean() ermittelt effizient Mittelwerte in deinen Datensätzen. Sie geht souverän mit NaN-Werten um und berechnet Durchschnitte für Zeilen sowie Spalten. In diesem Guide erfährst du, welche Parameter entscheidend sind, damit bei deiner Datenverarbeitung…

UndreyShutterstock

Pandas-DataFrames mit merge() effizient zusammenführen

Mit der merge()-Funktion von Pandas bündelst du als Programmierer:in flexibel Daten aus unterschiedlichsten Quellen. Nutze die Parameter gezielt für diverse Joins, um deine Analysen auf das nächste Level zu heben. Wir zeigen dir in diesem Guide, wie du merge() richtig einsetzt,…

Mr. Kosalshutterstock

Lücken schließen: NaN-Werte mit Pandas fillna() bereinigen

Die Pandas-Funktion fillna() hilft dir dabei, fehlende Werte in Datensätzen professionell zu handhaben. Dank vielseitiger Parameter ersetzt du NaN-Werte flexibel nach deinen Vorstellungen, damit deine Projekte glatt laufen. Erfahre hier, welche Optionen dir zur Verfügung stehen…

Pandas DataFrame: Tabellen in Python effizient und struk­tu­riert be­ar­bei­ten!

Wie funk­tio­nie­ren pandas Da­ta­Frames?

Aufbau von pandas Da­ta­Frames

Der Umgang mit pandas Da­ta­Frames

Pandas DataFrame erstellen

Pandas Da­ta­Frames: Daten anzeigen

Pandas Da­ta­Frames: Über Zeilen iterieren

Pandas DataFrame: Tabellen in Python effizient und strukturiert bearbeiten!

Wie funktionieren pandas DataFrames?

Aufbau von pandas DataFrames

Der Umgang mit pandas DataFrames

Pandas DataFrames: Daten anzeigen

Pandas DataFrames: Über Zeilen iterieren