Pandas-DataFrames: Den Index meistern

Inhaltsverzeichnis

Das Indexieren von Python Pandas DataFrames erlaubt dir den direkten und schnellen Zugriff auf bestimmte Datenpunkte. Mit einem Pandas-DataFrame-Index wählst du gezielt Zeilen oder Spalten aus, was deine Datenanalyse spürbar vereinfacht.

Was bewirkt die Indexierung?

Die Indexierung eines Pandas DataFrames dient dazu, die Auswahl einzelner Elemente zu optimieren. Das gelingt dir, indem du Zeilen und Spalten über ihre Position oder ihren Namen ansprichst. Indizes fungieren dabei als praktisches Adresssystem für deine Datenstruktur, damit du Informationen schneller findest und bearbeitest.

Syntax von Pandas `DataFrame.index`

Du kannst dir die Index-Labels deines Pandas DataFrames mit der Eigenschaft index anzeigen lassen. Die Syntax dafür sieht so aus:

DataFrame.index

python

Methoden zur Indizierung von DataFrames

Es stehen dir verschiedene Wege offen, um Pandas DataFrames zu indexieren. Je nachdem, was du erreichen möchtest, unterscheidet sich die Syntax der Operation.

Indexierung über Labels (Spaltennamen)

Pandas DataFrames nutzen oft Spaltennamen für die Indexierung. Erstellen wir dazu zuerst einen Beispiel-DataFrame:

import pandas as pd
# Beispiel-DataFrame erstellen
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Alter': [25, 30, 35],
    'Stadt': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

python

So ist der DataFrame aufgebaut:

Name  Alter      Stadt
0    Alice     25     New York
1    Bob     30  Los Angeles
2  Charlie     35    Chicago

Um auf alle Werte einer bestimmten Spalte zuzugreifen, nutzt du den Namen zusammen mit dem Indizierungsoperator []. Den Spaltennamen gibst du einfach als Python-String an:

# Zugriff auf die Spalte „Alter“
print(df['Alter'])

python

Das Ergebnis liefert dir die entsprechenden Alterswerte:

0    25
1    30
2    35
Name: Alter, dtype: int64

Möchtest du mehrere Spalten gleichzeitig aufrufen, listest du deren Namen einfach durch Kommata getrennt im Operator auf.

Indexierung via `loc[]` (Zeilennamen)

Für den Zugriff auf eine konkrete Zeile nutzt du den Pandas-Indexer loc. Du übergibst ihm entweder den Namen oder die Nummer der Zeile. Im Beispiel ziehen wir aus dem bekannten DataFrame die nullte Zeile mit den Daten für „Alice“ heraus:

print(df.loc[0])

python

Als Resultat erhältst du wie gewünscht die Werte, die Alice zugeordnet sind:

Name        Alice
Alter          25
Stadt    New York
Name: 0, dtype: object

Indexierung mittels `iloc[]` (Positionsnummern)

Der wohl gängigste Weg, um auf Elemente zuzugreifen, läuft über Zeilen- und Spaltennummern. Hierfür bietet Pandas die Eigenschaft iloc an, die rein numerisch arbeitet.

# Zugriff auf die nullte Zeile
print(df.iloc[0])
# Zugriff auf den Wert in der nullten Zeile und ersten Spalte
print(df.iloc[0, 1])

python

Die Arbeit mit iloc[] liefert dir präzise die erwarteten Werte zurück:

Name        Alice
Alter          25
Stadt    New York
Name: 0, dtype: object
25

Einzelne Werte gezielt abfragen

Suchst du nur einen ganz bestimmten Wert, ist der Indexer at die schnellste Lösung. Du definierst die Zeile und Spalte einfach über deren Namen. Wenn du etwa wissen willst, wo Bob wohnt, nutzt du die Spalte „Stadt“ und die erste Zeile:

print(df.at(1, 'Stadt'))

python

Die Ausgabe bestätigt korrekt den Wohnort „Los Angeles“.

Alternativ steht dir der iat-Indexer zur Verfügung. Er arbeitet wie at, verlangt aber anstelle von Namen die genaue Position im Index. So kommst du mit iat zum selben Ergebnis:

print(df.iat(1, 2))

python

Boolesche Indexierung

Du kannst Daten auch basierend auf logischen Bedingungen filtern – das nennt man boolesche Indizierung. Die Bedingung muss entweder True oder False ergeben und wird direkt in den Operator geschrieben. Um etwa alle Personen anzuzeigen, die älter als 30 Jahre sind, gehst du so vor:

# Auswahl der Zeilen, in denen das Alter größer als 30 ist
print(df[df[Alter] > 30])

python

Da dies nur auf den 35-jährigen „Charlie“ zutrifft, sieht das Ergebnis so aus:

Name  Alter    Stadt
2  Charlie     35  Chicago

Pandas iterrows(): So gehst du DataFrames Zeile für Zeile durch

Die Methode iterrows() lässt dich Zeile für Zeile durch deinen Pandas DataFrame navigieren. Das ist ideal für punktgenaue Berechnungen in deinem Datensatz. Wir erklären dir, wie du die Funktion richtig anwendest, damit deine Skripte jederzeit glatt laufen.

Mr. Kosalshutterstock

So nutzt du Pandas any() richtig

Mit der Pandas-Methode `any()` prüfst du blitzschnell, ob in deinem DataFrame auf der gewählten Achse zumindest ein True-Wert vorkommt. Das Tool ist beim Analysieren und Validieren deiner Daten ein echtes Ass im Ärmel. Wir erklären dir, wie du die Funktion gezielt anwendest und…

ESB Professionalshutterstock

Pandas DataFrame: Tabellen in Python effizient und strukturiert bearbeiten!

Pandas ist dein Kraftpaket für die moderne Datenverarbeitung mit Python. Die wichtigste Basis dafür sind DataFrames, mit denen du strukturierte Infos effizient und übersichtlich im Griff hast. Wir zeigen dir mit einfachen Code-Beispielen, wie die Datenstruktur aufgebaut ist und…

UndreyShutterstock

Python Pandas: Datenzugriff mit iloc[]

Analysierst du Daten in Python Pandas, ist oft nur ein Teil deines DataFrames wirklich relevant. Mit der Eigenschaft iloc[] hast du das ideale Werkzeug parat, um Zeilen oder Spalten ganz einfach über ihre Indizes herauszufiltern. Erfahre hier, wie du diese Funktion effizient für…

REDPIXEL.PLShutterstock

Pandas mean(): Mittelwerte ganz unkompliziert berechnen

Die Methode Pandas DataFrame.mean() ermittelt effizient Mittelwerte in deinen Datensätzen. Sie geht souverän mit NaN-Werten um und berechnet Durchschnitte für Zeilen sowie Spalten. In diesem Guide erfährst du, welche Parameter entscheidend sind, damit bei deiner Datenverarbeitung…

Pandas-Da­ta­Frames: Den Index meistern

Was bewirkt die In­de­xie­rung?

Syntax von Pandas DataFrame.index

Methoden zur In­di­zie­rung von Da­ta­Frames

In­de­xie­rung über Labels (Spal­ten­na­men)

In­de­xie­rung via loc[] (Zei­len­na­men)

In­de­xie­rung mittels iloc[] (Po­si­ti­ons­num­mern)

Einzelne Werte gezielt abfragen

Boolesche In­de­xie­rung

Pandas-DataFrames: Den Index meistern

Was bewirkt die Indexierung?

Syntax von Pandas `DataFrame.index`

Methoden zur Indizierung von DataFrames

Indexierung über Labels (Spaltennamen)

Indexierung via `loc[]` (Zeilennamen)

Indexierung mittels `iloc[]` (Positionsnummern)

Boolesche Indexierung