Pandas-DataFrames mit merge() effizient zusammenführen

Inhaltsverzeichnis

Die Pandas-Funktion DataFrame.merge() dient dazu, zwei DataFrames anhand von gemeinsamen Schlüsseln (Keys) miteinander zu verbinden. Auf diese Weise lassen sich Daten verschiedener Quellen effizient kombinieren, um umfassendere Analysen durchzuführen.

Syntax der Pandas `merge()`-Funktion

Die Python Pandas DataFrame-merge()-Methode kann eine ganze Reihe verschiedener Parameter entgegennehmen, welche die Art und Weise der Kombination der zu verbindenden DataFrames beeinflussen. Die allgemeine Syntax der merge()-Funktion lautet dabei wie folgt:

DataFrame.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

python

Relevante Parameter

Mithilfe der verschiedenen Parameter, die Pandas merge() entgegennimmt, spezifizierst du nicht nur die zu kombinierenden Pandas DataFrames, sondern auch die Art des Joins und weitere Details.

Parameter	Beschreibung	Standardwert
`left`	Erster DataFrame für die Verbindung
`right`	Zweiter DataFrame für die Verbindung
`how`	Art der Join-Operation (`inner`, `outer`, `left` oder `right`)	`inner`
`on`	Spalte oder Indexebene(n) als gemeinsamer Schlüssel
`left_on`	Spalte oder Indexebene(n) des linken DataFrames als Schlüssel
`right_on`	Spalte oder Indexebene(n) des rechten DataFrames als Schlüssel
`left_index`	Bei `True` dient der linke Index als Schlüssel	`False`
`right_index`	Bei `True` dient der rechte Index als Schlüssel	`False`
`sort`	Bei `True` erfolgt eine lexikographische Sortierung der Schlüssel	`False`
`suffixes`	Suffixe zur Eindeutigkeit gleichnamiger Spalten	`("_x", "_y")`
`copy`	Bei `False` wird keine Kopie erstellt	`True`

Anwendung von Pandas `merge()`

Praktische Beispiele helfen dabei, die Funktionsweise von Pandas merge() besser zu verstehen.

`INNER JOIN`

Ein INNER JOIN verbindet zwei Pandas DataFrames und liefert nur jene Zeilen, bei denen die Schlüssel in beiden DataFrames identisch sind. Zuerst erstellen wir zwei DataFrames mit Beispieldaten:

import pandas as pd
# Beispiel-DataFrames
df1 = pd.DataFrame({
    'Schlüssel': ['A', 'B', 'C'],
    'Wert1': [1, 2, 3]
})
df2 = pd.DataFrame({
    'Schlüssel': ['B', 'C', 'D'],
    'Wert2': [4, 5, 6]
})
print(df1)
print(df2)

python

Die beiden DataFrames sehen so aus:

Schlüssel    Wert1
0                 A            1
1                 B            2
2                 C            3
    Schlüssel    Wert2
0                 B            4
1                 C            5
2                 D            6

Ein INNER JOIN lässt sich nun mit der merge()-Funktion umsetzen:

# INNER JOIN
result = pd.merge(df1, df2, how='inner', on='Schlüssel')
print(result)

python

Das Ergebnis zeigt, dass nur die Zeilen mit den Schlüsseln B und C übernommen werden, da diese in beiden ursprünglichen DataFrames vorkommen.

Schlüssel    Wert1    Wert2
0                 B            2            4
1                 C            3            5

`OUTER JOIN`

Ein OUTER JOIN verknüpft ebenfalls zwei DataFrames. Anders als beim INNER JOIN werden hier alle Zeilen ausgegeben, wobei fehlende Daten mit NaN befüllt werden.

# OUTER JOIN
result = pd.merge(df1, df2, how='outer', on='Schlüssel')
print(result)

python

Wie erwartet enthält das Ergebnis sämtliche Zeilen beider DataFrames. Für Schlüssel A (nur in df1) und Schlüssel D (nur in df2) werden die Lücken als NaN dargestellt.

Schlüssel    Wert1    Wert2
0                 A        1.0        NaN
1                 B        2.0        4.0
2                 C        3.0        5.0
3                 D        NaN        6.0

Hinweis

Alle weiteren JOIN-Varianten lassen sich auf die gleiche Weise anwenden.

Verwendung von `left_on` und `right_on`

Sollten die DataFrames unterschiedliche Namen für ihre Schlüsselspalten nutzen, kannst du dies über die Parameter left_on und right_on definieren. Dazu erstellen wir zwei neue DataFrames:

df3 = pd.DataFrame({
    'Schlüssel': ['A', 'B', 'C'],
    'Wert1': [1, 2, 3]
})
df4 = pd.DataFrame({
    'Schlüssel2': ['B', 'C', 'D'],
    'Wert2': [4, 5, 6]
})
print(df3)
print(df4)

python

Die DataFrames präsentieren sich wie folgt:

Schlüssel    Wert1
0                 A            1
1                 B            2
2                 C            3
    Schlüssel2    Wert2
0                    B            4
1                    C            5
2                    D            6

Für die JOIN-Operation mit abweichenden Schlüsseln werden die Parameter left_on und right_on genutzt:

# Join mit unterschiedlichen Schlüsselspaltennamen
result = pd.merge(df3, df4, how='inner', left_on='Schlüssel', right_on='Schlüssel2')
print(result)

python

Durch die explizite Angabe von left_on='Schlüssel' und right_on='Schlüssel2' werden die passenden Spalten für die Verknüpfung herangezogen.

Schlüssel    Wert1 Schlüssel2    Wert2
0                 B            2                    B            4
1                 C            3                    C            5

Verwendung von Indizes als Schlüssel

Du kannst ebenso die Indizes der DataFrames als Verknüpfungsschlüssel nutzen. Setze dafür left_index und right_index auf True. Wir starten mit zwei DataFrames inklusive Indizes:

df5 = pd.DataFrame({
    'Wert1': [1, 2, 3]
}, index=['A', 'B', 'C'])
df6 = pd.DataFrame({
    'Wert2': [4, 5, 6]
}, index=['B', 'C', 'D'])
print(df5)
print(df6)

python

Die erstellten DataFrames sehen so aus:

Nun erfolgt die JOIN-Operation auf Basis der Indizes:

# JOIN mit Indizes
result = pd.merge(df5, df6, how='inner', left_index=True, right_index=True)
print(result)

python

Das Resultat ist ein JOIN, der sich an den Indizes der DataFrames orientiert:

Wert1  Wert2
B        2        4
C        3        5

Lücken schließen: NaN-Werte mit Pandas fillna() bereinigen

Die Pandas-Funktion fillna() hilft dir dabei, fehlende Werte in Datensätzen professionell zu handhaben. Dank vielseitiger Parameter ersetzt du NaN-Werte flexibel nach deinen Vorstellungen, damit deine Projekte glatt laufen. Erfahre hier, welche Optionen dir zur Verfügung stehen…

Pandas isna(): So spürst du jede Datenlücke souverän auf

Mit der isna()-Funktion spürst du Datenlücken in deinem DataFrame ruckzuck auf. Die simple Anwendung verschafft dir sofort Durchblick bei fehlenden Werten, damit die Datenbereinigung glatt läuft. Hier erfährst du, wie du Pandas isna() clever einsetzt und dein Projekt sicher auf…

BEST-BACKGROUNDSShutterstock

So filterst du DataFrames mit Pandas isin()

Die Pandas isin()-Funktion ist dein Ass im Ärmel für jede Datenanalyse. Mit ihrer intuitiven Logik checkst du im Handumdrehen, ob gewünschte Werte in deinem DataFrame landen. Ganz egal, ob du Spalten filterst oder komplexe Dictionary-Abfragen startest: Mit diesem Tool laufen…

NDAB Creativityshutterstock

So meisterst du Pandas groupby()

Mit der Pandas-Funktion DataFrame.groupby() sortierst du Datenbestände nach deinen Wünschen und erledigst anspruchsvolle Zusammenfassungen im Handumdrehen. Die richtige Anwendung macht deine Auswertungen nicht nur schneller, sondern sorgt auch für die nötige Klarheit. Hier liest…

UndreyShutterstock

Pandas DataFrame[].unique(): Eindeutige Werte finden

Mit Pandas DataFrame[].unique() spürst du Unikate in deinen Datensätzen blitzschnell auf. Das ist der ideale Weg, um Doppeltes zu finden und deine Tabellen sauber zu halten. Dank der Ausgabe als Numpy-Array verarbeitest du selbst große Datenmengen völlig reibungslos. Lies weiter…

Gorodenkoffshutterstock

Pandas DataFrame.where(): Bedingungen in DataFrames prüfen

Nutze die Pandas-Funktion DataFrame.where(), um deine Datenbestände effizient zu steuern. Du legst fest, welche Werte erhalten bleiben oder ersetzt werden. So gelingt die Datenbereinigung im Handumdrehen, damit du dich voll auf deine Ziele konzentrieren kannst. Wir zeigen dir,…

Pandas-Da­ta­Frames mit merge() effizient zu­sam­men­füh­ren

Syntax der Pandas merge()-Funktion

Relevante Parameter

Anwendung von Pandas merge()

INNER JOIN

OUTER JOIN

Ver­wen­dung von left_on und right_on

Ver­wen­dung von Indizes als Schlüssel

Pandas-DataFrames mit merge() effizient zusammenführen

Syntax der Pandas `merge()`-Funktion

Anwendung von Pandas `merge()`

`INNER JOIN`

`OUTER JOIN`

Verwendung von `left_on` und `right_on`

Verwendung von Indizes als Schlüssel