Die Python-Pandas-Funktion DataFrame describe() hilft dir dabei, eine sta­tis­ti­sche Übersicht der nu­me­ri­schen Spalten eines Da­ta­Frames zu erstellen. Diese Zu­sam­men­fas­sung liefert wichtige Kenn­zah­len wie den Mit­tel­wert, die Stan­dard­ab­wei­chung, Minimum, Maximum sowie ver­schie­de­ne Quantile deiner Daten.

Syntax der Pandas-describe()-Funktion

Die grund­le­gen­de Syntax der Pandas-describe()-Funktion für einen DataFrame ist un­kom­pli­ziert und sieht so aus:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Relevante Parameter von Pandas DataFrame.describe()

Mit ein paar Pa­ra­me­tern kannst du die Ausgabe der describe()-Funktion in­di­vi­du­ell anpassen. Diese Parameter stehen dir zur Verfügung:

Parameter Be­schrei­bung Stan­dard­wert
percentiles Definiert die ge­wünsch­ten Quantile für die sta­tis­ti­sche Be­schrei­bung. [.25, .5, .75]
include Legt fest, welche Da­ten­ty­pen ein­be­zo­gen werden; möglich sind numpy.number, numpy.object, all oder None. None
exclude Bestimmt, welche Da­ten­ty­pen aus­ge­schlos­sen werden sollen (analog zu include). None

An­wen­dungs­bei­spie­le von Pandas describe()

Die Pandas-Funktion DataFrame.describe() ist ideal, wenn du dir rasch einen Überblick über die zentralen sta­tis­ti­schen Werte deines Da­ten­sat­zes ver­schaf­fen willst.

Beispiel 1: Sta­tis­ti­sche Übersicht nu­me­ri­scher Daten

In diesem Beispiel nutzen wir den DataFrame df, der ver­schie­de­ne Ver­kaufs­zah­len enthält.

import pandas as pd
import numpy as np
# Beispiel DataFrame mit Verkaufsdaten
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nutze Pandas describe(), um die sta­tis­ti­sche Zu­sam­men­fas­sung der Zahlen-Spalten abzurufen:

summary = df.describe()
print(summary)
python

Der Aufruf von Pandas DataFrame.describe() erzeugt folgendes Ergebnis:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000```

Die aus­ge­ge­be­nen Werte bedeuten im Detail:

  • count: Summe der vor­han­de­nen Einträge (ohne NaN)
  • mean: Arith­me­ti­sches Mittel der Werte (auch via DataFrame.mean() abrufbar)
  • std: Stan­dard­ab­wei­chung der Daten
  • min, 25%, 50%, 75%, max: Minimum, 25. Perzentil, Median (50. Perzentil), 75. Perzentil und Maximum

Beispiel 2: Quantile in­di­vi­du­ell festlegen

Du kannst Pandas DataFrame.describe() mit Pa­ra­me­tern steuern, um ganz bestimmte Quantile an­zu­zei­gen:

# Statistische Zusammenfassung mit angepassten Quantilen
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Dieser Aufruf liefert dir die Werte für die gewählten Quantile 10 %, 50 % (Median) und 90 %:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000
Zum Hauptmenü