#01 | Erste Schritte mit Pandas

Eine klare Einführung in Pandas, eine Python-Bibliothek zur Bearbeitung tabellarischer Daten, in der Sie ihre vielen Möglichkeiten entdecken und sich einen kurzen Überblick verschaffen können.

Lesen Sie den Originalartikel hierin Hashnode.

Ein Array ist jede Art von Objekt, das gespeichert werden kann mehr als ein Objekt. Zum Beispiel die list:

[100, 134, 87, 99]

Nehmen wir an, wir sprechen über die Einnahmen, die unser E-Commerce in den letzten 4 Monaten erzielt hat:

list_revenue = [100, 134, 87, 99]

Wir wollen den Gesamtumsatz berechnen (d. h. wir summieren die Objekte innerhalb der Liste):

list_revenue.sum()
--------------------------------------------------------------------------- AttributeError Traceback (most recent call last) Input In [3], in <cell line: 1>()
----> 1 list_revenue.sum() AttributeError: 'list' object has no attribute 'sum'

Die Liste ist eine Arm Objekt, das keine leistungsstarken Funktionen enthält.

Was können wir dann tun?

Wir konvertieren die Liste in ein mächtiges Objekt wie die Seriesdas kommt von pandas Bibliothek.

import pandas

pandas.Series(list_revenue)
>>>
0 100
1 134
2 87
3 99
dtype: int64
series_revenue = pandas.Series(list_revenue)

Jetzt haben wir ein mächtiges Objekt, das dies ausführen kann .sum():

series_revenue.sum()
>>> 420

Serie.jpg

Innerhalb der Serie finden wir weitere Objekte.

series_revenue
>>>
0 100
1 134
2 87
3 99
dtype: int64
series_revenue.index
>>> RangeIndex(start=0, stop=4, step=1)

Lassen Sie uns die Elemente des Index ändern:

series_revenue.index = ['1st Month', '2nd Month', '3rd Month', '4th Month']
series_revenue
>>>
1st Month 100
2nd Month 134
3rd Month 87
4th Month 99
dtype: int64
series_revenue.values
>>> array([100, 134, 87, 99])
series_revenue.name

Das Series enthält keinen Namen. Definieren wir es:

series_revenue.name="Revenue"
series_revenue
>>>
1st Month 100
2nd Month 134
3rd Month 87
4th Month 99
Name: Revenue, dtype: int64

Die Werte der Reihe (rechte Seite) werden durch ihre bestimmt Datentyp (alias dtype):

series_revenue.dtype
>>> dtype('float64')

Lassen Sie uns den dtype der Werte in sein ändern float (Dezimal Zahlen)

series_revenue.astype(float)
>>>
1st Month 100.0
2nd Month 134.0
3rd Month 87.0
4th Month 99.0
Name: Revenue, dtype: float64
series_revenue = series_revenue.astype(float)

Was könnten wir sonst noch mit dem Series-Objekt machen?

series_revenue.describe()
>>>
count 4.000000
mean 105.000000
std 20.215506
min 87.000000
25% 96.000000
50% 99.500000
75% 108.500000
max 134.000000
Name: Revenue, dtype: float64
series_revenue.plot.bar();

Ausgabe_39_0.png

series_revenue.plot.barh();

Ausgabe_40_0.png

series_revenue.plot.pie();

Ausgabe_41_0.png

DataFrame.jpg

Das DataFrame ist eine Reihe von Serien.

Wir werden eine weitere Serie erstellen series_expenses um sie später zu einem DataFrame zusammenzufügen.

pandas.Series( data=[20, 23, 21, 18], index=['1st Month','2nd Month','3rd Month','4th Month'], name="Expenses"
)
>>>
1st Month 20
2nd Month 23
3rd Month 21
4th Month 18
Name: Expenses, dtype: int64
series_expenses = pandas.Series( data=[20, 23, 21, 18], index=['1st Month','2nd Month','3rd Month','4th Month'], name="Expenses"
)
pandas.DataFrame(data=[series_revenue, series_expenses])

df1.png

df_shop = pandas.DataFrame(data=[series_revenue, series_expenses])

Lassen Sie uns den DataFrame transponieren, um die Variablen in Spalten zu haben:

df_shop.transpose()

df2.png

df_shop = df_shop.transpose()
df_shop.index
>>> Index(['1st Month', '2nd Month', '3rd Month', '4th Month'], dtype="object")
df_shop.columns
>>> Index(['Revenue', 'Expenses'], dtype="object")
df_shop.values
>>>
array([[100., 20.], [134., 23.], [87., 21.], [99., 18.]])
df_shop.shape
>>> (4, 2)

Was könnten wir sonst noch mit dem DataFrame-Objekt machen?

df_shop.describe()

df3.png

df_shop.plot.bar();

Ausgabe_63_0.png

df_shop.plot.pie(subplots=True);

Ausgabe_64_0.png

df_shop.plot.line();

Ausgabe_65_0.png

df_shop.plot.area();

Ausgabe_66_0.png

Wir könnten den DataFrame auch in formatierte Datendateien exportieren:

df_shop.to_excel('data.xlsx')
df_shop.to_csv('data.csv')
url="
pandas.read_json(url, orient="index")

df4.png

df_football = pandas.read_json(url, orient="index")
df_football.Goals.plot.pie();

Ausgabe_76_0.png

url="
pandas.read_json(path_or_buf=url, orient="index")

df5.png

df_tennis = pandas.read_json(path_or_buf=url, orient="index")
df_tennis.style.background_gradient()

df6.png

df_tennis.plot.pie(subplots=True, layout=(2,3), figsize=(10,6));

Ausgabe_82_0.png

HTML-Webseite

pandas.read_html(' index_col="Team")[0]

df7.png

df_laliga = pandas.read_html(' index_col="Team")[0]
df_laliga.Pts.plot.barh();

Ausgabe_87_0.png

df_laliga.Pts.sort_values().plot.barh();

Ausgabe_88_0.png

url="
pandas.read_csv(filepath_or_buffer=url)

df8.png

df_internet = pandas.read_csv(filepath_or_buffer=url)
df_internet.hist();

Ausgabe_93_0.png

df_internet.pivot_table(index='education', columns="internet_usage", aggfunc="size")

df-pivot.png

dfres = df_internet.pivot_table(index='education', columns="internet_usage", aggfunc="size")
dfres.style.background_gradient('Greens', axis=1)

dfpivot-color.png

Creative Commons License
Dieses Werk ist lizenziert unter a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *