pandas API in Spark

2025-04-30

Notitie

Deze functie is beschikbaar op clusters met Databricks Runtime 10.0 (EoS) en hoger. Voor clusters die Databricks Runtime 9.1 LTS en lager gebruiken, gebruik in plaats daarvan Koalas.

Pandas wordt vaak gebruikt door gegevenswetenschappers en is een Python-pakket dat gebruiksvriendelijke gegevensstructuren en hulpprogramma's voor gegevensanalyse biedt voor de programmeertaal Python. Pandas is echter niet geschikt voor big data. De Pandas-API in Spark vult deze kloof door pandas-equivalente API's te bieden die op Apache Spark werken. Pandas-API in Spark is niet alleen nuttig voor pandas-gebruikers, maar ook Voor PySpark-gebruikers, omdat pandas-API in Spark veel taken ondersteunt die moeilijk te doen zijn met PySpark, bijvoorbeeld het rechtstreeks uitzetten van gegevens vanuit een PySpark-dataframe.

Vereisten

Pandas-API op Spark is beschikbaar vanaf Apache Spark 3.2 (die is opgenomen vanaf Databricks Runtime 10.0 (EoS)) met behulp van de volgende import instructie:

import pyspark.pandas as ps

Notitieboek

In het volgende notebook ziet u hoe u migreert van pandas naar pandas-API in Spark.

Delen via

pandas API in Spark

Vereisten

Notitieboek

Pandas naar Pandas-API op een Spark-notebook

Hulpbronnen

Feedback

Aanvullende resources