Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Notitie
Deze functie is beschikbaar op clusters met Databricks Runtime 10.0 (EoS) en hoger. Voor clusters die Databricks Runtime 9.1 LTS en lager gebruiken, gebruik in plaats daarvan Koalas.
Pandas wordt vaak gebruikt door gegevenswetenschappers en is een Python-pakket dat gebruiksvriendelijke gegevensstructuren en hulpprogramma's voor gegevensanalyse biedt voor de programmeertaal Python. Pandas is echter niet geschikt voor big data. De Pandas-API in Spark vult deze kloof door pandas-equivalente API's te bieden die op Apache Spark werken. Pandas-API in Spark is niet alleen nuttig voor pandas-gebruikers, maar ook Voor PySpark-gebruikers, omdat pandas-API in Spark veel taken ondersteunt die moeilijk te doen zijn met PySpark, bijvoorbeeld het rechtstreeks uitzetten van gegevens vanuit een PySpark-dataframe.
Vereisten
Pandas-API op Spark is beschikbaar vanaf Apache Spark 3.2 (die is opgenomen vanaf Databricks Runtime 10.0 (EoS)) met behulp van de volgende import instructie:
import pyspark.pandas as ps
Notitieboek
In het volgende notebook ziet u hoe u migreert van pandas naar pandas-API in Spark.