Delen via


Apache Spark synchroniseren voor externe azure Synapse-tabeldefinities in een serverloze SQL-pool

Een serverloze SQL-pool kan automatisch metagegevens synchroniseren vanuit Apache Spark. Er wordt een serverloze SQL-pooldatabase gemaakt voor elke database die bestaat in serverloze Apache Spark-pools.

Voor elke externe Spark-tabel op basis van Parquet of CSV en zich in Azure Storage bevindt, wordt er een externe tabel gemaakt in een serverloze SQL-pooldatabase. Als zodanig kunt u uw Spark-pools afsluiten en nog steeds query's uitvoeren op externe Spark-tabellen vanuit een serverloze SQL-pool.

Wanneer een tabel in Spark is gepartitioneerd, worden bestanden in de opslag ingedeeld op mappen. Serverloze SQL-pool maakt gebruik van partitiemetagegevens en richt alleen op relevante mappen en bestanden voor uw query.

Synchronisatie van metagegevens wordt automatisch geconfigureerd voor elke serverloze Apache Spark-pool die is ingericht in de Azure Synapse-werkruimte. U kunt direct beginnen met het uitvoeren van query's op externe Spark-tabellen.

Elke externe Spark Parquet- of CSV-tabel in Azure Storage wordt weergegeven met een externe tabel in een dbo-schema dat overeenkomt met een serverloze SQL-pooldatabase.

Voer voor externe Spark-tabelquery's een query uit die is gericht op een externe [spark_table]. Voordat u het volgende voorbeeld uitvoert, moet u ervoor zorgen dat u de juiste toegang hebt tot het opslagaccount waar de bestanden zich bevinden.

SELECT * FROM [db].dbo.[spark_table]

Apache Spark-gegevenstypen naar SQL-gegevenstypen

Zie Gedeelde metagegevenstabellen van Azure Synapse Analytics voor meer informatie over het toewijzen van Apache Spark-gegevenstypen aan SQL-gegevenstypen.

Volgende stappen

Ga naar het artikel Opslagtoegangsbeheer voor meer informatie over toegangsbeheer voor opslag.