Dela via


Begränsningar för serverlös beräkning

Den här artikeln förklarar de aktuella begränsningarna för serverlös databehandling för anteckningsböcker och jobb. Den börjar med en översikt över de viktigaste övervägandena och ger sedan en omfattande referenslista med begränsningar.

Allmänna begränsningar

Innan du skapar nya arbetsbelastningar eller migrerar arbetsbelastningar till serverlös beräkning bör du först överväga följande begränsningar:

  • Scala och R stöds inte.
  • Endast Api:er för Spark Connect stöds. Spark RDD-API:er stöds inte.
  • JAR-bibliotek stöds inte. Lösningar finns i Metodtips för serverlös beräkning.
  • Serverlös beräkning är tillgänglig för alla arbetsyteanvändare.
  • Notebook-taggar stöds inte. Använd budgetprinciper för serverlös användning för att märka serverlös användning.
  • ANSI SQL är standard när du skriver SQL. Avaktivering av ANSI-läge genom att ange spark.sql.ansi.enabled till false.
  • Databricks Container Services stöds inte.
  • Som standard kan ingen Spark-fråga i en serverlös notebook-fil köras längre än 9 000 sekunder. Detta kan konfigureras med hjälp av egenskapen spark.databricks.execution.timeout . Mer information finns i Konfigurera Spark-egenskaper för serverlösa notebooks och jobb. Den här gränsen gäller inte för serverlösa jobb.
  • Du måste använda Unity Catalog för att ansluta till externa datakällor. Använd externa platser för att få åtkomst till molnlagring.
  • Användardefinierade funktioner (UDF: er) kan inte komma åt Internet. Därför stöds inte kommandot CREATE FUNCTION (extern). Databricks rekommenderar att du använder CREATE FUNCTION (SQL och Python) för att skapa UDF:er.
  • När du skapar en DataFrame från lokala data med får spark.createDataFrameradstorlekarna inte överstiga 128 MB.
  • Spark-användargränssnittet är inte tillgängligt. Använd i stället frågeprofilen för att visa information om dina Spark-frågor. Se Frågeprofil.
  • Spark-loggar är inte tillgängliga när du använder serverlös anteckningsböcker och jobb. Användare har bara åtkomst till programloggar på klientsidan.
  • Åtkomst mellan arbetsytor tillåts endast om arbetsytorna finns i samma region och målarbetsytan inte har en IP-ACL eller en front-end PrivateLink konfigurerad.
  • Globala tillfälliga vyer stöds inte. Databricks rekommenderar att du använder tillfälliga vyer eller skapar tabeller där dataöverföring över sessionsgränser krävs.
  • Maven-koordinater stöds inte.

Begränsningar för direktuppspelning

  • Det finns inget stöd för standard- eller tidsbaserade utlösarintervall. Endast Trigger.AvailableNow stöds. Se Konfigurera utlösarintervall för strukturerad direktuppspelning.
  • Alla begränsningar för direktuppspelning i standardåtkomstläge gäller också. Se Begränsningar för direktuppspelning.

Begränsningar för notebooks

  • Bibliotek som är specifika för en notebok cachelagras inte mellan utvecklingssessioner.
  • Det går inte att dela TEMP-tabeller och vyer när du delar en notebook-fil mellan användare.
  • Autokomplettering och Variabelutforskare för dataramar i notebook-filer stöds inte.
  • Som standard sparas nya notebook-filer i .ipynb format. Om notebook-filen sparas i källformat kanske inte serverlösa metadata fångas in korrekt och vissa funktioner kanske inte fungerar som förväntat.

Jobbbegränsningar

  • Aktivitetsloggar är inte isolerade per uppgiftskörning. Loggarna innehåller utdata från flera uppgifter.
  • Uppgiftsbibliotek stöds inte för anteckningsblocksuppgifter. Använd bibliotek med notebookspecifikt omfång i stället. Se notebook-specifika Python-bibliotek.

Beräkningsspecifika begränsningar

Följande beräkningsspecifika funktioner stöds inte:

Begränsningar för cachelagring

API:er för dataram och SQL-cache stöds inte för serverlös beräkning. Om du använder något av dessa API:er eller SQL-kommandon resulterar det i ett undantag.

Hive-begränsningar

  • Hive SerDe-tabeller stöds inte. Dessutom stöds inte motsvarande LOAD DATA-kommando som läser in data i en Hive SerDe-tabell. Om du använder kommandot resulterar det i ett undantag.

    Stöd för datakällor är begränsat till AVRO, BINARYFILE, CSV, DELTA, JSON, KAFKA, ORC, PARQUET, ORC, TEXT och XML.

  • Hive-variabler (till exempel ${env:var}, ${configName}, ${system:var} och spark.sql.variable) eller konfigurationsvariabelreferenser som använder syntaxen ${var} stöds inte. Om du använder Hive-variabler resulterar det i ett undantag.

    Använd DECLARE VARIABLEi stället , SET VARIABLE, och SQL-sessionsvariabelreferenser och parametermarkörer ('?', eller ':var') för att deklarera, ändra och referera till sessionstillstånd. Du kan också använda IDENTIFIER-satsen för att parametrisera objektnamn i många fall.

Datakällor som stöds

Serverlös beräkning stöder följande datakällor för DML-åtgärder (skriva, uppdatera, ta bort):

  • CSV
  • JSON
  • AVRO
  • DELTA
  • KAFKA
  • PARQUET
  • ORC
  • TEXT
  • UNITY_CATALOG
  • BINARYFILE
  • XML
  • SIMPLESCAN
  • ICEBERG

Serverlös beräkning stöder följande datakällor för läsåtgärder:

  • CSV
  • JSON
  • AVRO
  • DELTA
  • KAFKA
  • PARQUET
  • ORC
  • TEXT
  • UNITY_CATALOG
  • BINARYFILE
  • XML
  • SIMPLESCAN
  • ICEBERG
  • MYSQL
  • POSTGRESQL
  • SQLSERVER
  • REDSHIFT
  • SNOWFLAKE
  • SQLDW (Azure Synapse)
  • DATABRICKS
  • BIGQUERY
  • ORACLE
  • SALESFORCE
  • SALESFORCE_DATA_CLOUD
  • TERADATA
  • WORKDAY_RAAS
  • MONGODB