Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här sidan innehåller instruktioner för att konfigurera klassisk beräkning för deklarativa Lakeflow-pipelines. En referens till JSON-schemat clusters finns i definitionen i pipeline-API-referensen.
Om du vill skapa en pipeline som körs på klassisk beräkning måste användarna först ha behörighet att distribuera klassisk beräkning, antingen obegränsad skapandebehörighet eller åtkomst till en beräkningsprincip. Serverlösa pipelines kräver inte behörighet till att skapa beräkningskapacitet. Som standard kan alla arbetsyteanvändare använda serverlösa pipelines.
Anmärkning
Eftersom Lakeflow Deklarativa pipelines-körningen hanterar livscykeln för pipelineberäkning och kör en anpassad version av Databricks Runtime kan du inte manuellt ange vissa beräkningsinställningar i en pipelinekonfiguration, till exempel Spark-versionen eller klusternamnen. Se klusterattribut som inte är användardefinierbara.
Välj beräkning för din pipeline
Så här konfigurerar du klassisk beräkning för din pipeline från Lakeflow Pipelines-redigeraren:
- Klicka på Inställningar.
 - I avsnittet Beräkning i pipelineinställningarna klickar du på 
.
 - Om den är markerad avmarkerar du Serverlös.
 - Gör andra ändringar i beräkningsinställningarna och klicka sedan på Spara.
 
Detta konfigurerar din pipeline så att den använder klassisk beräkning och gör att du kan redigera beräkningsinställningar enligt beskrivningen nedan.
Mer information om Lakeflow Pipelines-redigeraren finns i Utveckla och felsöka ETL-pipelines med Lakeflow Pipelines Editor.
Välj en beräkningsprincip
Arbetsplatsadministratörer kan konfigurera beräkningspolicyer för att ge användare åtkomst till klassiska beräkningsresurser för Lakeflow Declarative Pipelines. Beräkningsprinciper är valfria. Kontakta arbetsyteadministratören om du saknar de beräkningsbehörigheter som krävs för deklarativa Lakeflow-pipelines.Se Definiera gränser för beräkning av deklarativa lakeflow-pipelines.
När du använder Pipelines-API:et, se till att standardvärdena för beräkningsprinciper tillämpas korrekt genom att ange "apply_policy_default_values": true i definitionen clusters.
{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}
Konfigurera beräkningstaggar
Du kan lägga till anpassade taggar i pipelinens klassiska beräkningsresurser. Med taggar kan du övervaka kostnaden för beräkningsresurser som används av olika grupper i din organisation. Databricks tillämpar dessa taggar på molnresurser och användningsloggar som registrerats i användningssystemtabellerna. Du kan lägga till taggar med hjälp av UI-inställningen för klustertaggar eller genom att redigera JSON-konfigurationen för din pipeline.
Välj instanstyper för att köra en pipeline
Som standard väljer Lakeflow Deklarativa pipelines instanstyperna för pipelinens drivrutins- och arbetsnoder. Du kan också konfigurera instanstyperna. Välj till exempel instanstyper för att förbättra pipelineprestanda eller åtgärda minnesproblem när du kör pipelinen.
Så här konfigurerar du instanstyper när du skapar eller redigerar en pipeline i Lakeflow Pipelines-redigeraren:
- Klicka på knappen Inställningar.
 - I avsnittet Beräkning i pipelineinställningarna klickar du på 
.
 - I avsnittet Avancerade inställningar väljer du instanstyperna Arbetstyp och Drivrutinstyp för pipelinen.
 
Konfigurera separata inställningar för uppdaterings- och underhållskluster
Varje deklarativ pipeline har två associerade beräkningsresurser: ett uppdateringskluster som bearbetar pipelineuppdateringar och ett underhållskluster som kör dagliga underhållsaktiviteter (inklusive förutsägande optimering). Som standard gäller dina beräkningskonfigurationer för båda dessa kluster. Att använda samma inställningar för båda kluster förbättrar tillförlitligheten för underhållskörningar genom att se till att nödvändiga konfigurationer, till exempel autentiseringsuppgifter för dataåtkomst för en lagringsplats, tillämpas på underhållsklustret.
Om du bara vill tillämpa inställningarna på ett av de två klustren lägger du till fältet label i inställningens JSON-objekt. Det finns tre möjliga värden för fältet label :
- 
              
maintenance: Tillämpar endast inställningen på underhållsklustret. - 
              
updates: Tillämpar endast inställningen på uppdateringsklustret. - 
              
default: Tillämpar inställningen på både uppdaterings- och underhållskluster. Det här är standardvärdet om fältetlabelutelämnas. 
Om det finns en motstridig inställning åsidosätter inställningen med updates etiketten eller maintenance inställningen som definierats med default etiketten.
Anmärkning
Det dagliga underhållsklustret används endast i vissa fall:
- Pipelines som lagras i Hive-metaarkivet.
 - Pipelines på arbetsytor som inte har godkänt de serverlösa beräkningsvillkoren. Om du behöver hjälp med att acceptera villkoren kontaktar du din Databricks-representant.
 
- Pipelines i arbetsytor som inte har konfigurerat den privata länken till serverlös korrekt.
 
Exempel: Definiera en inställning för uppdateringsklustret
I följande exempel definieras en Spark-konfigurationsparameter som bara läggs till i konfigurationen för det updates klustret:
{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}
Exempel: Konfigurera instanstyper för uppdateringsklustret
För att undvika att tilldela onödiga resurser till det maintenance klustret använder det här exemplet etiketten updates för att ange instanstyperna för endast det updates klustret.
{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}
Fördröj beräkningsavstängning
Om du vill styra beteendet för avstängning av kluster kan du använda utvecklings- eller produktionsläge eller använda inställningen pipelines.clusterShutdown.delay i pipelinekonfigurationen. I följande exempel anges värdet för pipelines.clusterShutdown.delay till 60 sekunder:
{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}
När production läget är aktiverat är standardvärdet för pipelines.clusterShutdown.delay0 seconds. När development läget är aktiverat är standardvärdet 2 hours.
Anmärkning
Eftersom Lakeflow Deklarativa Pipelines-beräkningsresurser stängs av automatiskt när de inte används, kan du inte använda en beräkningsprincip som anger autotermination_minutes. Detta resulterar i ett fel.
Skapa en beräkning med en enda nod
En ensam beräkningsnod har en drivrutinsnod som fungerar både som huvudnod och arbetsnod. Detta är avsett för arbetsbelastningar som använder små mängder data eller inte distribueras.
Om du vill skapa en beräkning med en nod anger du num_workers till 0. Till exempel:
{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}