Dela via


Optimering av routning på serverande slutpunkter

Den här artikeln beskriver hur du aktiverar routningsoptimering för modellservering eller funktionsserverslutpunkter . Routningsoptimerade serverslutpunkter ger avsevärt lägre svarstid och möjliggör betydande förbättringar av det dataflöde som stöds av slutpunkten.

Routningsoptimerade slutpunkter efterfrågas på ett annat sätt än icke-routningsoptimerade slutpunkter, inklusive användning av en annan URL och autentisering med OAuth-token. Mer information finns i Fråga efter routningsoptimerade serverslutpunkter .

Vad är routningsoptimering?

När du aktiverar routningsoptimering på en slutpunkt förbättrar Databricks Model Serving nätverkssökvägen för slutsatsdragningsbegäranden, vilket resulterar i snabbare och mer direkt kommunikation mellan klienten och modellen. Den här optimerade routningen låser upp högre frågor per sekund (QPS) jämfört med icke-optimerade slutpunkter och ger mer stabila och lägre svarstider för dina program.

Krav

Aktivera routningsoptimering på en modell som betjänar slutpunkten

Serveringsgränssnitt

Du kan aktivera routningsoptimering när du skapar en modell som betjänar slutpunkten med hjälp av användargränssnittet för servering . Du kan bara aktivera routningsoptimering när slutpunkten skapas. Du kan inte uppdatera befintliga slutpunkter som ska vägoptimeras.

  1. I sidofältet klickar du på Servering för att visa användargränssnittet för servering.
  2. Klicka på Skapa tjänstslutpunkt.
  3. I avsnittet Routningsoptimering väljer du Aktivera routningsoptimering.
  4. När slutpunkten har skapats skickar Databricks ett meddelande om vad som behövs för att ställa frågor mot en ruttoptimerad slutpunkt.

Skapa en modell som betjänar slutpunkten

REST-API

Konfigurera slutpunkten för servering för routningsoptimering med hjälp av REST-API:et genom att ange parametern route_optimized vid skapandet av serverendelens slutpunkt för modellen. Du kan bara ange den här parametern när slutpunkten skapas. Du kan inte uppdatera befintliga slutpunkter som ska vägoptimeras.

POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [{
      "entity_name": "ads1",
      "entity_version": "1",
      "workload_type": "CPU",
      "workload_size": "Small",
      "scale_to_zero_enabled": true,
    }],
  },
  "route_optimized": true
}

python

Om du använder Python kan du använda följande notebook-fil för att skapa en vägoptimerad serverslutpunkt.

Skapa en routningsoptimerad serverslutpunkt med hjälp av Python Notebook

Hämta anteckningsbok

Databricks SDK

Om du vill konfigurera din tjänstslutpunkt för routningsoptimering med Databricks SDK anger du parametern route_optimized vid skapande av modellens tjänstslutpunkt. Du kan bara ange den här parametern när slutpunkten skapas. Du kan inte uppdatera befintliga slutpunkter som ska vägoptimeras.

from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput

workspace = WorkspaceClient()

workspace.serving_endpoints.create(
  name="my-serving-endpoint",
  config = EndpointCoreConfigInput(
    served_entities=[
    ServedEntityInput(
        entity_name="main.default.my-served-entity",
        scale_to_zero_enabled=True,
        workload_size="Small"
      )
    ]
  ),
  route_optimized=True
)

Aktivera routningsoptimering på en funktion som betjänar slutpunkten

Om du vill använda routningsoptimering för funktions- och funktionsservern anger du det fullständiga namnet på funktionsspecifikationen entity_name i fältet för att hantera begäranden om att skapa slutpunkter. entity_version Behövs inte för FeatureSpecs.


POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [
      {
        "entity_name": "catalog_name.schema_name.feature_spec_name",
        "workload_type": "CPU",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ]
  },
  "route_optimized": true
}

Begränsningar

  • Routningsoptimering är endast tillgängligt för anpassade modeller som betjänar slutpunkter och funktionsserverslutpunkter. Serverslutpunkter som använder Foundation Model-API:er eller externa modeller stöds inte.
  • Interna OAuth-token för Databricks är den enda autentisering som stöds för routningsoptimering. Personliga åtkomsttoken stöds inte.

Ytterligare resurser