Dela via


Databricks-funktionslager

Den här sidan är en översikt över tillgängliga funktioner när du använder Databricks Feature Store med Unity Catalog.

Databricks Feature Store innehåller ett centralt register för funktioner som används i dina AI- och ML-modeller. Funktionstabeller och modeller är registrerade i Unity Catalog, vilket ger inbyggd styrning, ursprung och funktionsdelning och identifiering mellan arbetsytor. Med Databricks sker hela modellträningsarbetsflödet på en enda plattform, inklusive:

  • Datapipelines som matar in rådata, skapar funktionstabeller, tränar modeller och utför batchinferens.
  • Modell- och funktionstjänstslutpunkter som är tillgängliga med ett enda klick och som erbjuder millisekunders svarstid.
  • Data- och modellövervakning.

När du använder funktioner från funktionsarkivet för att träna modeller spårar modellen automatiskt ursprung till de funktioner som användes i träningen. Vid inferensen söker modellen automatiskt upp de senaste funktionsvärdena. Funktionsarkivet tillhandahåller även beräkning på begäran av funktioner för realtidsprogram. Funktionsarkivet hanterar alla funktionsberäkningar. Detta eliminerar träning/serveringssnedvridning, vilket säkerställer att funktionsberäkningarna som används vid slutsatsdragning är desamma som de som används under modellträningen. Det förenklar också koden på klientsidan avsevärt eftersom alla funktionssökningar och beräkningar hanteras av funktionsarkivet.

Anmärkning

På den här sidan beskrivs funktioner för funktionsutveckling och servering för arbetsytor som är aktiverade för Unity Catalog. Om arbetsytan inte har aktiverats för Unity Catalog, se Funktionslagring för arbetsytor (äldre).

Begreppsmässig översikt

En översikt över hur Databricks Feature Store fungerar och en ordlista med termer finns i Begrepp.

Funktionsutveckling

Feature Description
Arbeta med funktionstabeller i Unity Catalog Skapa och arbeta med funktionstabeller.

Identifiera och dela funktioner

Feature Description
Utforska funktioner i Unity Catalog Utforska och hantera funktionstabeller med hjälp av Catalog Explorer och funktionsgränssnittet.
Använda taggar med funktionstabeller och funktioner i Unity Catalog Använd enkla nyckel/värde-par för att kategorisera och hantera dina funktionstabeller och funktioner.

Använda funktioner i träningsarbetsflöden

Feature Description
Använda funktioner för att träna modeller Använd funktioner för att träna modeller.
Funktionskopplingar till tidpunkt Använd punkt-i-tid-korrekthet för att skapa en träningsdatauppsättning som återspeglar funktionsvärden från och med den tidpunkt då en etikettobservation registrerades.
Python-API Python API-referens

Hantera funktioner

Feature Description
Databricks Online-funktionslager Hantera funktionsdata till onlineprogram och maskininlärningsmodeller i realtid. Drivs av Databricks Lakebase.
Modellservering med automatisk funktionssökning Leta automatiskt upp funktionsvärden från en onlinebutik.
Funktionsserverslutpunkter Hantera funktioner för modeller och program utanför Databricks.
Funktionsberäkning på begäran Beräkna funktionsvärden vid tidpunkten för slutsatsdragningen.

Funktionsstyrning och härkomst

Feature Description
Funktionsstyrning och ursprung Använd Unity Catalog för att styra åtkomsten till funktionstabeller och visa ursprunget för en funktionstabell, modell eller funktion.

Handledningar

Tutorial Description
Exempel på notebook-filer för att komma igång Grundläggande notebook-fil. Visar hur du skapar en funktionstabell, använder den för att träna en modell och kör batchbedömning med hjälp av automatisk funktionssökning. Visar även användargränssnittet för funktionsutveckling för att söka efter funktioner och visa ursprung.
Taxi exempel notebook. Visar processen att skapa funktioner, uppdatera dem och använda dem för modellträning och batchinferens.
Exempel: Distribuera och fråga en funktion som betjänar slutpunkten Självstudier och exempel på notebook-filer som visar hur du distribuerar och frågar en funktion som betjänar slutpunkten.
Exempel: använda funktioner med strukturerade RAG-program Självstudie som visar hur du använder Databricks onlinetabeller och funktionstjänstslutpunkter för rag-program (augmented generation) för hämtning.

Krav

  • Arbetsytan måste vara aktiverad för Unity Catalog.
  • Funktionsutveckling i Unity Catalog kräver Databricks Runtime 13.3 LTS eller senare.

Om din arbetsyta inte uppfyller dessa krav, se Funktionsarkiv för arbetsytor (äldre) för hur du använder det äldre Funktionsarkiv för arbetsytor.

Datatyper som stöds

Funktionsutveckling i Unity Catalog och äldre Funktionslager för arbetsytor stöder följande PySpark-datatyper:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypeoch MapType stöds i alla versioner av Funktionsutveckling i Unity Catalog och i Workspace Feature Store v0.3.5 eller senare. [2] StructType stöds i Feature Engineering v0.6.0 eller senare.

De datatyper som anges ovan stöder funktionstyper som är vanliga i maskininlärningsprogram. Till exempel:

  • Du kan lagra kompakta vektorer, tensorer och inbäddningar som ArrayType.
  • Du kan lagra glesa vektorer, tensorer och inbäddningar som MapType.
  • Du kan lagra text som StringType.

När funktionerna ArrayType och MapType publiceras i onlinebutiker lagras de i JSON-format.

Användargränssnittet för Feature Store visar metadata för funktionsdatatyper:

Exempel på komplexa datatyper

Mer information

Mer information om metodtips finns i Den omfattande guiden till funktionsbutiker.