Datastyrning med Unity Catalog och Microsoft Purview
Datastyrning är avgörande för att säkerställa att data i en organisation hanteras på ett säkert, effektivt och i enlighet med regler.
I många organisationer distribueras data mellan databaser, informationslager, datasjöar och till och med flera kataloger. Det finns också i olika format som Parquet, CSV och Delta Lake. Utöver strukturerade data i tabeller finns det även ostrukturerade data i filer, tillsammans med andra tillgångar som maskininlärningsmodeller, notebook-filer och instrumentpaneler som kräver hantering och styrning. Den här fragmenteringen skapar silor mellan källor, format och tillgångstyper.
Dessa styrningsutmaningar påverkar direkt det värde som organisationer kan härleda från data och AI:
Fragmenterad styrning ökar riskerna för efterlevnad, säkerhet och datakvalitet, samtidigt som det skapas operativa ineffektivitet när teamen kämpar för att upprätthålla en konsekvent bild av sina data- och AI-miljöer.
Begränsad nätverksanslutning kan leda till leverantörslåsning och göra det svårare att använda ny teknik när kraven ändras. Dålig samverkan komplicerar också samarbete och skalning, vilket ofta leder till högre kostnader från att använda flera verktyg och duplicera data mellan system.
Brist på inbyggd intelligens begränsar bredare användning av data- och AI-plattformar, särskilt för icke-tekniska användare. Detta gör innovationen långsammare, fördröjer beslutsfattandet och hindrar organisationer från att fullt ut inse fördelarna med sina data- och AI-investeringar.
Azure Databricks, kombinerat med Unity Catalog och Microsoft Purview, ger en robust lösning för att hantera och styra data effektivt.
Unity-katalog
Unity Catalog är ett centraliserat sätt att hantera åtkomst, identifiering, ursprung, granskningsloggar och kvalitetsövervakning av data och AI-tillgångar i Azure Databricks. Den tillämpas konsekvent på alla arbetsytor i en region.
Metaarkivet är den översta metadatacontainern. den innehåller information om datatillgångar och de behörigheter som styr dem. Du har vanligtvis ett metaarkiv per region och flera arbetsytor kan dela metaarkivet.
Unity Catalog organiserar datatillgångar med en strukturerad hierarki på tre nivåer:
catalog.schema.table_or_other_object
- Kataloger grupperar tillgångar som vanligtvis är anpassade till team eller miljöer.
- Scheman (även kallade databaser) är underavdelningar i kataloger och organiserar tillgångar mer detaljerat, till exempel efter projekt eller användningsfall.
- Objekt i scheman inkluderar tabeller (hanterade eller externa), vyer, volymer, funktioner och modeller.
Tabeller kan vara antingen hanterade eller externa. Med hanterade tabeller hanterar Unity Catalog både styrning och lagring (alltid Delta Lake-format). Med externa tabeller hanterar Unity Catalog åtkomst från Databricks, men datalivscykeln/lagringen hanteras externt. Detta stöder flera format (Delta, CSV, JSON, Parquet osv.)
Unity Catalog implementerar detaljerad åtkomstkontroll via ANSI SQL-kommandon på flera nivåer – metaarkiv, katalog, schema, ned till rader och kolumner. Följande kommando ger till exempel användargruppen "finance-team" behörighet att skapa nya tabeller i "myschema" i databasen "mycatalog".
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Det är enkelt att utforska datatillgångar i Unity Catalog. Du kan använda Katalogutforskaren och ett sökgränssnitt för att hitta det du behöver. För att hjälpa dig har resurser taggar, kommentarer och till och med AI-genererade beskrivningar. När du hittar en datatillgång kan du använda funktioner som ursprung, tabellinsikter och entitetsrelationsdiagram för att få en bättre förståelse för den.
Unity Catalog ger en fullständig bild av dina datas historik. Den loggar åtkomst, spårningsspår och ursprung – ända ned till kolumnnivån.
I de flesta konton är Unity Catalog aktiverat som standard när du skapar en arbetsyta. Du kan komma igång med Unity Catalog med standardinställningarna. Det finns dock valfria konfigurationer som du kanske vill aktivera.
Microsoft Purview
Microsoft Purview är en datastyrningstjänst som gör att du kan hantera och övervaka data i lokala system, flera moln och SaaS-plattformar. Den innehåller funktioner som dataidentifiering, klassificering, ursprungsspårning och åtkomststyrning.
När purview är integrerat med Azure Databricks och Unity Catalog kan de identifiera Lakehouse-data och mata in dess metadata i datakartan. På så sätt kan du tillämpa konsekvent styrning i hela datamiljön, samtidigt som du fungerar som en central katalog som samlar metadata från olika källor.
Med den här integreringen kan du:
- Avsöka Azure Databricks i både offentliga och privata nätverk, som drivs av den fullständigt hanterade Microsoft Purview-integreringskörningen.
- Genomsök hela Unity Catalog-metaarkivet eller välj att endast genomsöka selektiva kataloger.
- Extrahera en omfattande uppsättning Unity Catalog-metadata, inklusive information om metaarkiv, kataloger, scheman, tabeller/vyer och kolumner osv.
- Klassificera data automatiskt baserat på inbyggda systemklassificeringsregler eller användardefinierade anpassade klassificeringsregler för att identifiera känsliga data.
- Få detaljerad insyn i dataursprunget, som visar hur data transformeras och flyttas mellan olika system och processer, inklusive i Azure Databricks.
- Kör genomsökningen på begäran eller enligt ett återkommande schema varje dag/vecka/månad.
Dessutom kan Microsoft Purview genomsöka Hive-metaarkivet på arbetsytenivå i Azure Databricks.