Dela via


Vad är Data Science i Microsoft Fabric?

För databerikning och affärsinsikter erbjuder Microsoft Fabric datavetenskapsupplevelser som gör det möjligt för användare att skapa datavetenskapsarbetsflöden från slutpunkt till slutpunkt. Du kan utföra en mängd olika aktiviteter i hela datavetenskapsprocessen:

  • datautforskning
  • data preparation
  • datarensning
  • experimentation
  • modeling
  • modellpoängsättning
  • leverera förutsägelseinsikter till BI-rapporter

Microsoft Fabric-användare kan komma åt en startsida för Data Science. Sedan kan de identifiera och komma åt olika relevanta resurser, enligt följande skärmbild:

Skärmbild av startsidan för datavetenskap.

De flesta maskininlärningsprojekt följer datavetenskapsprocessen. Den processen omfattar följande steg på hög nivå:

  • problemformulering och idé
  • dataidentifiering och förbearbetning
  • experimentering och modellering
  • berika och operationalisera
  • skapa insikter

Diagram över datavetenskapsprocessen.

Den här artikeln beskriver Funktionerna i Microsoft Fabric Data Science ur ett datavetenskapsprocessperspektiv. För varje steg i datavetenskapsprocessen sammanfattar den här artikeln de Microsoft Fabric-funktioner som kan vara till hjälp.

Problemformulering och idé

Data Science-användare i Microsoft Fabric arbetar på samma plattform som företagsanvändare och analytiker. Datadelning och samarbete blir därför mer sömlöst mellan olika roller. Analytiker kan enkelt dela Power BI-rapporter och datauppsättningar med datavetenskapsutövare. Det enkla samarbetet mellan olika roller i Microsoft Fabric underlättar överlämningar under problemformuleringsfasen.

Dataidentifiering och förbearbetning

Microsoft Fabric-användare kan interagera med data i OneLake med hjälp av Lakehouse-resursen. För att bläddra och interagera med data ansluts Lakehouse enkelt till en notebook. Användare kan enkelt läsa data från en Lakehouse direkt till en Pandas-dataram. För utforskning blir sömlösa dataläsningar från OneLake sedan möjliga.

Det finns en kraftfull uppsättning verktyg för datainmatning och dataorkestreringspipelines med dataintegreringspipelines – en inbyggt integrerad del av Microsoft Fabric. Lättbyggda pipelines kan komma åt och omvandla data till ett format som maskininlärning kan använda.

Datautforskning

En viktig del av maskininlärningsprocessen är att förstå data genom utforskning och visualisering.

Beroende på platsen för datalagring erbjuder Microsoft Fabric verktyg för att utforska och förbereda data för analys och maskininlärning. Själva notebookarna blir effektiva och ändamålsenliga verktyg för datautforskning.

Apache Spark och Python för förberedelse av data

Microsoft Fabric kan transformera, förbereda och utforska dina data i stor skala. Med Spark kan användarna använda Verktygen PySpark/Python, Scala och SparkR/SparklyR för att förbearbeta data i stor skala. Kraftfulla visualiseringsbibliotek med öppen källkod kan förbättra datautforskningsupplevelsen för bättre datatolkning.

Data Wrangler för sömlös datarensning

För att använda Data Wrangler lade Microsoft Fabric Notebook-upplevelsen till en kodverktygsfunktion som förbereder data och genererar Python-kod. Den här upplevelsen gör det enkelt att påskynda omständliga och vardagliga uppgifter – till exempel datarensning. Med den kan du också skapa automatisering och repeterbarhet genom genererad kod. Läs mer om Data Wrangler i avsnittet Data Wrangler i det här dokumentet.

Experimentering och ML-modellering

Med verktyg som PySpark/Python och SparklyR/R kan anteckningsböcker hantera träning av maskininlärningsmodeller. Maskininlärningsalgoritmer och -bibliotek kan hjälpa dig att träna maskininlärningsmodeller. Bibliotekshanteringsverktyg kan installera dessa bibliotek och algoritmer. Användarna kan sedan använda populära maskininlärningsbibliotek för att slutföra ml-modellträningen i Microsoft Fabric. Dessutom kan populära bibliotek som Scikit Learn även utveckla modeller.

MLflow-experiment och -körningar kan spåra ML-modellträning. För att logga experiment och modeller erbjuder Microsoft Fabric en inbyggd MLflow-upplevelse som stöder interaktion. Läs mer om hur du använder MLflow för att spåra experiment och hantera modeller i Microsoft Fabric.

SynapseML

Microsoft äger och driver biblioteket SynapseML (tidigare MMLSpark) med öppen källkod. Det förenklar skapandet av en massivt skalbar maskininlärningspipeline. Som ett verktygsekosystem expanderar det Apache Spark-ramverket i flera nya riktningar. SynapseML förenar flera befintliga maskininlärningsramverk och nya Microsoft-algoritmer i ett enda skalbart API. SynapseML-biblioteket med öppen källkod innehåller ett omfattande ekosystem med ML-verktyg för förutsägelsemodellutveckling och använder förtränad AI-modeller från Azure AI-tjänster. Mer information finns i SynapseML-resursen .

Berika och operationalisera

Notebooks kan hantera batch-resultatberäkning av maskininlärningsmodeller med bibliotek med öppen källkod för prediktion. De kan också hantera den skalbara universella Spark Predict-funktionen för Microsoft Fabric. Den här funktionen stöder MLflow-paketerade modeller i Microsoft Fabric-modellregistret.

Skaffa insikter

I Microsoft Fabric kan du enkelt skriva förutsagda värden till OneLake. Därifrån kan Power BI-rapporter använda dem sömlöst med Power BI Direct Lake-läget. Data science-utövare kan sedan enkelt dela resultatet av sitt arbete med intressenter – och det förenklar driftsättningen.

Du kan använda funktioner för schemaläggning av notebook-filer för att schemalägga körningar av notebook-filer som innehåller batchbedömning. Du kan också schemalägga batchpoängberäkning som en del av pipeline-aktiviteter eller Spark-jobb. Med Direct Lake-läget i Microsoft Fabric får Power BI automatiskt de senaste förutsägelserna utan att behöva läsa in eller uppdatera data.

Dataforskare och affärsanalytiker ägnar mycket tid åt att försöka förstå, rensa och transformera data innan meningsfull analys kan börja. Affärsanalytiker arbetar vanligtvis med semantiska modeller och kodar sina domänkunskaper och affärslogik i Power BI-mått. Å andra sidan kan dataexperter arbeta med samma data, men vanligtvis i en annan kodmiljö eller ett annat språk. Med semantisk länk kan dataforskare upprätta en anslutning mellan Power BI-semantiska modeller och Synapse Data Science i Microsoft Fabric-upplevelsen via SemPy Python-biblioteket. För att förenkla dataanalysen samlar SemPy in och använder datasemantik när användare utför olika omvandlingar på semantiska modeller. När dataforskare använder semantiska samband kan de

  • undvika omimplementering av affärslogik och domänkunskap i sin kod
  • enkelt komma åt och använda Power BI-mått i sin kod
  • använda semantik för att skapa nya upplevelser – till exempel semantiska funktioner
  • utforska och validera funktionella beroenden och relationer mellan data

När organisationer använder SemPy kan de förvänta sig

  • ökad produktivitet och snabbare samarbete mellan team som arbetar med samma datauppsättningar
  • ökat samarbete mellan business intelligence- och AI-team
  • minskad tvetydighet och en enklare inlärningskurva vid registrering på en ny modell eller datauppsättning

Mer information om semantisk länk finns i resursen Vad är semantisk länk?