Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
För databerikning och affärsinsikter erbjuder Microsoft Fabric datavetenskapsupplevelser som gör det möjligt för användare att skapa datavetenskapsarbetsflöden från slutpunkt till slutpunkt. Du kan utföra en mängd olika aktiviteter i hela datavetenskapsprocessen:
- datautforskning
- data preparation
- datarensning
- experimentation
- modeling
- modellpoängsättning
- leverera förutsägelseinsikter till BI-rapporter
Microsoft Fabric-användare kan komma åt en startsida för Data Science. Sedan kan de identifiera och komma åt olika relevanta resurser, enligt följande skärmbild:
De flesta maskininlärningsprojekt följer datavetenskapsprocessen. Den processen omfattar följande steg på hög nivå:
- problemformulering och idé
- dataidentifiering och förbearbetning
- experimentering och modellering
- berika och operationalisera
- skapa insikter
Den här artikeln beskriver Funktionerna i Microsoft Fabric Data Science ur ett datavetenskapsprocessperspektiv. För varje steg i datavetenskapsprocessen sammanfattar den här artikeln de Microsoft Fabric-funktioner som kan vara till hjälp.
Problemformulering och idé
Data Science-användare i Microsoft Fabric arbetar på samma plattform som företagsanvändare och analytiker. Datadelning och samarbete blir därför mer sömlöst mellan olika roller. Analytiker kan enkelt dela Power BI-rapporter och datauppsättningar med datavetenskapsutövare. Det enkla samarbetet mellan olika roller i Microsoft Fabric underlättar överlämningar under problemformuleringsfasen.
Dataidentifiering och förbearbetning
Microsoft Fabric-användare kan interagera med data i OneLake med hjälp av Lakehouse-resursen. För att bläddra och interagera med data ansluts Lakehouse enkelt till en notebook. Användare kan enkelt läsa data från en Lakehouse direkt till en Pandas-dataram. För utforskning blir sömlösa dataläsningar från OneLake sedan möjliga.
Det finns en kraftfull uppsättning verktyg för datainmatning och dataorkestreringspipelines med dataintegreringspipelines – en inbyggt integrerad del av Microsoft Fabric. Lättbyggda pipelines kan komma åt och omvandla data till ett format som maskininlärning kan använda.
Datautforskning
En viktig del av maskininlärningsprocessen är att förstå data genom utforskning och visualisering.
Beroende på platsen för datalagring erbjuder Microsoft Fabric verktyg för att utforska och förbereda data för analys och maskininlärning. Själva notebookarna blir effektiva och ändamålsenliga verktyg för datautforskning.
Apache Spark och Python för förberedelse av data
Microsoft Fabric kan transformera, förbereda och utforska dina data i stor skala. Med Spark kan användarna använda Verktygen PySpark/Python, Scala och SparkR/SparklyR för att förbearbeta data i stor skala. Kraftfulla visualiseringsbibliotek med öppen källkod kan förbättra datautforskningsupplevelsen för bättre datatolkning.
Data Wrangler för sömlös datarensning
För att använda Data Wrangler lade Microsoft Fabric Notebook-upplevelsen till en kodverktygsfunktion som förbereder data och genererar Python-kod. Den här upplevelsen gör det enkelt att påskynda omständliga och vardagliga uppgifter – till exempel datarensning. Med den kan du också skapa automatisering och repeterbarhet genom genererad kod. Läs mer om Data Wrangler i avsnittet Data Wrangler i det här dokumentet.
Experimentering och ML-modellering
Med verktyg som PySpark/Python och SparklyR/R kan anteckningsböcker hantera träning av maskininlärningsmodeller. Maskininlärningsalgoritmer och -bibliotek kan hjälpa dig att träna maskininlärningsmodeller. Bibliotekshanteringsverktyg kan installera dessa bibliotek och algoritmer. Användarna kan sedan använda populära maskininlärningsbibliotek för att slutföra ml-modellträningen i Microsoft Fabric. Dessutom kan populära bibliotek som Scikit Learn även utveckla modeller.
MLflow-experiment och -körningar kan spåra ML-modellträning. För att logga experiment och modeller erbjuder Microsoft Fabric en inbyggd MLflow-upplevelse som stöder interaktion. Läs mer om hur du använder MLflow för att spåra experiment och hantera modeller i Microsoft Fabric.
SynapseML
Microsoft äger och driver biblioteket SynapseML (tidigare MMLSpark) med öppen källkod. Det förenklar skapandet av en massivt skalbar maskininlärningspipeline. Som ett verktygsekosystem expanderar det Apache Spark-ramverket i flera nya riktningar. SynapseML förenar flera befintliga maskininlärningsramverk och nya Microsoft-algoritmer i ett enda skalbart API. SynapseML-biblioteket med öppen källkod innehåller ett omfattande ekosystem med ML-verktyg för förutsägelsemodellutveckling och använder förtränad AI-modeller från Azure AI-tjänster. Mer information finns i SynapseML-resursen .
Berika och operationalisera
Notebooks kan hantera batch-resultatberäkning av maskininlärningsmodeller med bibliotek med öppen källkod för prediktion. De kan också hantera den skalbara universella Spark Predict-funktionen för Microsoft Fabric. Den här funktionen stöder MLflow-paketerade modeller i Microsoft Fabric-modellregistret.
Skaffa insikter
I Microsoft Fabric kan du enkelt skriva förutsagda värden till OneLake. Därifrån kan Power BI-rapporter använda dem sömlöst med Power BI Direct Lake-läget. Data science-utövare kan sedan enkelt dela resultatet av sitt arbete med intressenter – och det förenklar driftsättningen.
Du kan använda funktioner för schemaläggning av notebook-filer för att schemalägga körningar av notebook-filer som innehåller batchbedömning. Du kan också schemalägga batchpoängberäkning som en del av pipeline-aktiviteter eller Spark-jobb. Med Direct Lake-läget i Microsoft Fabric får Power BI automatiskt de senaste förutsägelserna utan att behöva läsa in eller uppdatera data.
Datautforskning med semantisk länk
Dataforskare och affärsanalytiker ägnar mycket tid åt att försöka förstå, rensa och transformera data innan meningsfull analys kan börja. Affärsanalytiker arbetar vanligtvis med semantiska modeller och kodar sina domänkunskaper och affärslogik i Power BI-mått. Å andra sidan kan dataexperter arbeta med samma data, men vanligtvis i en annan kodmiljö eller ett annat språk. Med semantisk länk kan dataforskare upprätta en anslutning mellan Power BI-semantiska modeller och Synapse Data Science i Microsoft Fabric-upplevelsen via SemPy Python-biblioteket. För att förenkla dataanalysen samlar SemPy in och använder datasemantik när användare utför olika omvandlingar på semantiska modeller. När dataforskare använder semantiska samband kan de
- undvika omimplementering av affärslogik och domänkunskap i sin kod
- enkelt komma åt och använda Power BI-mått i sin kod
- använda semantik för att skapa nya upplevelser – till exempel semantiska funktioner
- utforska och validera funktionella beroenden och relationer mellan data
När organisationer använder SemPy kan de förvänta sig
- ökad produktivitet och snabbare samarbete mellan team som arbetar med samma datauppsättningar
- ökat samarbete mellan business intelligence- och AI-team
- minskad tvetydighet och en enklare inlärningskurva vid registrering på en ny modell eller datauppsättning
Mer information om semantisk länk finns i resursen Vad är semantisk länk?
Relaterat innehåll
- Gå till Data Science-handledningar för att komma igång med heltäckande datavetenskapsexempel.
- Besök Data Wrangler för mer information om förberedelse och rensning av data med Data Wrangler
- Besök Maskininlärningsexperiment för att lära dig mer om spårningsexperiment
- Gå till Maskininlärningsmodell för att lära dig mer om modellhantering
- Besök Poängmodeller med PREDICT för att lära dig mer om batchbedömning med Predict
- Tillhandahålla Lakehouse-prognoser till Power BI med Direct Lake