Dela via


Träna maskininlärningsmodeller

Apache Spark – en del av Microsoft Fabric – möjliggör maskininlärning i stor skala. Använd den för att få insikter från stora volymer strukturerade, ostrukturerade och strömmande data. Träna modeller i Microsoft Fabric med bibliotek med öppen källkod, till exempel Apache Spark MLlib, SynapseML och andra.

Apache SparkML och MLlib

Apache Spark – en del av Microsoft Fabric – är ett enhetligt ramverk för parallell databearbetning med öppen källkod. Den använder minnesintern bearbetning för att påskynda stordataanalys. Spark är byggt för snabbhet, användarvänlighet och avancerad analys. Sparks minnesinterna, distribuerade beräkning passar iterativ maskininlärning och grafalgoritmer.

MLlib- och SparkML-skalbara maskininlärningsbibliotek ger algoritmiska modelleringsfunktioner till den här distribuerade miljön. MLlib tillhandahåller det ursprungliga RDD-baserade API:et. SparkML är ett nyare paket som tillhandahåller ett DataFrame-baserat API på högre nivå för att skapa ML-pipelines. Det tillhandahåller ett API på högre nivå som bygger på DataFrames för konstruktion av ML-pipelines. SparkML har ännu inte stöd för alla MLlib-funktioner, men det ersätter MLlib som standardbiblioteket för Spark-maskininlärning.

Microsoft Fabric-körningen för Apache Spark innehåller flera populära paket med öppen källkod för att träna maskininlärningsmodeller. De här biblioteken tillhandahåller återanvändbar kod för dina projekt. Körtiden inkluderar följande maskininlärningsbibliotek:

  • Scikit-learn – ett populärt bibliotek med en nod för klassiska maskininlärningsalgoritmer. Den stöder de flesta övervakade och oövervakade algoritmer och hanterar datautvinning och dataanalys.

  • XGBoost – ett populärt bibliotek med optimerade algoritmer för träning av beslutsträd och slumpmässiga skogar.

  • PyTorch och Tensorflow är kraftfulla Python-djupinlärningsbibliotek. Med de här biblioteken kan du ange antalet utförare i poolen till noll för att skapa modeller med en enda dator. Även om den konfigurationen inte stöder Apache Spark är det ett enkelt, kostnadseffektivt sätt att skapa modeller med en dator.

SynapseML

SynapseML-biblioteket med öppen källkod (tidigare kallat MMLSpark) hjälper dig att skapa skalbara ML-pipelines (Machine Learning). Det påskyndar experimenteringen och gör att du kan använda avancerade tekniker, inklusive djupinlärning, för stora datamängder.

SynapseML tillhandahåller ett lager ovanför SparkML-API:erna på låg nivå när du skapar skalbara ML-modeller. Dessa API:er omfattar strängindexering, sammansättning av funktionsvektorer, tvingad data till layouter som är lämpliga för maskininlärningsalgoritmer med mera. SynapseML-biblioteket förenklar dessa och andra vanliga uppgifter för att skapa modeller i PySpark.

Utforska alternativ för att träna maskininlärningsmodeller i Apache Spark i Microsoft Fabric. Mer information finns i: