Datatransformationer

2024-03-12

Datatransformeringar används för att:

Förbereda data för modellträning.
Använd en importerad modell i TensorFlow- eller ONNX-format.
Efterbearbetning av data efter att de har skickats via en modell.

Omvandlingarna i den här guiden returnerar klasser som implementerar IEstimator-gränssnittet . Datatransformeringar kan länkas samman. Varje transformering både förväntar sig och genererar data av specifika typer och format, som anges i den länkade referensdokumentationen.

Vissa datatransformeringar kräver träningsdata för att beräkna deras parametrar. Till exempel: NormalizeMeanVariance transformatorn beräknar medelvärdet och variansen för träningsdata under Fit() åtgärden och använder dessa parametrar i Transform() åtgärden.

Andra datatransformeringar kräver inte träningsdata. Till exempel: omvandlingen ConvertToGrayscale kan utföra Transform() åtgärden utan att ha sett några träningsdata under åtgärden Fit() .

Kolumnmappning och gruppering

Transformering	Definition	ONNX-exporterbar
Concatenate	Sammanfoga en eller flera indatakolumner till en ny utdatakolumn	Ja
CopyColumns	Kopiera och byt namn på en eller flera indatakolumner	Ja
DropColumns	Släpp en eller flera indatakolumner	Ja
SelectColumns	Välj en eller flera kolumner att behålla från indata	Ja

Normalisering och skalning

Transformering	Definition	ONNX-exporterbar
NormalizeMeanVariance	Subtrahera medelvärdet (av träningsdata) och dividera med variansen (för träningsdata)	Ja
NormalizeLogMeanVariance	Normalisera baserat på logaritmen för träningsdata	Ja
NormalizeLpNorm	Skala indatavektorer efter lp-norm, där p är 1, 2 eller oändligt. Standardvärdet är normen l2 (Euklidiska avstånd)	Ja
NormalizeGlobalContrast	Skala varje värde i en rad genom att subtrahera medelvärdet av raddata och dividera med antingen standardavvikelsen eller l2-normen (av raddata) och multiplicera med en konfigurerbar skalningsfaktor (standard 2)	Ja
NormalizeBinning	Tilldela indatavärdet till ett lagerplatsindex och dividera med antalet lagerplatser för att skapa ett flyttalvärde mellan 0 och 1. Intervallgränserna beräknas för att fördela träningsdata jämnt mellan lagerplatser	Ja
NormalizeSupervisedBinning	Tilldela indatavärdet till en lagerplats baserat på dess korrelation med etikettkolumnen	Ja
NormalizeMinMax	Skala indata efter skillnaden mellan lägsta och högsta värden i träningsdata	Ja
NormalizeRobustScaling	Skala varje värde med hjälp av statistik som är robust för extremvärden som kommer att centrera data runt 0 och skala data enligt kvantilintervallet.	Ja

Konverteringar mellan datatyper

Transformering	Definition	ONNX-exporterbar
ConvertType	Konvertera typen av en indatakolumn till en ny typ	Ja
MapValue	Mappa värden till nycklar (kategorier) baserat på den angivna ordlistan med mappningar	Nej
MapValueToKey	Mappa värden till nycklar (kategorier) genom att skapa mappningen från indata	Ja
MapKeyToValue	Konvertera tillbaka nycklar till sina ursprungliga värden	Ja
MapKeyToVector	Konvertera tillbaka nycklar till vektorer med ursprungliga värden	Ja
MapKeyToBinaryVector	Konvertera tillbaka nycklar till en binär vektor med ursprungliga värden	Nej
Hash	Hash värdet i indatakolumnen	Ja

Texttransformeringar

Transformering	Definition	ONNX-exporterbar
FeaturizeText	Omvandla en textkolumn till en flyttalmatris med normaliserade ngram och antal tecken/gram	Nej
TokenizeIntoWords	Dela upp en eller flera textkolumner i enskilda ord	Ja
TokenizeIntoCharactersAsKeys	Dela upp en eller flera textkolumner i enskilda tecken som flyter över en uppsättning ämnen	Ja
NormalizeText	Ändra skiftläge, ta bort diakritiska markeringar, skiljetecken och tal	Ja
ProduceNgrams	Omvandla textkolumnen till en påse med antal ngram (sekvenser med efterföljande ord)	Ja
ProduceWordBags	Omvandla textkolumn till en påse med antal ngramsvektor	Ja
ProduceHashedNgrams	Omvandla textkolumn till en vektor med hashade ngramantal	Nej
ProduceHashedWordBags	Omvandla textkolumn till en påse med hashade ngramantal	Ja
RemoveDefaultStopWords	Ta bort standardstoppord för det angivna språket från indatakolumner	Ja
RemoveStopWords	Tar bort angivna stoppord från indatakolumner	Ja
LatentDirichletAllocation	Transformera ett dokument (representeras som en vektor av flyttal) till en vektor av flyttal över en uppsättning ämnen	Ja
ApplyWordEmbedding	Konvertera vektorer av texttoken till meningsvektorer med hjälp av en förtränad modell	Ja

Bildtransformeringar

Transformering	Definition	ONNX-exporterbar
ConvertToGrayscale	Konvertera en bild till gråskala	Nej
ConvertToImage	Konvertera en pixelvektor till ImageDataViewType	Nej
ExtractPixels	Konvertera bildpunkter från indatabild till en vektor med tal	Nej
LoadImages	Läsa in bilder från en mapp till minnet	Nej
LoadRawImageBytes	Läser in bilder av råa byte i en ny kolumn.	Nej
ResizeImages	Ändra storlek på bilder	Nej
DnnFeaturizeImage	Använder en förtränad DNN-modell (Deep Neural Network) för att omvandla en indatabild till en funktionsvektor	Nej

Kategoriska datatransformeringar

Transformering	Definition	ONNX-exporterbar
OneHotEncoding	Konvertera en eller flera textkolumner till en frekvent kodade vektorer	Ja
OneHotHashEncoding	Konvertera en eller flera textkolumner till hashbaserade kodade vektorer med en frekvent kodning	Nej

Tidsseriedatatransformeringar

Transformering	Definition	ONNX-exporterbar
DetectAnomalyBySrCnn	Identifiera avvikelser i indata för tidsseriedata med hjälp av Spektral residualalgoritmen (SR)	Nej
DetectChangePointBySsa	Identifiera ändringspunkter i tidsseriedata med SSA (Singular Spectrum Analysis)	Nej
DetectIidChangePoint	Identifiera ändringspunkter i oberoende och identiskt distribuerade tidsseriedata (IID) med hjälp av adaptiva kerneldensitetsuppskattningar och martingalepoäng	Nej
ForecastBySsa	Prognostisera tidsseriedata med singulär spektrumanalys (SSA)	Nej
DetectSpikeBySsa	Identifiera toppar i tidsseriedata med SSA (Singular Spectrum Analysis)	Nej
DetectIidSpike	Identifiera toppar i oberoende och identiskt distribuerade tidsseriedata (IID) med hjälp av adaptiva kerneldensitetsuppskattningar och martingalpoäng	Nej
DetectEntireAnomalyBySrCnn	Identifiera avvikelser för hela indata med hjälp av SRCNN-algoritmen.	Nej
DetectSeasonality	Identifiera säsongsvariationer med hjälp av fourier-analys.	Nej
LocalizeRootCause	Lokaliserar rotorsaken från tidsserieindata med hjälp av en beslutsträdsalgoritm.	Nej
LocalizeRootCauses	Lokaliserar rotorsaker från tie series-indata.	Nej

Saknade värden

Transformering	Definition	ONNX-exporterbar
IndicateMissingValues	Skapa en ny boolesk utdatakolumn, vars värde är sant när värdet i indatakolumnen saknas	Ja
ReplaceMissingValues	Skapa en ny utdatakolumn, vars värde är inställt på ett standardvärde om värdet saknas i indatakolumnen och indatavärdet annars	Ja

Val av funktion

Transformering	Definition	ONNX-exporterbar
SelectFeaturesBasedOnCount	Välj funktioner vars icke-standardvärden är större än ett tröskelvärde	Ja
SelectFeaturesBasedOnMutualInformation	Välj de funktioner som data i etikettkolumnen är mest beroende av	Ja

Funktionstransformeringar

Transformering	Definition	ONNX-exporterbar
ApproximatedKernelMap	Mappa varje indatavektor till ett lägre dimensionellt funktionsutrymme, där inre produkter approximeras en kernelfunktion, så att funktionerna kan användas som indata till de linjära algoritmerna	Nej
ProjectToPrincipalComponents	Minska dimensionerna för indatafunktionsvektorn genom att använda algoritmen för analys av huvudkomponent

Förklaringstransformeringar

Transformering	Definition	ONNX-exporterbar
CalculateFeatureContribution	Beräkna bidragspoäng för varje element i en funktionsvektor	Nej

Kalibreringstransformeringar

Transformering	Definition	ONNX-exporterbar
Platt(String, String, String)	Omvandlar en binär klassificerarens råpoäng till en klasssannolikheten med logistisk regression med parametrar som uppskattas med hjälp av träningsdata	Ja
Platt(Double, Double, String)	Omvandlar en binär klassificerares råpoäng till en klasssannolikheten med logistisk regression med fasta parametrar	Ja
Naive	Omvandlar en binär klassificerarens råpoäng till en klasssannolikhet genom att tilldela poäng till lagerplatser och beräkna sannolikheten baserat på fördelningen mellan lagerplatserna	Ja
Isotonic	Omvandlar en binär klassificerarens råpoäng till en klasssannolikhet genom att tilldela poäng till lagerplatser, där gränsernas position och storleken på lagerplatser beräknas med hjälp av träningsdata	Nej

Djupinlärningstransformeringar

Transformering	Definition	ONNX-exporterbar
ApplyOnnxModel	Transformera indata med en importerad ONNX-modell	Nej
LoadTensorFlowModel	Transformera indata med en importerad TensorFlow-modell	Nej

Anpassade transformeringar

Transformering	Definition	ONNX-exporterbar
FilterByCustomPredicate	Tar bort rader där ett angivet predikat returnerar sant.	Nej
FilterByStatefulCustomPredicate	Tar bort rader där ett angivet predikat returnerar sant, men tillåter ett angivet tillstånd.	Nej
CustomMapping	Transformera befintliga kolumner till nya med en användardefinierad mappning	Nej
Expression	Använda ett uttryck för att omvandla kolumner till nya	Nej

Feedback

Var den här sidan till hjälp?