Datatransformeringar används för att:
- Förbereda data för modellträning.
- Använd en importerad modell i TensorFlow- eller ONNX-format.
- Efterbearbetning av data efter att de har skickats via en modell.
Omvandlingarna i den här guiden returnerar klasser som implementerar IEstimator-gränssnittet . Datatransformeringar kan länkas samman. Varje transformering både förväntar sig och genererar data av specifika typer och format, som anges i den länkade referensdokumentationen.
Vissa datatransformeringar kräver träningsdata för att beräkna deras parametrar. Till exempel: NormalizeMeanVariance transformatorn beräknar medelvärdet och variansen för träningsdata under Fit() åtgärden och använder dessa parametrar i Transform() åtgärden.
Andra datatransformeringar kräver inte träningsdata. Till exempel: omvandlingen ConvertToGrayscale kan utföra Transform() åtgärden utan att ha sett några träningsdata under åtgärden Fit() .
Kolumnmappning och gruppering
| Transformering |
Definition |
ONNX-exporterbar |
| Concatenate |
Sammanfoga en eller flera indatakolumner till en ny utdatakolumn |
Ja |
| CopyColumns |
Kopiera och byt namn på en eller flera indatakolumner |
Ja |
| DropColumns |
Släpp en eller flera indatakolumner |
Ja |
| SelectColumns |
Välj en eller flera kolumner att behålla från indata |
Ja |
Normalisering och skalning
| Transformering |
Definition |
ONNX-exporterbar |
| NormalizeMeanVariance |
Subtrahera medelvärdet (av träningsdata) och dividera med variansen (för träningsdata) |
Ja |
| NormalizeLogMeanVariance |
Normalisera baserat på logaritmen för träningsdata |
Ja |
| NormalizeLpNorm |
Skala indatavektorer efter lp-norm, där p är 1, 2 eller oändligt. Standardvärdet är normen l2 (Euklidiska avstånd) |
Ja |
| NormalizeGlobalContrast |
Skala varje värde i en rad genom att subtrahera medelvärdet av raddata och dividera med antingen standardavvikelsen eller l2-normen (av raddata) och multiplicera med en konfigurerbar skalningsfaktor (standard 2) |
Ja |
| NormalizeBinning |
Tilldela indatavärdet till ett lagerplatsindex och dividera med antalet lagerplatser för att skapa ett flyttalvärde mellan 0 och 1. Intervallgränserna beräknas för att fördela träningsdata jämnt mellan lagerplatser |
Ja |
| NormalizeSupervisedBinning |
Tilldela indatavärdet till en lagerplats baserat på dess korrelation med etikettkolumnen |
Ja |
| NormalizeMinMax |
Skala indata efter skillnaden mellan lägsta och högsta värden i träningsdata |
Ja |
| NormalizeRobustScaling |
Skala varje värde med hjälp av statistik som är robust för extremvärden som kommer att centrera data runt 0 och skala data enligt kvantilintervallet. |
Ja |
Konverteringar mellan datatyper
| Transformering |
Definition |
ONNX-exporterbar |
| ConvertType |
Konvertera typen av en indatakolumn till en ny typ |
Ja |
| MapValue |
Mappa värden till nycklar (kategorier) baserat på den angivna ordlistan med mappningar |
Nej |
| MapValueToKey |
Mappa värden till nycklar (kategorier) genom att skapa mappningen från indata |
Ja |
| MapKeyToValue |
Konvertera tillbaka nycklar till sina ursprungliga värden |
Ja |
| MapKeyToVector |
Konvertera tillbaka nycklar till vektorer med ursprungliga värden |
Ja |
| MapKeyToBinaryVector |
Konvertera tillbaka nycklar till en binär vektor med ursprungliga värden |
Nej |
| Hash |
Hash värdet i indatakolumnen |
Ja |
Texttransformeringar
| Transformering |
Definition |
ONNX-exporterbar |
| FeaturizeText |
Omvandla en textkolumn till en flyttalmatris med normaliserade ngram och antal tecken/gram |
Nej |
| TokenizeIntoWords |
Dela upp en eller flera textkolumner i enskilda ord |
Ja |
| TokenizeIntoCharactersAsKeys |
Dela upp en eller flera textkolumner i enskilda tecken som flyter över en uppsättning ämnen |
Ja |
| NormalizeText |
Ändra skiftläge, ta bort diakritiska markeringar, skiljetecken och tal |
Ja |
| ProduceNgrams |
Omvandla textkolumnen till en påse med antal ngram (sekvenser med efterföljande ord) |
Ja |
| ProduceWordBags |
Omvandla textkolumn till en påse med antal ngramsvektor |
Ja |
| ProduceHashedNgrams |
Omvandla textkolumn till en vektor med hashade ngramantal |
Nej |
| ProduceHashedWordBags |
Omvandla textkolumn till en påse med hashade ngramantal |
Ja |
| RemoveDefaultStopWords |
Ta bort standardstoppord för det angivna språket från indatakolumner |
Ja |
| RemoveStopWords |
Tar bort angivna stoppord från indatakolumner |
Ja |
| LatentDirichletAllocation |
Transformera ett dokument (representeras som en vektor av flyttal) till en vektor av flyttal över en uppsättning ämnen |
Ja |
| ApplyWordEmbedding |
Konvertera vektorer av texttoken till meningsvektorer med hjälp av en förtränad modell |
Ja |
| Transformering |
Definition |
ONNX-exporterbar |
| OneHotEncoding |
Konvertera en eller flera textkolumner till en frekvent kodade vektorer |
Ja |
| OneHotHashEncoding |
Konvertera en eller flera textkolumner till hashbaserade kodade vektorer med en frekvent kodning |
Nej |
| Transformering |
Definition |
ONNX-exporterbar |
| DetectAnomalyBySrCnn |
Identifiera avvikelser i indata för tidsseriedata med hjälp av Spektral residualalgoritmen (SR) |
Nej |
| DetectChangePointBySsa |
Identifiera ändringspunkter i tidsseriedata med SSA (Singular Spectrum Analysis) |
Nej |
| DetectIidChangePoint |
Identifiera ändringspunkter i oberoende och identiskt distribuerade tidsseriedata (IID) med hjälp av adaptiva kerneldensitetsuppskattningar och martingalepoäng |
Nej |
| ForecastBySsa |
Prognostisera tidsseriedata med singulär spektrumanalys (SSA) |
Nej |
| DetectSpikeBySsa |
Identifiera toppar i tidsseriedata med SSA (Singular Spectrum Analysis) |
Nej |
| DetectIidSpike |
Identifiera toppar i oberoende och identiskt distribuerade tidsseriedata (IID) med hjälp av adaptiva kerneldensitetsuppskattningar och martingalpoäng |
Nej |
| DetectEntireAnomalyBySrCnn |
Identifiera avvikelser för hela indata med hjälp av SRCNN-algoritmen. |
Nej |
| DetectSeasonality |
Identifiera säsongsvariationer med hjälp av fourier-analys. |
Nej |
| LocalizeRootCause |
Lokaliserar rotorsaken från tidsserieindata med hjälp av en beslutsträdsalgoritm. |
Nej |
| LocalizeRootCauses |
Lokaliserar rotorsaker från tie series-indata. |
Nej |
Saknade värden
| Transformering |
Definition |
ONNX-exporterbar |
| IndicateMissingValues |
Skapa en ny boolesk utdatakolumn, vars värde är sant när värdet i indatakolumnen saknas |
Ja |
| ReplaceMissingValues |
Skapa en ny utdatakolumn, vars värde är inställt på ett standardvärde om värdet saknas i indatakolumnen och indatavärdet annars |
Ja |
Val av funktion
| Transformering |
Definition |
ONNX-exporterbar |
| ApproximatedKernelMap |
Mappa varje indatavektor till ett lägre dimensionellt funktionsutrymme, där inre produkter approximeras en kernelfunktion, så att funktionerna kan användas som indata till de linjära algoritmerna |
Nej |
| ProjectToPrincipalComponents |
Minska dimensionerna för indatafunktionsvektorn genom att använda algoritmen för analys av huvudkomponent |
|
| Transformering |
Definition |
ONNX-exporterbar |
| Platt(String, String, String) |
Omvandlar en binär klassificerarens råpoäng till en klasssannolikheten med logistisk regression med parametrar som uppskattas med hjälp av träningsdata |
Ja |
| Platt(Double, Double, String) |
Omvandlar en binär klassificerares råpoäng till en klasssannolikheten med logistisk regression med fasta parametrar |
Ja |
| Naive |
Omvandlar en binär klassificerarens råpoäng till en klasssannolikhet genom att tilldela poäng till lagerplatser och beräkna sannolikheten baserat på fördelningen mellan lagerplatserna |
Ja |
| Isotonic |
Omvandlar en binär klassificerarens råpoäng till en klasssannolikhet genom att tilldela poäng till lagerplatser, där gränsernas position och storleken på lagerplatser beräknas med hjälp av träningsdata |
Nej |
| Transformering |
Definition |
ONNX-exporterbar |
| ApplyOnnxModel |
Transformera indata med en importerad ONNX-modell |
Nej |
| LoadTensorFlowModel |
Transformera indata med en importerad TensorFlow-modell |
Nej |
| Transformering |
Definition |
ONNX-exporterbar |
| FilterByCustomPredicate |
Tar bort rader där ett angivet predikat returnerar sant. |
Nej |
| FilterByStatefulCustomPredicate |
Tar bort rader där ett angivet predikat returnerar sant, men tillåter ett angivet tillstånd. |
Nej |
| CustomMapping |
Transformera befintliga kolumner till nya med en användardefinierad mappning |
Nej |
| Expression |
Använda ett uttryck för att omvandla kolumner till nya |
Nej |