AutoMLConfig Klass

Representerar konfiguration för att skicka ett automatiserat ML-experiment i Azure Machine Learning.

Det här konfigurationsobjektet innehåller och bevarar parametrarna för att konfigurera experimentkörningen, samt träningsdata som ska användas vid körning. Information om hur du väljer dina inställningar finns i https://aka.ms/AutoMLConfig.

Skapa en AutoMLConfig.

Konstruktor

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parametrar

Name	Description
task Obligatorisk	str eller Tasks Typen av uppgift som ska köras. Värden kan vara "klassificering", "regression" eller "prognostisering" beroende på vilken typ av automatiserat ML-problem som ska lösas.
path Obligatorisk	str Den fullständiga sökvägen till Azure Machine Learning-projektmappen. Om det inte anges är standardvärdet att använda den aktuella katalogen eller ".".
iterations Obligatorisk	int Det totala antalet olika kombinationer av algoritmer och parametrar som ska testas under ett automatiserat ML-experiment. Om det inte anges är standardvärdet 1 000 iterationer.
primary_metric Obligatorisk	str eller Metric Måttet som Automatiserad maskininlärning optimerar för modellval. Automatiserad maskininlärning samlar in fler mått än vad som kan optimeras. Du kan använda get_primary_metrics för att hämta en lista över giltiga mått för din angivna uppgift. Mer information om hur mått beräknas finns i https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Om det inte anges används noggrannhet för klassificeringsuppgifter, normaliserad rotmedelvärde i kvadrat används för prognostiserings- och regressionsaktiviteter, noggrannhet används för bildklassificering och klassificering av flera etiketter och genomsnittlig genomsnittlig precision används för identifiering av bildobjekt.
positive_label Obligatorisk	Any Den positiva klassetikett som automatiserad maskininlärning använder för att beräkna binära mått med. Binära mått beräknas i två villkor för klassificeringsuppgifter: etikettkolumnen består av två klasser som anger att autoML för binär klassificering använder angiven positiv klass när positive_label skickas in, annars väljer AutoML en positiv klass baserat på etikettkodat värde. klassificeringsaktivitet för flera klasser med positive_label angivet Mer information om klassificering finns i checka ut mått för klassificeringsscenarier.
compute_target Obligatorisk	AbstractComputeTarget Beräkningsmålet för Azure Machine Learning för att köra experimentet Automatiserad maskininlärning på. Mer https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote information om beräkningsmål finns i.
spark_context Obligatorisk	<xref:SparkContext> Spark-kontexten. Gäller endast när det används i Azure Databricks/Spark-miljön.
X Obligatorisk	DataFrame eller ndarray eller Dataset eller TabularDataset Träningsfunktionerna som ska användas vid montering av pipelines under ett experiment. Den här inställningen är inaktuell. Använd training_data och label_column_name i stället.
y Obligatorisk	DataFrame eller ndarray eller Dataset eller TabularDataset Träningsetiketterna som ska användas vid montering av pipelines under ett experiment. Det här är det värde som din modell förutsäger. Den här inställningen är inaktuell. Använd training_data och label_column_name i stället.
sample_weight Obligatorisk	DataFrame eller ndarray eller TabularDataset Vikten för varje träningsexempel när du kör passande pipelines, varje rad ska motsvara en rad i X- och y-data. Ange den här parametern när du `X`anger . Den här inställningen är inaktuell. Använd training_data och weight_column_name i stället.
X_valid Obligatorisk	DataFrame eller ndarray eller Dataset eller TabularDataset Valideringsfunktioner som ska användas vid montering av pipelines under ett experiment. Om det anges `y_valid` måste eller `sample_weight_valid` måste även anges. Den här inställningen är inaktuell. Använd validation_data och label_column_name i stället.
y_valid Obligatorisk	DataFrame eller ndarray eller Dataset eller TabularDataset Valideringsetiketter som ska användas vid montering av pipelines under ett experiment. Både `X_valid` och `y_valid` måste anges tillsammans. Den här inställningen är inaktuell. Använd validation_data och label_column_name i stället.
sample_weight_valid Obligatorisk	DataFrame eller ndarray eller TabularDataset Vikten för varje valideringsexempel när du kör bedömningspipelines bör varje rad motsvara en rad i X- och y-data. Ange den här parametern när du `X_valid`anger . Den här inställningen är inaktuell. Använd validation_data och weight_column_name i stället.
cv_splits_indices Obligatorisk	List[List[ndarray]] Index där du kan dela träningsdata för korsvalidering. Varje rad är en separat korsvikt och inom varje korsmapp tillhandahåller du 2 numpy-matriser, den första med indexen för exempel som ska användas för träningsdata och den andra med indexen som ska användas för valideringsdata. dvs. [[t1, v1], [t2, v2], ...] där t1 är träningsindexen för den första korsvikten och v1 är valideringsindexen för den första korsvikten. Om du vill ange befintliga data som valideringsdata använder du `validation_data`. Om du vill låta AutoML extrahera valideringsdata från träningsdata i stället anger du antingen `n_cross_validations` eller `validation_size`. Använd `cv_split_column_names` om du har korsvalideringskolumner i `training_data`.
validation_size Obligatorisk	float Vilken del av data som ska lagras för validering när användarverifieringsdata inte har angetts. Detta bör vara mellan 0.0 och 1.0 icke-inkluderande. Ange `validation_data` för att tillhandahålla valideringsdata, ange `n_cross_validations` på annat sätt eller `validation_size` extrahera valideringsdata från angivna träningsdata. För anpassad korsvalideringsdelegering använder du `cv_split_column_names`. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
n_cross_validations Obligatorisk	int Hur många korsvalideringar som ska utföras när användarverifieringsdata inte har angetts. Ange `validation_data` för att tillhandahålla valideringsdata, ange `n_cross_validations` på annat sätt eller `validation_size` extrahera valideringsdata från angivna träningsdata. För anpassad korsvalideringsdelegering använder du `cv_split_column_names`. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
y_min Obligatorisk	float Minsta värde på y för ett regressionsexperiment. Kombinationen av `y_min` och `y_max` används för att normalisera testuppsättningsmått baserat på indataintervallet. Den här inställningen är inaktuell. I stället beräknas det här värdet från data.
y_max Obligatorisk	float Maximalt värde på y för ett regressionsexperiment. Kombinationen av `y_min` och `y_max` används för att normalisera testuppsättningsmått baserat på indataintervallet. Den här inställningen är inaktuell. I stället beräknas det här värdet från data.
num_classes Obligatorisk	int Antalet klasser i etikettdata för ett klassificeringsexperiment. Den här inställningen är inaktuell. I stället beräknas det här värdet från data.
featurization Obligatorisk	str eller FeaturizationConfig "auto" / "off" / FeaturizationConfig Indikator för huruvida funktionaliseringssteget ska göras automatiskt eller inte, eller om anpassad funktionalisering ska användas. Obs! Om indata är glesa går det inte att aktivera funktionalisering. Kolumntypen identifieras automatiskt. Baserat på den identifierade kolumntypen utförs förbearbetning/funktionalisering på följande sätt: Kategorisk: Målkodning, en frekvent kodning, släpp kategorier med hög kardinalitet, imputera saknade värden. Numeriskt: Impute saknade värden, klusteravstånd, bevisvikt. DateTime: Flera funktioner som dag, sekunder, minuter, timmar osv. Text: Påse med ord, förtränad Word-inbäddning, textmålkodning. Mer information finns i artikeln Konfigurera automatiserade ML-experiment i Python. Om du vill anpassa funktionaliseringssteget anger du ett FeaturizationConfig-objekt. Anpassad funktionalisering stöder för närvarande blockering av en uppsättning transformatorer, uppdatering av kolumnsyfte, redigering av transformeringsparametrar och släppkolumner. Mer information finns i Anpassa funktionsutveckling. Obs! Tidsseriefunktioner hanteras separat när aktivitetstypen är inställd på prognostisering oberoende av den här parametern.
max_cores_per_iteration Obligatorisk	int Det maximala antalet trådar som ska användas för en viss tränings iteration. Godtagbara värden: Större än 1 och mindre än eller lika med det maximala antalet kärnor i beräkningsmålet. Lika med -1, vilket innebär att använda alla möjliga kärnor per iteration per underordnad körning. Lika med 1, standardvärdet.
max_concurrent_iterations Obligatorisk	int Representerar det maximala antalet iterationer som skulle köras parallellt. Standardvärdet är 1. AmlCompute-kluster stöder en interation som körs per nod. För flera överordnade AutoML-experimentkörningar som körs parallellt på ett enda AmlCompute-kluster ska summan av `max_concurrent_iterations` värdena för alla experiment vara mindre än eller lika med det maximala antalet noder. Annars placeras körningar i kö tills noder är tillgängliga. DSVM stöder flera iterationer per nod. `max_concurrent_iterations` vara mindre än eller lika med antalet kärnor på DSVM. För flera experiment som körs parallellt på en enda DSVM ska summan av `max_concurrent_iterations` värdena för alla experiment vara mindre än eller lika med det maximala antalet noder. Databricks – `max_concurrent_iterations` ska vara mindre än eller lika med antalet arbetsnoder i Databricks. `max_concurrent_iterations` gäller inte för lokala körningar. Den här parametern hette `concurrent_iterations`tidigare .
iteration_timeout_minutes Obligatorisk	int Maximal tid i minuter som varje iteration kan köras för innan den avslutas. Om det inte anges används ett värde på 1 månad eller 4 3200 minuter.
mem_in_mb Obligatorisk	int Maximal minnesanvändning som varje iteration kan köras för innan den avslutas. Om det inte anges används ett värde på 1 PB eller 1073741824 MB.
enforce_time_on_windows Obligatorisk	bool Om du vill framtvinga en tidsgräns för modellträning vid varje iteration i Windows. Standardvärdet är Sant. Om du kör från en Python-skriptfil (.py) kan du läsa dokumentationen för att tillåta resursbegränsningar i Windows.
experiment_timeout_hours Obligatorisk	float Maximal tid i timmar som alla iterationer tillsammans kan ta innan experimentet avslutas. Kan vara ett decimalvärde som 0,25 som representerar 15 minuter. Om det inte anges är standardtidsgränsen för experimentet 6 dagar. Om du vill ange en tidsgräns som är mindre än eller lika med 1 timme kontrollerar du att datauppsättningens storlek inte är större än 10 000 000 (rader gånger kolumn) eller ett felresultat.
experiment_exit_score Obligatorisk	float Målpoäng för experiment. Experimentet avslutas när den här poängen har nåtts. Om det inte anges (inga kriterier) körs experimentet förrän inga ytterligare framsteg har gjorts för det primära måttet. Mer information om avslutsvillkor finns i den här artikeln.
enable_early_stopping Obligatorisk	bool Om du vill aktivera tidig uppsägning om poängen inte förbättras på kort sikt. Standardvärdet är Sant. Tidig stopplogik: Inget tidigt stopp för de första 20 iterationerna (landmärken). Tidigt stoppfönster startar den 21:a iterationen och letar efter early_stopping_n_iters iterationer (för närvarande inställt på 10). Det innebär att den första iterationen där stopp kan ske är den 31:a. AutoML schemalägger fortfarande 2 ensemble-iterationer EFTER tidig stoppning, vilket kan resultera i högre poäng. Tidig stoppning utlöses om det absoluta värdet för bästa poäng beräknas på samma sätt för tidigare early_stopping_n_iters iterationer, dvs. om det inte finns någon förbättring i poäng för early_stopping_n_iters iterationer.
blocked_models Obligatorisk	list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task> En lista över algoritmer som ska ignoreras för ett experiment. Om `enable_tf` är False ingår TensorFlow-modeller i `blocked_models`.
blacklist_models Obligatorisk	list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task> Inaktuell parameter använder du blocked_models i stället.
exclude_nan_labels Obligatorisk	bool Om du vill exkludera rader med NaN-värden i etiketten. Standardvärdet är Sant.
verbosity Obligatorisk	int Verbosity-nivån för att skriva till loggfilen. Standardvärdet är INFO eller 20. Godtagbara värden definieras i Python-loggningsbiblioteket.
enable_tf Obligatorisk	bool Inaktuell parameter för att aktivera/inaktivera Tensorflow-algoritmer. Standardvärdet är False.
model_explainability Obligatorisk	bool Om du vill aktivera förklaring av den bästa AutoML-modellen i slutet av alla AutoML-tränings iterationer. Standardvärdet är Sant. Mer information finns i Tolkning: modellförklaringar i automatiserad maskininlärning.
allowed_models Obligatorisk	list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task> En lista över modellnamn för att söka efter ett experiment. Om det inte anges används alla modeller som stöds för uppgiften minus alla angivna i `blocked_models` eller inaktuella TensorFlow-modeller. De modeller som stöds för varje aktivitetstyp beskrivs i SupportedModels klassen.
whitelist_models Obligatorisk	list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task> Inaktuell parameter använder du allowed_models i stället.
enable_onnx_compatible_models Obligatorisk	bool Om du vill aktivera eller inaktivera tvingande av ONNX-kompatibla modeller. Standardvärdet är False. Mer information om Open Neural Network Exchange (ONNX) och Azure Machine Learning finns i den här artikeln.
forecasting_parameters Obligatorisk	ForecastingParameters Ett ForecastingParameters-objekt som innehåller alla prognostiseringsspecifika parametrar.
time_column_name Obligatorisk	str Namnet på tidskolumnen. Den här parametern krävs vid prognostisering för att ange kolumnen datetime i indata som används för att skapa tidsserierna och härleda dess frekvens. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
max_horizon Obligatorisk	int Den önskade maximala prognoshorisonten i tidsseriefrekvensenheter. Standardvärdet är 1. Enheterna baseras på tidsintervallet för dina träningsdata, t.ex. varje månad, varje vecka som prognosmakaren ska förutsäga. När aktivitetstypen prognostiseras krävs den här parametern. Mer information om hur du ställer in prognosparametrar finns i Träna en prognosmodell för tidsserier automatiskt. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
grain_column_names Obligatorisk	str eller list(str) Namnen på kolumner som används för att gruppera en tidsserie. Den kan användas för att skapa flera serier. Om kornigheten inte har definierats antas datauppsättningen vara en tidsserie. Den här parametern används med prognostisering av aktivitetstyp. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
target_lags Obligatorisk	int eller list(int) Antalet tidigare perioder som ska fördröjas från målkolumnen. Standardvärdet är 1. Den här inställningen är inaktuell. Använd forecasting_parameters i stället. Vid prognostisering representerar den här parametern antalet rader för att fördröja målvärdena baserat på datafrekvensen. Detta representeras som en lista eller ett heltal. Fördröjning bör användas när relationen mellan de oberoende variablerna och den beroende variabeln inte matchar eller korrelerar som standard. När du till exempel försöker prognostisera efterfrågan på en produkt kan efterfrågan under vilken månad som helst bero på priset på specifika råvaror 3 månader tidigare. I det här exemplet kanske du vill fördröja målet (efterfrågan) negativt med 3 månader så att modellen tränar på rätt relation. Mer information finns i Träna en prognosmodell för tidsserier automatiskt.
feature_lags Obligatorisk	str Flagga för att generera fördröjningar för de numeriska funktionerna. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
target_rolling_window_size Obligatorisk	int Antalet tidigare perioder som används för att skapa ett rullande fönstergenomsnitt för målkolumnen. Den här inställningen är inaktuell. Använd forecasting_parameters i stället. Vid prognostisering representerar den här parametern n historiska perioder som ska användas för att generera prognostiserade värden, <= träningsuppsättningsstorlek. Om det utelämnas är n den fullständiga träningsuppsättningens storlek. Ange den här parametern när du bara vill överväga en viss mängd historik när du tränar modellen.
country_or_region Obligatorisk	str Det land/den region som används för att generera semesterfunktioner. Dessa bör vara ISO 3166 tvåbokstavs lands-/regionkod, till exempel "US" eller "GB". Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
use_stl Obligatorisk	str Konfigurera STL-nedbrytning av målkolumnen för tidsserier. use_stl kan ta tre värden: Ingen (standard) – ingen stl-nedbrytning, "säsong" – genererar bara säsongskomponent och season_trend – genererar både säsongs- och trendkomponenter. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
seasonality Obligatorisk	int eller str Ange säsongsvariationer för tidsserier. Om säsongsvariationen är inställd på "auto" kommer den att härledas. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
short_series_handling_configuration Obligatorisk	str Parametern som definierar hur AutoML ska hantera korta tidsserier. Möjliga värden: "auto" (standard), "pad", "drop" och None. auto kort serie kommer att vara vadderade om det inte finns några långa serier, annars korta serier kommer att släppas. pad alla korta serien kommer att vara vadderade. släpp alla korta serier kommer att tas bort". Ingen av de korta serierna kommer inte att ändras. Om den är inställd på "pad" kommer tabellen att fyllas med nollor och tomma värden för regressorerna och slumpmässiga värden för målet med medelvärdet lika med målvärdets medianvärde för angivet tidsserie-ID. Om medianvärdet är mer eller lika med noll klipps det minimala vadderade värdet av noll: Indata: Datum numeric_value sträng mål 2020-01-01 23 grön 55 Utdata som förutsätter minimalt antal värden är fyra: Datum numeric_value sträng mål 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 2020-01-01 23 grön 55 Not: Vi har två parametrar short_series_handling_configuration och äldre short_series_handling. När båda parametrarna anges synkroniseras de enligt tabellen nedan (short_series_handling_configuration och short_series_handling för korthet markeras som handling_configuration respektive hantering). hantering handling_configuration resulterande hantering resulterande handling_configuration Sann bil Sann bil Sann block Sann bil Sann droppe/släppa/tappa Sann bil Sann Ingen Falsk Ingen Falsk bil Falsk Ingen Falsk block Falsk Ingen Falsk droppe/släppa/tappa Falsk Ingen Falsk Ingen Falsk Ingen
freq Obligatorisk	str eller None Prognosfrekvens. Vid prognostisering representerar den här parametern den period med vilken prognosen önskas, till exempel dagligen, varje vecka, varje år osv. Prognosfrekvensen är datamängdsfrekvens som standard. Du kan också ange den till större (men inte mindre) än datamängdsfrekvensen. Vi aggregerar data och genererar resultatet med prognosfrekvens. För dagliga data kan du till exempel ange att frekvensen ska vara daglig, veckovis eller månatlig, men inte varje timme. Frekvensen måste vara ett Pandas-förskjutningsalias. Mer information finns i Pandas-dokumentationen: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Obligatorisk	str eller None Den funktion som ska användas för att aggregera målkolumnen för tidsserier så att den överensstämmer med en angiven användarfrekvens. Om target_aggregation_function har angetts, men freq-parametern inte har angetts, utlöses felet. Möjliga målsammansättningsfunktioner är: "sum", "max", "min" och "mean". Freq target_aggregation_function Mekanism för korrekthetsfixering av data Ingen (standard) Ingen (standard) Aggregeringen tillämpas inte. Om den giltiga frekvensen inte kan fastställas utlöses felet. Värde Ingen (standard) Aggregeringen tillämpas inte. Om antalet datapunkter som är kompatibla med det angivna frekvensrutnätet är mindre kommer 90%these punkter att tas bort, annars utlöses felet. Ingen (standard) Sammansättningsfunktion Felet om saknade frekvensparametrar utlöses. Värde Sammansättningsfunktion Aggregera till frekvens med hjälp av den tillhandahållna aggregeringsfunktionen.
enable_voting_ensemble Obligatorisk	bool Om du vill aktivera/inaktivera VotingEnsemble-iteration. Standardvärdet är Sant. Mer information om ensembler finns i Ensemblekonfiguration.
enable_stack_ensemble Obligatorisk	bool Om du vill aktivera/inaktivera StackEnsemble-iteration. Standardvärdet är Ingen. Om enable_onnx_compatible_models flagga anges inaktiveras StackEnsemble-iteration. På samma sätt inaktiveras StackEnsemble-iteration som standard för Timeseries-uppgifter för att undvika risker för överanpassning på grund av en liten träningsuppsättning som används för att passa metainläraren. Mer information om ensembler finns i Ensemblekonfiguration.
debug_log Obligatorisk	str Loggfilen som du vill skriva felsökningsinformation till. Om det inte anges används "automl.log".
training_data Obligatorisk	DataFrame eller Dataset eller DatasetDefinition eller TabularDataset Träningsdata som ska användas i experimentet. Den bör innehålla både träningsfunktioner och en etikettkolumn (eventuellt en exempelviktkolumn). Om `training_data` anges måste parametern `label_column_name` också anges. `training_data` introducerades i version 1.0.81.
validation_data Obligatorisk	DataFrame eller Dataset eller DatasetDefinition eller TabularDataset De valideringsdata som ska användas i experimentet. Den bör innehålla både träningsfunktioner och etikettkolumn (om du vill kan du välja en exempelviktkolumn). Om `validation_data` anges `training_datalabel_column_name` måste parametrar anges. `validation_data` introducerades i version 1.0.81. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
test_data Obligatorisk	Dataset eller TabularDataset Funktionen Modelltest med hjälp av testdatauppsättningar eller testdatadelningar är en funktion i förhandsversionstillstånd och kan ändras när som helst. Testdata som ska användas för en testkörning som startas automatiskt när modellträningen är klar. Testkörningen hämtar förutsägelser med hjälp av den bästa modellen och beräknar mått med tanke på dessa förutsägelser. Om den här parametern eller parametern inte anges körs ingen testkörning automatiskt när modellträningen `test_size` har slutförts. Testdata ska innehålla både funktioner och etikettkolumner. Om `test_data` anges måste parametern `label_column_name` anges.
test_size Obligatorisk	float Funktionen Modelltest med hjälp av testdatauppsättningar eller testdatadelningar är en funktion i förhandsversionstillstånd och kan ändras när som helst. Vilken del av träningsdata som ska lagras för testdata för en testkörning som startas automatiskt när modellträningen är klar. Testkörningen hämtar förutsägelser med hjälp av den bästa modellen och beräknar mått med tanke på dessa förutsägelser. Detta bör vara mellan 0.0 och 1.0 icke-inkluderande. Om `test_size` anges samtidigt som `validation_size`delas testdata från `training_data` innan valideringsdata delas upp. Om `validation_size=0.1`till exempel , `test_size=0.1` och de ursprungliga träningsdata har 1 000 rader, kommer testdata att ha 100 rader, valideringsdata innehåller 90 rader och träningsdata har 810 rader. För regressionsbaserade uppgifter används slumpmässig sampling. För klassificeringsuppgifter används stratifierad sampling. Prognostisering stöder för närvarande inte att ange en testdatauppsättning med hjälp av en tränings-/testdelning. Om den här parametern eller parametern inte anges körs ingen testkörning automatiskt när modellträningen `test_data` har slutförts.
label_column_name Obligatorisk	Union[str, int] Namnet på etikettkolumnen. Om indata kommer från en Pandas. DataFrame som inte har kolumnnamn, kolumnindex kan användas i stället, uttryckt som heltal. Den här parametern gäller för `training_data`parametrarna och `validation_datatest_data` . `label_column_name` introducerades i version 1.0.81.
weight_column_name Obligatorisk	Union[str, int] Namnet på exempelviktkolumnen. Automatiserad ML stöder en viktad kolumn som indata, vilket gör att rader i data viktas upp eller ned. Om indata kommer från en Pandas. DataFrame som inte har kolumnnamn, kolumnindex kan användas i stället, uttryckt som heltal. Den här parametern gäller för `training_data` och `validation_data` parametrar. `weight_column_names` introducerades i version 1.0.81.
cv_split_column_names Obligatorisk	list(str) Lista med namn på de kolumner som innehåller anpassad korsvalideringsdelning. Var och en av de delade CV-kolumnerna representerar en CV-delning där varje rad antingen är markerad 1 för träning eller 0 för validering. Den här parametern gäller för `training_data` parametern för anpassade korsvalideringsändamål. `cv_split_column_names` introducerades i version 1.6.0 Använd antingen `cv_split_column_names` eller `cv_splits_indices`. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
enable_local_managed Obligatorisk	bool Inaktiverad parameter. Lokala hanterade körningar kan inte aktiveras just nu.
enable_dnn Obligatorisk	bool Om du vill inkludera DNN-baserade modeller under modellval. Standardvärdet i init är Ingen. Standardvärdet är dock Sant för DNN NLP-uppgifter, och det är Falskt för alla andra AutoML-uppgifter.
task Obligatorisk	str eller Tasks Typen av uppgift som ska köras. Värden kan vara "klassificering", "regression" eller "prognostisering" beroende på vilken typ av automatiserat ML-problem som ska lösas.
path Obligatorisk	str Den fullständiga sökvägen till Azure Machine Learning-projektmappen. Om det inte anges är standardvärdet att använda den aktuella katalogen eller ".".
iterations Obligatorisk	int Det totala antalet olika kombinationer av algoritmer och parametrar som ska testas under ett automatiserat ML-experiment. Om det inte anges är standardvärdet 1 000 iterationer.
primary_metric Obligatorisk	str eller Metric Måttet som Automatiserad maskininlärning optimerar för modellval. Automatiserad maskininlärning samlar in fler mått än vad som kan optimeras. Du kan använda get_primary_metrics för att hämta en lista över giltiga mått för din angivna uppgift. Mer information om hur mått beräknas finns i https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Om det inte anges används noggrannhet för klassificeringsuppgifter, normaliserad rotmedelvärde i kvadrat används för prognostiserings- och regressionsaktiviteter, noggrannhet används för bildklassificering och klassificering av flera etiketter och genomsnittlig genomsnittlig precision används för identifiering av bildobjekt.
positive_label Obligatorisk	Any Den positiva klassetikett som automatiserad maskininlärning använder för att beräkna binära mått med. Binära mått beräknas i två villkor för klassificeringsuppgifter: etikettkolumnen består av två klasser som anger att autoML för binär klassificering använder angiven positiv klass när positive_label skickas in, annars väljer AutoML en positiv klass baserat på etikettkodat värde. klassificeringsaktivitet för flera klasser med positive_label angivet Mer information om klassificering finns i checka ut mått för klassificeringsscenarier.
compute_target Obligatorisk	AbstractComputeTarget Beräkningsmålet för Azure Machine Learning för att köra experimentet Automatiserad maskininlärning på. Mer https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote information om beräkningsmål finns i.
spark_context Obligatorisk	<xref:SparkContext> Spark-kontexten. Gäller endast när det används i Azure Databricks/Spark-miljön.
X Obligatorisk	DataFrame eller ndarray eller Dataset eller DatasetDefinition eller TabularDataset Träningsfunktionerna som ska användas vid montering av pipelines under ett experiment. Den här inställningen är inaktuell. Använd training_data och label_column_name i stället.
y Obligatorisk	DataFrame eller ndarray eller Dataset eller DatasetDefinition eller TabularDataset Träningsetiketterna som ska användas vid montering av pipelines under ett experiment. Det här är det värde som din modell förutsäger. Den här inställningen är inaktuell. Använd training_data och label_column_name i stället.
sample_weight Obligatorisk	DataFrame eller ndarray eller TabularDataset Vikten för varje träningsexempel när du kör passande pipelines, varje rad ska motsvara en rad i X- och y-data. Ange den här parametern när du `X`anger . Den här inställningen är inaktuell. Använd training_data och weight_column_name i stället.
X_valid Obligatorisk	DataFrame eller ndarray eller Dataset eller DatasetDefinition eller TabularDataset Valideringsfunktioner som ska användas vid montering av pipelines under ett experiment. Om det anges `y_valid` måste eller `sample_weight_valid` måste även anges. Den här inställningen är inaktuell. Använd validation_data och label_column_name i stället.
y_valid Obligatorisk	DataFrame eller ndarray eller Dataset eller DatasetDefinition eller TabularDataset Valideringsetiketter som ska användas vid montering av pipelines under ett experiment. Både `X_valid` och `y_valid` måste anges tillsammans. Den här inställningen är inaktuell. Använd validation_data och label_column_name i stället.
sample_weight_valid Obligatorisk	DataFrame eller ndarray eller TabularDataset Vikten för varje valideringsexempel när du kör bedömningspipelines bör varje rad motsvara en rad i X- och y-data. Ange den här parametern när du `X_valid`anger . Den här inställningen är inaktuell. Använd validation_data och weight_column_name i stället.
cv_splits_indices Obligatorisk	List[List[ndarray]] Index där du kan dela träningsdata för korsvalidering. Varje rad är en separat korsvikt och inom varje korsmapp tillhandahåller du 2 numpy-matriser, den första med indexen för exempel som ska användas för träningsdata och den andra med indexen som ska användas för valideringsdata. dvs. [[t1, v1], [t2, v2], ...] där t1 är träningsindexen för den första korsvikten och v1 är valideringsindexen för den första korsvikten. Det här alternativet stöds när data skickas som en separat datauppsättning för funktioner och kolumnen Etikett. Om du vill ange befintliga data som valideringsdata använder du `validation_data`. Om du vill låta AutoML extrahera valideringsdata från träningsdata i stället anger du antingen `n_cross_validations` eller `validation_size`. Använd `cv_split_column_names` om du har korsvalideringskolumner i `training_data`.
validation_size Obligatorisk	float Vilken del av data som ska lagras för validering när användarverifieringsdata inte har angetts. Detta bör vara mellan 0.0 och 1.0 icke-inkluderande. Ange `validation_data` för att tillhandahålla valideringsdata, ange `n_cross_validations` på annat sätt eller `validation_size` extrahera valideringsdata från angivna träningsdata. För anpassad korsvalideringsdelegering använder du `cv_split_column_names`. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
n_cross_validations Obligatorisk	int eller str Hur många korsvalideringar som ska utföras när användarverifieringsdata inte har angetts. Ange `validation_data` för att tillhandahålla valideringsdata, ange `n_cross_validations` på annat sätt eller `validation_size` extrahera valideringsdata från angivna träningsdata. För anpassad korsvalideringsdelegering använder du `cv_split_column_names`. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
y_min Obligatorisk	float Minsta värde på y för ett regressionsexperiment. Kombinationen av `y_min` och `y_max` används för att normalisera testuppsättningsmått baserat på indataintervallet. Den här inställningen är inaktuell. I stället beräknas det här värdet från data.
y_max Obligatorisk	float Maximalt värde på y för ett regressionsexperiment. Kombinationen av `y_min` och `y_max` används för att normalisera testuppsättningsmått baserat på indataintervallet. Den här inställningen är inaktuell. I stället beräknas det här värdet från data.
num_classes Obligatorisk	int Antalet klasser i etikettdata för ett klassificeringsexperiment. Den här inställningen är inaktuell. I stället beräknas det här värdet från data.
featurization Obligatorisk	str eller FeaturizationConfig "auto" / "off" / FeaturizationConfig Indikator för huruvida funktionaliseringssteget ska göras automatiskt eller inte, eller om anpassad funktionalisering ska användas. Obs! Om indata är glesa går det inte att aktivera funktionalisering. Kolumntypen identifieras automatiskt. Baserat på den identifierade kolumntypen utförs förbearbetning/funktionalisering på följande sätt: Kategorisk: Målkodning, en frekvent kodning, släpp kategorier med hög kardinalitet, imputera saknade värden. Numeriskt: Impute saknade värden, klusteravstånd, bevisvikt. DateTime: Flera funktioner som dag, sekunder, minuter, timmar osv. Text: Påse med ord, förtränad Word-inbäddning, textmålkodning. Mer information finns i artikeln Konfigurera automatiserade ML-experiment i Python. Om du vill anpassa funktionaliseringssteget anger du ett FeaturizationConfig-objekt. Anpassad funktionalisering stöder för närvarande blockering av en uppsättning transformatorer, uppdatering av kolumnsyfte, redigering av transformeringsparametrar och släppkolumner. Mer information finns i Anpassa funktionsutveckling. Obs! Tidsseriefunktioner hanteras separat när aktivitetstypen är inställd på prognostisering oberoende av den här parametern.
max_cores_per_iteration Obligatorisk	int Det maximala antalet trådar som ska användas för en viss tränings iteration. Godtagbara värden: Större än 1 och mindre än eller lika med det maximala antalet kärnor i beräkningsmålet. Lika med -1, vilket innebär att använda alla möjliga kärnor per iteration per underordnad körning. Lika med 1, standardvärdet.
max_concurrent_iterations Obligatorisk	int Representerar det maximala antalet iterationer som skulle köras parallellt. Standardvärdet är 1. AmlCompute-kluster stöder en interation som körs per nod. För flera experiment som körs parallellt på ett enda AmlCompute-kluster ska summan av `max_concurrent_iterations` värdena för alla experiment vara mindre än eller lika med det maximala antalet noder. DSVM stöder flera iterationer per nod. `max_concurrent_iterations` vara mindre än eller lika med antalet kärnor på DSVM. För flera experiment som körs parallellt på en enda DSVM ska summan av `max_concurrent_iterations` värdena för alla experiment vara mindre än eller lika med det maximala antalet noder. Databricks – `max_concurrent_iterations` ska vara mindre än eller lika med antalet arbetsnoder i Databricks. `max_concurrent_iterations` gäller inte för lokala körningar. Den här parametern hette `concurrent_iterations`tidigare .
iteration_timeout_minutes Obligatorisk	int Maximal tid i minuter som varje iteration kan köras för innan den avslutas. Om det inte anges används ett värde på 1 månad eller 4 3200 minuter.
mem_in_mb Obligatorisk	int Maximal minnesanvändning som varje iteration kan köras för innan den avslutas. Om det inte anges används ett värde på 1 PB eller 1073741824 MB.
enforce_time_on_windows Obligatorisk	bool Om du vill framtvinga en tidsgräns för modellträning vid varje iteration i Windows. Standardvärdet är Sant. Om du kör från en Python-skriptfil (.py) kan du läsa dokumentationen för att tillåta resursbegränsningar i Windows.
experiment_timeout_hours Obligatorisk	float Maximal tid i timmar som alla iterationer tillsammans kan ta innan experimentet avslutas. Kan vara ett decimalvärde som 0,25 som representerar 15 minuter. Om det inte anges är standardtidsgränsen för experimentet 6 dagar. Om du vill ange en tidsgräns som är mindre än eller lika med 1 timme kontrollerar du att datauppsättningens storlek inte är större än 10 000 000 (rader gånger kolumn) eller ett felresultat.
experiment_exit_score Obligatorisk	float Målpoäng för experiment. Experimentet avslutas när den här poängen har nåtts. Om det inte anges (inga kriterier) körs experimentet förrän inga ytterligare framsteg har gjorts för det primära måttet. Mer information om avslutsvillkor finns i den här >>`article` https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria_<<.
enable_early_stopping Obligatorisk	bool Om du vill aktivera tidig uppsägning om poängen inte förbättras på kort sikt. Standardvärdet är Sant. Tidig stopplogik: Inget tidigt stopp för de första 20 iterationerna (landmärken). Tidigt stoppfönster startar den 21:a iterationen och söker efter early_stopping_n_iters iterationer (för närvarande inställt på 10). Det innebär att den första iterationen där stopp kan ske är den 31:a. AutoML schemalägger fortfarande 2 ensemble-iterationer EFTER tidig stoppning, vilket kan resultera i högre poäng. Tidig stoppning utlöses om det absoluta värdet för bästa poäng beräknas på samma sätt för tidigare early_stopping_n_iters iterationer, dvs. om det inte finns någon förbättring av poäng för early_stopping_n_iters iterationer.
blocked_models Obligatorisk	list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task> En lista över algoritmer som ska ignoreras för ett experiment. Om `enable_tf` är False ingår TensorFlow-modeller i `blocked_models`.
blacklist_models Obligatorisk	list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task> Inaktuell parameter använder du blocked_models i stället.
exclude_nan_labels Obligatorisk	bool Om du vill exkludera rader med NaN-värden i etiketten. Standardvärdet är Sant.
verbosity Obligatorisk	int Verbosity-nivån för att skriva till loggfilen. Standardvärdet är INFO eller 20. Godtagbara värden definieras i Python-loggningsbiblioteket.
enable_tf Obligatorisk	bool Om TensorFlow-algoritmer ska aktiveras/inaktiveras. Standardvärdet är False.
model_explainability Obligatorisk	bool Om du vill aktivera förklaring av den bästa AutoML-modellen i slutet av alla AutoML-tränings iterationer. Standardvärdet är Sant. Mer information finns i Tolkning: modellförklaringar i automatiserad maskininlärning.
allowed_models Obligatorisk	list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task> En lista över modellnamn för att söka efter ett experiment. Om det inte anges används alla modeller som stöds för uppgiften minus alla angivna i `blocked_models` eller inaktuella TensorFlow-modeller. De modeller som stöds för varje aktivitetstyp beskrivs i SupportedModels klassen.
allowed_models Obligatorisk	En lista över modellnamn för att söka efter ett experiment. Om det inte anges används alla modeller som stöds för uppgiften minus alla angivna i `blocked_models` eller inaktuella TensorFlow-modeller. De modeller som stöds för varje aktivitetstyp beskrivs i SupportedModels klassen.
whitelist_models Obligatorisk	Inaktuell parameter använder du allowed_models i stället.
enable_onnx_compatible_models Obligatorisk	bool Om du vill aktivera eller inaktivera tvingande av ONNX-kompatibla modeller. Standardvärdet är False. Mer information om Open Neural Network Exchange (ONNX) och Azure Machine Learning finns i den här artikeln.
forecasting_parameters Obligatorisk	ForecastingParameters Ett objekt som innehåller alla prognostiseringsspecifika parametrar.
time_column_name Obligatorisk	str Namnet på tidskolumnen. Den här parametern krävs vid prognostisering för att ange kolumnen datetime i indata som används för att skapa tidsserierna och härleda dess frekvens. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
max_horizon Obligatorisk	int Den önskade maximala prognoshorisonten i tidsseriefrekvensenheter. Standardvärdet är 1. Den här inställningen är inaktuell. Använd forecasting_parameters i stället. Enheterna baseras på tidsintervallet för dina träningsdata, t.ex. varje månad, varje vecka som prognosmakaren ska förutsäga. När aktivitetstypen prognostiseras krävs den här parametern. Mer information om hur du ställer in prognosparametrar finns i Träna en prognosmodell för tidsserier automatiskt.
grain_column_names Obligatorisk	str eller list(str) Namnen på kolumner som används för att gruppera en tidsserie. Den kan användas för att skapa flera serier. Om kornigheten inte har definierats antas datauppsättningen vara en tidsserie. Den här parametern används med prognostisering av aktivitetstyp. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
target_lags Obligatorisk	int eller list(int) Antalet tidigare perioder som ska fördröjas från målkolumnen. Standardvärdet är 1. Den här inställningen är inaktuell. Använd forecasting_parameters i stället. Vid prognostisering representerar den här parametern antalet rader för att fördröja målvärdena baserat på datafrekvensen. Detta representeras som en lista eller ett heltal. Fördröjning bör användas när relationen mellan de oberoende variablerna och den beroende variabeln inte matchar eller korrelerar som standard. När du till exempel försöker prognostisera efterfrågan på en produkt kan efterfrågan under vilken månad som helst bero på priset på specifika råvaror 3 månader tidigare. I det här exemplet kanske du vill fördröja målet (efterfrågan) negativt med 3 månader så att modellen tränar på rätt relation. Mer information finns i Träna en prognosmodell för tidsserier automatiskt.
feature_lags Obligatorisk	str Flagga för att generera fördröjningar för de numeriska funktionerna. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
target_rolling_window_size Obligatorisk	int Antalet tidigare perioder som används för att skapa ett rullande fönstergenomsnitt för målkolumnen. Den här inställningen är inaktuell. Använd forecasting_parameters i stället. Vid prognostisering representerar den här parametern n historiska perioder som ska användas för att generera prognostiserade värden, <= träningsuppsättningsstorlek. Om det utelämnas är n den fullständiga träningsuppsättningens storlek. Ange den här parametern när du bara vill överväga en viss mängd historik när du tränar modellen.
country_or_region Obligatorisk	str Det land/den region som används för att generera semesterfunktioner. Dessa bör vara ISO 3166 tvåbokstavs lands-/regionkoder, till exempel "US" eller "GB". Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
use_stl Obligatorisk	str Konfigurera STL-nedbrytning av målkolumnen för tidsserier. use_stl kan ta tre värden: Ingen (standard) – ingen stl-nedbrytning, "säsong" – genererar bara säsongskomponent och season_trend – genererar både säsongs- och trendkomponenter. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
seasonality Obligatorisk	int Ange säsongsvariationer för tidsserier. Om säsongsvariationen är inställd på -1 kommer den att härledas. Om use_stl inte har angetts används inte den här parametern. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
short_series_handling_configuration Obligatorisk	str Parametern som definierar hur AutoML ska hantera korta tidsserier. Möjliga värden: "auto" (standard), "pad", "drop" och None. auto kort serie kommer att vara vadderade om det inte finns några långa serier, annars korta serier kommer att släppas. pad alla korta serien kommer att vara vadderade. släpp alla korta serier kommer att tas bort". Ingen av de korta serierna kommer inte att ändras. Om den är inställd på "pad" kommer tabellen att fyllas med nollor och tomma värden för regressorerna och slumpmässiga värden för målet med medelvärdet lika med målvärdets medianvärde för angivet tidsserie-ID. Om medianvärdet är mer eller lika med noll klipps det minimala vadderade värdet av noll: Indata: Datum numeric_value sträng mål 2020-01-01 23 grön 55 Utdata som förutsätter minimalt antal värden är fyra: +————+—————+———-+—–+ \| Datum \| numeric_value \| sträng \| target \| +============+===============+==========+========+ \| 2019-12-29 \| 0 \| NA \| 55.1 \| +————+—————+———-+——–+ \| 2019-12-30 \| 0 \| NA \| 55.6 \| +————+—————+———-+——–+ \| 2019-12-31 \| 0 \| NA \| 54,5 \| +————+—————+———-+——–+ \| 2020-01-01 \| 23 \| grön \| 55 \| +————+—————+———-+——–+ Not: Vi har två parametrar short_series_handling_configuration och äldre short_series_handling. När båda parametrarna anges synkroniseras de enligt tabellen nedan (short_series_handling_configuration och short_series_handling för korthet markeras som handling_configuration respektive hantering). hantering handling_configuration resulterande hantering resulterande handling_configuration Sann bil Sann bil Sann block Sann bil Sann droppe/släppa/tappa Sann bil Sann Ingen Falsk Ingen Falsk bil Falsk Ingen Falsk block Falsk Ingen Falsk droppe/släppa/tappa Falsk Ingen Falsk Ingen Falsk Ingen
freq Obligatorisk	str eller None Prognosfrekvens. Vid prognostisering representerar den här parametern den period med vilken prognosen önskas, till exempel dagligen, varje vecka, varje år osv. Prognosfrekvensen är datamängdsfrekvens som standard. Du kan också ange den till större (men inte mindre) än datamängdsfrekvensen. Vi aggregerar data och genererar resultatet med prognosfrekvens. För dagliga data kan du till exempel ange att frekvensen ska vara daglig, veckovis eller månatlig, men inte varje timme. Frekvensen måste vara ett Pandas-förskjutningsalias. Mer information finns i Pandas-dokumentationen: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Obligatorisk	str eller None Den funktion som ska användas för att aggregera målkolumnen för tidsserier så att den överensstämmer med en angiven användarfrekvens. Om target_aggregation_function har angetts, men freq-parametern inte har angetts, utlöses felet. Möjliga målsammansättningsfunktioner är: "sum", "max", "min" och "mean". Freq target_aggregation_function Mekanism för korrekthetsfixering av data Ingen (standard) Ingen (standard) Aggregeringen tillämpas inte. Om den giltiga frekvensen inte kan fastställas utlöses felet. Värde Ingen (standard) Aggregeringen tillämpas inte. Om antalet datapunkter som är kompatibla med det angivna frekvensrutnätet är mindre kommer 90%these punkter att tas bort, annars utlöses felet. Ingen (standard) Sammansättningsfunktion Felet om saknade frekvensparametrar utlöses. Värde Sammansättningsfunktion Aggregera till frekvens med hjälp av den tillhandahållna aggregeringsfunktionen.
enable_voting_ensemble Obligatorisk	bool Om du vill aktivera/inaktivera VotingEnsemble-iteration. Standardvärdet är Sant. Mer information om ensembler finns i Ensemblekonfiguration.
enable_stack_ensemble Obligatorisk	bool Om du vill aktivera/inaktivera StackEnsemble-iteration. Standardvärdet är Ingen. Om enable_onnx_compatible_models flagga anges inaktiveras StackEnsemble-iteration. På samma sätt inaktiveras StackEnsemble-iteration som standard för Timeseries-uppgifter för att undvika risker för överanpassning på grund av en liten träningsuppsättning som används för att passa metainläraren. Mer information om ensembler finns i Ensemblekonfiguration.
debug_log Obligatorisk	str Loggfilen som du vill skriva felsökningsinformation till. Om det inte anges används "automl.log".
training_data Obligatorisk	DataFrame eller Dataset eller DatasetDefinition eller TabularDataset Träningsdata som ska användas i experimentet. Den bör innehålla både träningsfunktioner och en etikettkolumn (eventuellt en exempelviktkolumn). Om `training_data` anges måste parametern `label_column_name` också anges. `training_data` introducerades i version 1.0.81.
validation_data Obligatorisk	DataFrame eller Dataset eller DatasetDefinition eller TabularDataset De valideringsdata som ska användas i experimentet. Den bör innehålla både träningsfunktioner och etikettkolumn (om du vill kan du välja en exempelviktkolumn). Om `validation_data` anges `training_datalabel_column_name` måste parametrar anges. `validation_data` introducerades i version 1.0.81. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
test_data Obligatorisk	Dataset eller TabularDataset Funktionen Modelltest med hjälp av testdatauppsättningar eller testdatadelningar är en funktion i förhandsversionstillstånd och kan ändras när som helst. Testdata som ska användas för en testkörning som startas automatiskt när modellträningen är klar. Testkörningen hämtar förutsägelser med hjälp av den bästa modellen och beräknar mått med tanke på dessa förutsägelser. Om den här parametern eller parametern inte anges körs ingen testkörning automatiskt när modellträningen `test_size` har slutförts. Testdata ska innehålla både funktioner och etikettkolumner. Om `test_data` anges måste parametern `label_column_name` anges.
test_size Obligatorisk	float Funktionen Modelltest med hjälp av testdatauppsättningar eller testdatadelningar är en funktion i förhandsversionstillstånd och kan ändras när som helst. Vilken del av träningsdata som ska lagras för testdata för en testkörning som startas automatiskt när modellträningen är klar. Testkörningen hämtar förutsägelser med hjälp av den bästa modellen och beräknar mått med tanke på dessa förutsägelser. Detta bör vara mellan 0.0 och 1.0 icke-inkluderande. Om `test_size` anges samtidigt som `validation_size`delas testdata från `training_data` innan valideringsdata delas upp. Om `validation_size=0.1`till exempel , `test_size=0.1` och de ursprungliga träningsdata har 1 000 rader, kommer testdata att ha 100 rader, valideringsdata innehåller 90 rader och träningsdata har 810 rader. För regressionsbaserade uppgifter används slumpmässig sampling. För klassificeringsuppgifter används stratifierad sampling. Prognostisering stöder för närvarande inte att ange en testdatauppsättning med hjälp av en tränings-/testdelning. Om den här parametern eller parametern inte anges körs ingen testkörning automatiskt när modellträningen `test_data` har slutförts.
label_column_name Obligatorisk	Union[str, int] Namnet på etikettkolumnen. Om indata kommer från en Pandas. DataFrame som inte har kolumnnamn, kolumnindex kan användas i stället, uttryckt som heltal. Den här parametern gäller för `training_data`parametrarna och `validation_datatest_data` . `label_column_name` introducerades i version 1.0.81.
weight_column_name Obligatorisk	Union[str, int] Namnet på exempelviktkolumnen. Automatiserad ML stöder en viktad kolumn som indata, vilket gör att rader i data viktas upp eller ned. Om indata kommer från en Pandas. DataFrame som inte har kolumnnamn, kolumnindex kan användas i stället, uttryckt som heltal. Den här parametern gäller för `training_data` och `validation_data` parametrar. `weight_column_names` introducerades i version 1.0.81.
cv_split_column_names Obligatorisk	list(str) Lista med namn på de kolumner som innehåller anpassad korsvalideringsdelning. Var och en av de delade CV-kolumnerna representerar en CV-delning där varje rad antingen är markerad 1 för träning eller 0 för validering. Den här parametern gäller för `training_data` parametern för anpassade korsvalideringsändamål. `cv_split_column_names` introducerades i version 1.6.0 Använd antingen `cv_split_column_names` eller `cv_splits_indices`. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
enable_local_managed Obligatorisk	bool Inaktiverad parameter. Lokala hanterade körningar kan inte aktiveras just nu.
enable_dnn Obligatorisk	bool Om du vill inkludera DNN-baserade modeller under modellval. Standardvärdet i init är Ingen. Standardvärdet är dock Sant för DNN NLP-uppgifter, och det är Falskt för alla andra AutoML-uppgifter.

Kommentarer

Följande kod visar ett grundläggande exempel på hur du skapar ett AutoMLConfig-objekt och skickar ett experiment för regression:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Ett fullständigt exempel finns i Regression

Exempel på hur du använder AutoMLConfig för prognostisering finns i följande notebook-filer:

Exempel på hur du använder AutoMLConfig för alla aktivitetstyper finns i dessa automatiserade ML-notebook-filer.

Bakgrund om automatiserad ML finns i artiklarna:

Definiera en maskininlärningsuppgift
Konfigurera automatiserade ML-experiment i Python. I den här artikeln finns information om de olika algoritmer och primära mått som används för varje aktivitetstyp.
Träna en prognosmodell för tidsserier automatiskt. I den här artikeln finns information om vilka konstruktorparametrar som **kwargs används i prognostisering.

Mer information om olika alternativ för att konfigurera datadelningar för träning/validering och korsvalidering för automatiserad maskininlärning, AutoML, experiment finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.

Metoder

as_serializable_dict	Konvertera objektet till en ordlista.
get_supported_dataset_languages	Hämta språk som stöds och deras motsvarande språkkoder i ISO 639-3.

as_serializable_dict

Konvertera objektet till en ordlista.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Hämta språk som stöds och deras motsvarande språkkoder i ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parametrar

Name	Description
cls Obligatorisk	Klassobjekt för AutoMLConfig.
use_gpu Obligatorisk	boolesk som anger om gpu-beräkning används eller inte.

Returer

Typ	Description
	ordlista med formatet {<språkkod>: <språknamn>}. Språkkod följer ISO 639-3-standarden, se https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes

Feedback

Var den här sidan till hjälp?

Dela via

AutoMLConfig Klass

Konstruktor

Parametrar

Kommentarer

Metoder

as_serializable_dict

get_supported_dataset_languages

Parametrar

Returer

Feedback