AutoMLConfig Klas

Vertegenwoordigt de configuratie voor het verzenden van een geautomatiseerd ML-experiment in Azure Machine Learning.

Dit configuratieobject bevat en bewaart de parameters voor het configureren van de uitvoering van het experiment, evenals de trainingsgegevens die tijdens runtime moeten worden gebruikt. Zie voor meer informatie over het selecteren van uw instellingen https://aka.ms/AutoMLConfig.

Een AutoMLConfig maken.

Constructor

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parameters

Name	Description
task Vereist	str of Tasks Het type taak dat moet worden uitgevoerd. Waarden kunnen 'classificatie', 'regressie' of 'prognose' zijn, afhankelijk van het type geautomatiseerd ML-probleem dat moet worden opgelost.
path Vereist	str Het volledige pad naar de azure Machine Learning-projectmap. Als dit niet is opgegeven, wordt de huidige map of '.' standaard gebruikt.
iterations Vereist	int Het totale aantal verschillende algoritme- en parametercombinaties dat tijdens een geautomatiseerd ML-experiment moet worden getest. Als dit niet is opgegeven, is de standaardinstelling 1000 iteraties.
primary_metric Vereist	str of Metric De metrische waarde die geautomatiseerde machine learning optimaliseert voor modelselectie. Geautomatiseerde Machine Learning verzamelt meer metrische gegevens dan kan worden geoptimaliseerd. U kunt een get_primary_metrics lijst met geldige metrische gegevens voor uw opgegeven taak ophalen. Zie https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metricvoor meer informatie over hoe metrische gegevens worden berekend. Als dit niet is opgegeven, wordt nauwkeurigheid gebruikt voor classificatietaken, genormaliseerd wortelgemiddelde kwadraten voor prognose- en regressietaken, wordt nauwkeurigheid gebruikt voor afbeeldingsclassificatie en afbeeldingsclassificatie met meerdere labels, en gemiddelde gemiddelde precisie wordt gebruikt voor de detectie van afbeeldingsobjecten.
positive_label Vereist	Any Het positieve klasselabel waarmee geautomatiseerde machine learning binaire metrische gegevens berekent. Binaire metrische gegevens worden berekend in twee voorwaarden voor classificatietaken: de labelkolom bestaat uit twee klassen die aangeven dat AutoML een opgegeven positieve klasse gebruikt wanneer positive_label wordt doorgegeven, anders kiest AutoML een positieve klasse op basis van labelcoderingswaarde. classificatietaak met meerdere klassen met positive_label opgegeven Bekijk metrische gegevens voor classificatiescenario's voor meer informatie over classificatie.
compute_target Vereist	AbstractComputeTarget Het Azure Machine Learning-rekendoel waarop het geautomatiseerde Machine Learning-experiment moet worden uitgevoerd. Zie https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote voor meer informatie over rekendoelen.
spark_context Vereist	<xref:SparkContext> De Spark-context. Alleen van toepassing wanneer deze wordt gebruikt in de Azure Databricks-/Spark-omgeving.
X Vereist	DataFrame of ndarray of Dataset of TabularDataset De trainingsfuncties die moeten worden gebruikt bij het aanpassen van pijplijnen tijdens een experiment. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan training_data en label_column_name.
y Vereist	DataFrame of ndarray of Dataset of TabularDataset De trainingslabels die moeten worden gebruikt bij het monteren van pijplijnen tijdens een experiment. Dit is de waarde die uw model voorspelt. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan training_data en label_column_name.
sample_weight Vereist	DataFrame of ndarray of TabularDataset Het gewicht dat aan elk trainingsvoorbeeld moet worden toegewezen bij het uitvoeren van pijplijnen, moet elke rij overeenkomen met een rij in X- en y-gegevens. Geef deze parameter op wanneer u opgeeft `X`. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan training_data en weight_column_name.
X_valid Vereist	DataFrame of ndarray of Dataset of TabularDataset Validatiefuncties die moeten worden gebruikt bij het passend maken van pijplijnen tijdens een experiment. Indien opgegeven, `y_valid` moet of `sample_weight_valid` ook worden opgegeven. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan validation_data en label_column_name.
y_valid Vereist	DataFrame of ndarray of Dataset of TabularDataset Validatielabels die moeten worden gebruikt bij het aanpassen van pijplijnen tijdens een experiment. Beide `X_valid` en `y_valid` moeten samen worden opgegeven. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan validation_data en label_column_name.
sample_weight_valid Vereist	DataFrame of ndarray of TabularDataset Het gewicht dat aan elk validatievoorbeeld moet worden toegewezen bij het uitvoeren van scorepijplijnen, moet elke rij overeenkomen met een rij in X- en y-gegevens. Geef deze parameter op wanneer u opgeeft `X_valid`. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan validation_data en weight_column_name.
cv_splits_indices Vereist	List[List[ndarray]] Indexen waar trainingsgegevens voor kruisvalidatie moeten worden gesplitst. Elke rij is een afzonderlijke kruisvouw en binnen elke kruisvouw biedt 2 numpymatrices, de eerste met de indexen voor voorbeelden die moeten worden gebruikt voor trainingsgegevens en de tweede met de indexen die moeten worden gebruikt voor validatiegegevens. [[t1, v1], [t2, v2], ...] waarbij t1 de trainingsindexen voor de eerste kruisvouw is en v1 de validatieindexen voor de eerste kruisvouw is. Als u bestaande gegevens wilt opgeven als validatiegegevens, gebruikt u `validation_data`. Als u wilt dat AutoML in plaats daarvan validatiegegevens uit trainingsgegevens haalt, geeft u een `n_cross_validations` of `validation_size`. Gebruik `cv_split_column_names` deze optie als u een of meer kolommen met kruisvalidatie hebt.`training_data`
validation_size Vereist	float Welk deel van de gegevens moet worden opgeslagen voor validatie wanneer er geen gebruikersvalidatiegegevens zijn opgegeven. Dit moet tussen 0,0 en 1,0 niet-inclusief zijn. Geef `validation_data` op om validatiegegevens op te geven, anders in te stellen `n_cross_validations` of `validation_size` om validatiegegevens uit de opgegeven trainingsgegevens te extraheren. Gebruik `cv_split_column_names`voor aangepaste kruisvalidatievouw. Zie Gegevenssplitsingen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie.
n_cross_validations Vereist	int Hoeveel kruisvalidaties moeten worden uitgevoerd wanneer er geen gebruikersvalidatiegegevens zijn opgegeven. Geef `validation_data` op om validatiegegevens op te geven, anders in te stellen `n_cross_validations` of `validation_size` om validatiegegevens uit de opgegeven trainingsgegevens te extraheren. Gebruik `cv_split_column_names`voor aangepaste kruisvalidatievouw. Zie Gegevenssplitsingen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie.
y_min Vereist	float Minimumwaarde van y voor een regressieexperiment. De combinatie van `y_min` en `y_max` worden gebruikt om metrische gegevens van testsets te normaliseren op basis van het invoergegevensbereik. Deze instelling wordt afgeschaft. In plaats daarvan wordt deze waarde berekend op basis van de gegevens.
y_max Vereist	float Maximumwaarde van y voor een regressieexperiment. De combinatie van `y_min` en `y_max` worden gebruikt om metrische gegevens van testsets te normaliseren op basis van het invoergegevensbereik. Deze instelling wordt afgeschaft. In plaats daarvan wordt deze waarde berekend op basis van de gegevens.
num_classes Vereist	int Het aantal klassen in de labelgegevens voor een classificatieexperiment. Deze instelling wordt afgeschaft. In plaats daarvan wordt deze waarde berekend op basis van de gegevens.
featurization Vereist	str of FeaturizationConfig 'auto' / 'uit' / FeaturizationConfig-indicator voor het automatisch of niet uitvoeren van de featurization-stap, of of aangepaste featurization moet worden gebruikt. Opmerking: als de invoergegevens sparse zijn, kan featurization niet worden ingeschakeld. Het kolomtype wordt automatisch gedetecteerd. Op basis van het gedetecteerde kolomtype voorverwerking/featurization wordt als volgt uitgevoerd: Categorisch: Doelcodering, één hot codering, drop high cardinality categories, impute missing values. Numeriek: Ontbrekende waarden, clusterafstand, bewijsgewicht imputeeren. Datum/tijd: Verschillende functies, zoals dag, seconden, minuten, uren, enzovoort. Tekst: Zak woorden, vooraf getrainde Word-insluiting, tekstdoelcodering. Meer informatie vindt u in het artikel Geautomatiseerde ML-experimenten configureren in Python. Geef een FeaturizationConfig-object op om de stap featurizationconfig aan te passen. Aangepaste featurization ondersteunt momenteel het blokkeren van een set transformatoren, het bijwerken van kolomdoel, het bewerken van transformatieparameters en het verwijderen van kolommen. Zie Functie-engineering aanpassen voor meer informatie. Opmerking: Timeseries-functies worden afzonderlijk verwerkt wanneer het taaktype is ingesteld op prognose onafhankelijk van deze parameter.
max_cores_per_iteration Vereist	int Het maximum aantal threads dat moet worden gebruikt voor een bepaalde trainingsiteratie. Acceptabele waarden: Groter dan 1 en kleiner dan of gelijk aan het maximum aantal kernen op het rekendoel. Gelijk aan -1, wat betekent dat alle mogelijke kernen per iteratie per onderliggende uitvoering moeten worden gebruikt. Gelijk aan 1, de standaardwaarde.
max_concurrent_iterations Vereist	int Vertegenwoordigt het maximum aantal iteraties dat parallel wordt uitgevoerd. De standaardwaarde is 1. AmlCompute-clusters ondersteunen één interatie die per knooppunt wordt uitgevoerd. Voor meerdere bovenliggende AutoML-experimenten worden parallel uitgevoerd op één AmlCompute-cluster, moet de som van de `max_concurrent_iterations` waarden voor alle experimenten kleiner zijn dan of gelijk zijn aan het maximum aantal knooppunten. Anders worden uitvoeringen in de wachtrij geplaatst totdat knooppunten beschikbaar zijn. DSVM ondersteunt meerdere iteraties per knooppunt. `max_concurrent_iterations` moet kleiner zijn dan of gelijk zijn aan het aantal kernen op de DSVM. Voor meerdere experimenten die parallel worden uitgevoerd op één DSVM, moet de som van de `max_concurrent_iterations` waarden voor alle experimenten kleiner zijn dan of gelijk zijn aan het maximum aantal knooppunten. Databricks: `max_concurrent_iterations` moet kleiner zijn dan of gelijk zijn aan het aantal werkknooppunten op Databricks. `max_concurrent_iterations` is niet van toepassing op lokale uitvoeringen. Voorheen was deze parameter de naam `concurrent_iterations`.
iteration_timeout_minutes Vereist	int Maximale tijd in minuten waarvoor elke iteratie kan worden uitgevoerd voordat deze wordt beëindigd. Als dit niet is opgegeven, wordt een waarde van 1 maand of 43200 minuten gebruikt.
mem_in_mb Vereist	int Maximaal geheugengebruik waarvoor elke iteratie kan worden uitgevoerd voordat deze wordt beëindigd. Als dit niet is opgegeven, wordt een waarde van 1 PB of 1073741824 MB gebruikt.
enforce_time_on_windows Vereist	bool Of u een tijdslimiet wilt afdwingen voor modeltraining bij elke iteratie in Windows. De standaardwaarde is Waar. Als u een Python-scriptbestand (.py) uitvoert, raadpleegt u de documentatie voor het toestaan van resourcelimieten in Windows.
experiment_timeout_hours Vereist	float Maximale tijdsduur in uren dat de combinatie van alle iteraties voordat het experiment wordt beëindigd, kan duren. Dit kan een decimale waarde zijn, zoals 0,25 die 15 minuten vertegenwoordigt. Als dit niet is opgegeven, is de standaardtime-out voor het experiment 6 dagen. Als u een time-out wilt opgeven die kleiner is dan of gelijk is aan 1 uur, moet u ervoor zorgen dat de grootte van uw gegevensset niet groter is dan 10.000.000 (rijtijdenkolom) of een foutresultaat.
experiment_exit_score Vereist	float Doelscore voor experiment. Het experiment wordt beëindigd nadat deze score is bereikt. Als dit niet is opgegeven (geen criteria), wordt het experiment uitgevoerd totdat er geen verdere voortgang wordt gemaakt op de primaire metriek. Zie dit artikel voor meer informatie over afsluitcriteria.
enable_early_stopping Vereist	bool Of u vroegtijdige beëindiging wilt inschakelen als de score op korte termijn niet verbetert. De standaardwaarde is Waar. Logica voor vroegtijdig stoppen: Geen vroege stop voor de eerste 20 iteraties (oriëntatiepunten). Het eerste stopvenster begint op de 21e iteratie en zoekt naar early_stopping_n_iters iteraties (momenteel ingesteld op 10). Dit betekent dat de eerste iteratie waar stoppen kan plaatsvinden de 31e is. AutoML plant nog steeds 2 ensemble-iteraties NA vroege stop, wat kan leiden tot hogere scores. Vroeg stoppen wordt geactiveerd als de absolute waarde van de beste score berekend hetzelfde is voor het verleden early_stopping_n_iters iteraties, dat wil gezegd, als er geen verbetering in de score voor early_stopping_n_iters iteraties is.
blocked_models Vereist	list(str) of list(Classification) <xref:for classification task> of list(Regression) <xref:for regression task> of list(Forecasting) <xref:for forecasting task> Een lijst met algoritmen die moeten worden genegeerd voor een experiment. Als `enable_tf` onwaar is, worden TensorFlow-modellen opgenomen in `blocked_models`.
blacklist_models Vereist	list(str) of list(Classification) <xref:for classification task> of list(Regression) <xref:for regression task> of list(Forecasting) <xref:for forecasting task> Gebruik in plaats daarvan de afgeschafte parameter blocked_models.
exclude_nan_labels Vereist	bool Of u rijen wilt uitsluiten met NaN-waarden in het label. De standaardwaarde is Waar.
verbosity Vereist	int Het uitgebreidheidsniveau voor het schrijven naar het logboekbestand. De standaardwaarde is INFO of 20. Acceptabele waarden worden gedefinieerd in de Python-logboekregistratiebibliotheek.
enable_tf Vereist	bool Afgeschafte parameter om Tensorflow-algoritmen in of uit te schakelen. De standaardwaarde is Onwaar.
model_explainability Vereist	bool Of u het beste AutoML-model aan het einde van alle AutoML-trainingsiteraties wilt inschakelen. De standaardwaarde is Waar. Zie Interpreteerbaarheid voor meer informatie: modeluitleg in geautomatiseerde machine learning.
allowed_models Vereist	list(str) of list(Classification) <xref:for classification task> of list(Regression) <xref:for regression task> of list(Forecasting) <xref:for forecasting task> Een lijst met modelnamen om naar een experiment te zoeken. Als dit niet is opgegeven, worden alle modellen die voor de taak worden ondersteund, gebruikt zonder opgegeven in `blocked_models` of afgeschafte TensorFlow-modellen. De ondersteunde modellen voor elk taaktype worden beschreven in de SupportedModels klasse.
whitelist_models Vereist	list(str) of list(Classification) <xref:for classification task> of list(Regression) <xref:for regression task> of list(Forecasting) <xref:for forecasting task> Gebruik in plaats daarvan allowed_models afgeschafte parameter.
enable_onnx_compatible_models Vereist	bool Of u het afdwingen van de ONNX-compatibele modellen wilt in- of uitschakelen. De standaardwaarde is Onwaar. Zie dit artikel voor meer informatie over Open Neural Network Exchange (ONNX) en Azure Machine Learning.
forecasting_parameters Vereist	ForecastingParameters Een ForecastingParameters-object voor het opslaan van alle prognosespecifieke parameters.
time_column_name Vereist	str De naam van de tijdkolom. Deze parameter is vereist bij het voorspellen om de datum/tijd-kolom op te geven in de invoergegevens die worden gebruikt voor het bouwen van de tijdreeks en het uitstellen van de frequentie. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
max_horizon Vereist	int De gewenste maximale prognose horizon in eenheden van tijdreeksfrequentie. De standaardwaarde is 1. Eenheden zijn gebaseerd op het tijdsinterval van uw trainingsgegevens, bijvoorbeeld maandelijks, wekelijks dat de prognose moet voorspellen. Wanneer het taaktype een prognose is, is deze parameter vereist. Zie Een tijdreeksprognosemodel automatisch trainen voor meer informatie over het instellen van parameters voor prognoses. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
grain_column_names Vereist	str of list(str) De namen van kolommen die worden gebruikt om een tijdreeks te groeperen. Het kan worden gebruikt om meerdere reeksen te maken. Als graan niet is gedefinieerd, wordt ervan uitgegaan dat de gegevensset één tijdreeks is. Deze parameter wordt gebruikt bij het voorspellen van taaktypen. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
target_lags Vereist	int of list(int) Het aantal eerdere perioden tot vertraging van de doelkolom. De standaardwaarde is 1. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters. Bij het voorspellen vertegenwoordigt deze parameter het aantal rijen om de doelwaarden te laten achterlopen op basis van de frequentie van de gegevens. Dit wordt weergegeven als een lijst of één geheel getal. Vertraging moet worden gebruikt wanneer de relatie tussen de onafhankelijke variabelen en afhankelijke variabelen niet standaard overeenkomt of correleert. Wanneer u bijvoorbeeld de vraag voor een product probeert te voorspellen, kan de vraag in elke maand afhankelijk zijn van de prijs van specifieke grondstoffen 3 maanden voordien. In dit voorbeeld wilt u het doel (de vraag) mogelijk met drie maanden negatief laten lopen, zodat het model wordt getraind op de juiste relatie. Zie Een tijdreeksprognosemodel automatisch trainen voor meer informatie.
feature_lags Vereist	str Vlag voor het genereren van vertragingen voor de numerieke functies. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
target_rolling_window_size Vereist	int Het aantal eerdere perioden dat wordt gebruikt voor het maken van een doorlopend venster gemiddelde van de doelkolom. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters. Bij het voorspellen vertegenwoordigt deze parameter n historische perioden die moeten worden gebruikt om voorspelde waarden te genereren, <= grootte van trainingssets. Als u dit weglaat, is n de volledige grootte van de trainingsset. Geef deze parameter op wanneer u alleen een bepaalde hoeveelheid geschiedenis wilt overwegen bij het trainen van het model.
country_or_region Vereist	str Het land/de regio die wordt gebruikt om vakantiefuncties te genereren. Dit moet EEN ISO 3166-land-/regiocode met twee letters zijn, bijvoorbeeld 'VS' of 'GB'. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
use_stl Vereist	str Configureer STL-decompositie van de doelkolom van de tijdreeks. use_stl kan drie waarden aannemen: Geen (standaard) - geen afsplitsing, 'seizoen' - alleen seizoenonderdeel genereren en season_trend - zowel seizoen- als trendonderdelen genereren. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
seasonality Vereist	int of str Tijdreeks seizoensgebondenheid instellen. Als seizoensgebondenheid is ingesteld op 'auto', wordt dit afgeleid. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
short_series_handling_configuration Vereist	str De parameter die definieert hoe autoML korte tijdreeksen moet verwerken. Mogelijke waarden: 'auto' (standaard), 'pad', 'drop' en None. automatische korte reeks wordt opgevuld als er geen lange reeks is, anders wordt korte reeks verwijderd. alle korte reeksen worden opgevuld. alle korte reeksen worden verwijderd". De korte reeks wordt niet gewijzigd. Als deze optie is ingesteld op pad, wordt de tabel opgevuld met de nullen en lege waarden voor de regressors en willekeurige waarden voor het doel met het gemiddelde gelijk aan de doelwaardemediaan voor een bepaalde tijdreeks-id. Als de mediaan meer of gelijk is aan nul, wordt de minimale gevulde waarde geknipt door nul: Invoer: Datum numeric_value snaar doeldoel 2020-01-01 23 groen 55 Uitvoer ervan uitgaande dat het minimale aantal waarden vier is: Datum numeric_value snaar doeldoel 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 2020-01-01 23 groen 55 Notitie: We hebben twee parameters short_series_handling_configuration en oudere short_series_handling. Wanneer beide parameters zijn ingesteld, worden deze gesynchroniseerd zoals wordt weergegeven in de onderstaande tabel (short_series_handling_configuration en short_series_handling voor breviteit worden gemarkeerd als respectievelijk handling_configuration en verwerking). behandeling handling_configuration resulterende verwerking resulterende handling_configuration Klopt Auto Klopt Auto Klopt opvullen Klopt Auto Klopt druppel Klopt Auto Klopt Geen Onwaar Geen Onwaar Auto Onwaar Geen Onwaar opvullen Onwaar Geen Onwaar druppel Onwaar Geen Onwaar Geen Onwaar Geen
freq Vereist	str of None Prognosefrequentie. Bij het voorspellen vertegenwoordigt deze parameter de periode waarmee de prognose gewenst is, bijvoorbeeld dagelijks, wekelijks, jaarlijks, enzovoort. De prognosefrequentie is standaard de frequentie van de gegevensset. U kunt deze desgewenst instellen op een grotere (maar niet minder) dan de frequentie van de gegevensset. We aggregeren de gegevens en genereren de resultaten met de prognosefrequentie. Voor dagelijkse gegevens kunt u bijvoorbeeld instellen dat de frequentie dagelijks, wekelijks of maandelijks is, maar niet per uur. De frequentie moet een pandas-offsetalias zijn. Raadpleeg de pandas-documentatie voor meer informatie: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Vereist	str of None De functie die moet worden gebruikt om de doelkolom van de tijdreeks te aggregeren om te voldoen aan een door de gebruiker opgegeven frequentie. Als de target_aggregation_function is ingesteld, maar de freq-parameter niet is ingesteld, wordt de fout gegenereerd. De mogelijke doelaggregatiefuncties zijn: 'sum', 'max', 'min' en 'mean'. Freq target_aggregation_function Mechanisme voor het corrigeren van gegevens regulariteit Geen (standaard) Geen (standaard) De aggregatie wordt niet toegepast. Als de geldige frequentie niet kan worden bepaald, wordt de fout gegenereerd. Een bepaalde waarde Geen (standaard) De aggregatie wordt niet toegepast. Als het aantal gegevenspunten dat aan het gegeven frequentieraster voldoet, kleiner is dan 90%these punten worden verwijderd, wordt anders de fout gegenereerd. Geen (standaard) Aggregatiefunctie De fout over ontbrekende frequentieparameteris die is gegenereerd. Een bepaalde waarde Aggregatiefunctie Aggregeren naar frequentie met behulp van de opgegeven aggregatiefunctie.
enable_voting_ensemble Vereist	bool Of u VotingEnsemble iteratie wilt in- of uitschakelen. De standaardwaarde is Waar. Zie Ensemble-configuratie voor meer informatie over ensembles.
enable_stack_ensemble Vereist	bool Of u StackEnsemble-iteratie wilt in- of uitschakelen. De standaardwaarde is Geen. Als enable_onnx_compatible_models vlag wordt ingesteld, wordt StackEnsemble-iteratie uitgeschakeld. Op dezelfde manier wordt stackEnsemble iteratie voor Timeseries-taken standaard uitgeschakeld om risico's van overfitting te voorkomen als gevolg van een kleine trainingsset die wordt gebruikt bij het aanpassen van de meta-cursist. Zie Ensemble-configuratie voor meer informatie over ensembles.
debug_log Vereist	str Het logboekbestand voor het schrijven van foutopsporingsgegevens naar. Als dit niet is opgegeven, wordt 'automl.log' gebruikt.
training_data Vereist	DataFrame of Dataset of DatasetDefinition of TabularDataset De trainingsgegevens die in het experiment moeten worden gebruikt. Deze moet zowel trainingsfuncties als een labelkolom bevatten (optioneel een kolom met steekproefgewichten). Als `training_data` dit is opgegeven, moet de `label_column_name` parameter ook worden opgegeven. `training_data` is geïntroduceerd in versie 1.0.81.
validation_data Vereist	DataFrame of Dataset of DatasetDefinition of TabularDataset De validatiegegevens die in het experiment moeten worden gebruikt. Deze moet zowel de trainingsfuncties als de labelkolom bevatten (optioneel een kolom met steekproefgewichten). Als `validation_data` dit is opgegeven, `training_data` moeten parameters `label_column_name` worden opgegeven. `validation_data` is geïntroduceerd in versie 1.0.81. Zie Gegevenssplitsingen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie.
test_data Vereist	Dataset of TabularDataset De functie Modeltest met behulp van testgegevenssets of gegevenssplitsingen is een functie in de preview-status en kan op elk gewenst moment worden gewijzigd. De testgegevens die moeten worden gebruikt voor een testuitvoering die automatisch wordt gestart nadat de modeltraining is voltooid. De testuitvoering ontvangt voorspellingen met behulp van het beste model en berekent metrische gegevens op basis van deze voorspellingen. Als deze parameter of parameter `test_size` niet is opgegeven, wordt er geen testuitvoering automatisch uitgevoerd nadat de modeltraining is voltooid. Testgegevens moeten zowel functies als labelkolom bevatten. Als `test_data` dit is opgegeven, moet de `label_column_name` parameter worden opgegeven.
test_size Vereist	float De functie Modeltest met behulp van testgegevenssets of gegevenssplitsingen is een functie in de preview-status en kan op elk gewenst moment worden gewijzigd. Welk deel van de trainingsgegevens moet worden opgeslagen voor testgegevens voor een testuitvoering die automatisch wordt gestart nadat de modeltraining is voltooid. De testuitvoering ontvangt voorspellingen met behulp van het beste model en berekent metrische gegevens op basis van deze voorspellingen. Dit moet tussen 0,0 en 1,0 niet-inclusief zijn. Als `test_size` de testgegevens op hetzelfde moment worden opgegeven als `validation_size`, worden de testgegevens gesplitst `training_data` voordat de validatiegegevens worden gesplitst. Als `validation_size=0.1test_size=0.1` de oorspronkelijke trainingsgegevens bijvoorbeeld 1000 rijen bevatten, hebben de testgegevens 100 rijen, bevatten de validatiegegevens 90 rijen en hebben de trainingsgegevens 810 rijen. Voor op regressie gebaseerde taken wordt willekeurige steekproeven gebruikt. Voor classificatietaken wordt gelaagde steekproeven gebruikt. Prognoses bieden momenteel geen ondersteuning voor het opgeven van een testgegevensset met behulp van een train/test split. Als deze parameter of parameter `test_data` niet is opgegeven, wordt er geen testuitvoering automatisch uitgevoerd nadat de modeltraining is voltooid.
label_column_name Vereist	Union[str, int] De naam van de labelkolom. Als de invoergegevens afkomstig zijn van een pandas. DataFrame dat geen kolomnamen heeft, kunnen in plaats daarvan kolomindexen worden gebruikt, uitgedrukt als gehele getallen. Deze parameter is van toepassing op `training_data`en `validation_datatest_data` parameters. `label_column_name` is geïntroduceerd in versie 1.0.81.
weight_column_name Vereist	Union[str, int] De naam van de kolom met de steekproefgewicht. Geautomatiseerde ML ondersteunt een gewogen kolom als invoer, waardoor rijen in de gegevens omhoog of omlaag worden gewogen. Als de invoergegevens afkomstig zijn van een pandas. DataFrame dat geen kolomnamen heeft, kunnen in plaats daarvan kolomindexen worden gebruikt, uitgedrukt als gehele getallen. Deze parameter is van toepassing op `training_data` en `validation_data` parameters. `weight_column_names` is geïntroduceerd in versie 1.0.81.
cv_split_column_names Vereist	list(str) Lijst met namen van de kolommen die een aangepaste kruisvalidatiesplitsing bevatten. Elk van de kolommen voor het splitsen van cv's vertegenwoordigt één CV-splitsing waarbij elke rij is gemarkeerd als 1 voor training of 0 voor validatie. Deze parameter is van toepassing op `training_data` de parameter voor aangepaste kruisvalidatiedoeleinden. `cv_split_column_names` is geïntroduceerd in versie 1.6.0 Gebruik een van beide: `cv_split_column_names` of `cv_splits_indices`. Zie Gegevenssplitsingen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie.
enable_local_managed Vereist	bool Parameter uitgeschakeld. Lokale beheerde uitvoeringen kunnen momenteel niet worden ingeschakeld.
enable_dnn Vereist	bool Of u DNN-modellen wilt opnemen tijdens het selecteren van modellen. De standaardwaarde in de init is Geen. De standaardwaarde is echter Waar voor DNN NLP-taken en is onwaar voor alle andere AutoML-taken.
task Vereist	str of Tasks Het type taak dat moet worden uitgevoerd. Waarden kunnen 'classificatie', 'regressie' of 'prognose' zijn, afhankelijk van het type geautomatiseerd ML-probleem dat moet worden opgelost.
path Vereist	str Het volledige pad naar de azure Machine Learning-projectmap. Als dit niet is opgegeven, wordt de huidige map of '.' standaard gebruikt.
iterations Vereist	int Het totale aantal verschillende algoritme- en parametercombinaties dat tijdens een geautomatiseerd ML-experiment moet worden getest. Als dit niet is opgegeven, is de standaardinstelling 1000 iteraties.
primary_metric Vereist	str of Metric De metrische waarde die geautomatiseerde machine learning optimaliseert voor modelselectie. Geautomatiseerde Machine Learning verzamelt meer metrische gegevens dan kan worden geoptimaliseerd. U kunt een get_primary_metrics lijst met geldige metrische gegevens voor uw opgegeven taak ophalen. Zie https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metricvoor meer informatie over hoe metrische gegevens worden berekend. Als dit niet is opgegeven, wordt nauwkeurigheid gebruikt voor classificatietaken, genormaliseerd wortelgemiddelde kwadraten voor prognose- en regressietaken, wordt nauwkeurigheid gebruikt voor afbeeldingsclassificatie en afbeeldingsclassificatie met meerdere labels, en gemiddelde gemiddelde precisie wordt gebruikt voor de detectie van afbeeldingsobjecten.
positive_label Vereist	Any Het positieve klasselabel waarmee geautomatiseerde machine learning binaire metrische gegevens berekent. Binaire metrische gegevens worden berekend in twee voorwaarden voor classificatietaken: de labelkolom bestaat uit twee klassen die aangeven dat AutoML een opgegeven positieve klasse gebruikt wanneer positive_label wordt doorgegeven, anders kiest AutoML een positieve klasse op basis van labelcoderingswaarde. classificatietaak met meerdere klassen met positive_label opgegeven Bekijk metrische gegevens voor classificatiescenario's voor meer informatie over classificatie.
compute_target Vereist	AbstractComputeTarget Het Azure Machine Learning-rekendoel waarop het geautomatiseerde Machine Learning-experiment moet worden uitgevoerd. Zie https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote voor meer informatie over rekendoelen.
spark_context Vereist	<xref:SparkContext> De Spark-context. Alleen van toepassing wanneer deze wordt gebruikt in de Azure Databricks-/Spark-omgeving.
X Vereist	DataFrame of ndarray of Dataset of DatasetDefinition of TabularDataset De trainingsfuncties die moeten worden gebruikt bij het aanpassen van pijplijnen tijdens een experiment. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan training_data en label_column_name.
y Vereist	DataFrame of ndarray of Dataset of DatasetDefinition of TabularDataset De trainingslabels die moeten worden gebruikt bij het monteren van pijplijnen tijdens een experiment. Dit is de waarde die uw model voorspelt. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan training_data en label_column_name.
sample_weight Vereist	DataFrame of ndarray of TabularDataset Het gewicht dat aan elk trainingsvoorbeeld moet worden toegewezen bij het uitvoeren van pijplijnen, moet elke rij overeenkomen met een rij in X- en y-gegevens. Geef deze parameter op wanneer u opgeeft `X`. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan training_data en weight_column_name.
X_valid Vereist	DataFrame of ndarray of Dataset of DatasetDefinition of TabularDataset Validatiefuncties die moeten worden gebruikt bij het passend maken van pijplijnen tijdens een experiment. Indien opgegeven, `y_valid` moet of `sample_weight_valid` ook worden opgegeven. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan validation_data en label_column_name.
y_valid Vereist	DataFrame of ndarray of Dataset of DatasetDefinition of TabularDataset Validatielabels die moeten worden gebruikt bij het aanpassen van pijplijnen tijdens een experiment. Beide `X_valid` en `y_valid` moeten samen worden opgegeven. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan validation_data en label_column_name.
sample_weight_valid Vereist	DataFrame of ndarray of TabularDataset Het gewicht dat aan elk validatievoorbeeld moet worden toegewezen bij het uitvoeren van scorepijplijnen, moet elke rij overeenkomen met een rij in X- en y-gegevens. Geef deze parameter op wanneer u opgeeft `X_valid`. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan validation_data en weight_column_name.
cv_splits_indices Vereist	List[List[ndarray]] Indexen waar trainingsgegevens voor kruisvalidatie moeten worden gesplitst. Elke rij is een afzonderlijke kruisvouw en binnen elke kruisvouw biedt 2 numpymatrices, de eerste met de indexen voor voorbeelden die moeten worden gebruikt voor trainingsgegevens en de tweede met de indexen die moeten worden gebruikt voor validatiegegevens. [[t1, v1], [t2, v2], ...] waarbij t1 de trainingsindexen voor de eerste kruisvouw is en v1 de validatieindexen voor de eerste kruisvouw is. Deze optie wordt ondersteund wanneer gegevens worden doorgegeven als afzonderlijke gegevensset functies en kolom Label. Als u bestaande gegevens wilt opgeven als validatiegegevens, gebruikt u `validation_data`. Als u wilt dat AutoML in plaats daarvan validatiegegevens uit trainingsgegevens haalt, geeft u een `n_cross_validations` of `validation_size`. Gebruik `cv_split_column_names` deze optie als u een of meer kolommen met kruisvalidatie hebt.`training_data`
validation_size Vereist	float Welk deel van de gegevens moet worden opgeslagen voor validatie wanneer er geen gebruikersvalidatiegegevens zijn opgegeven. Dit moet tussen 0,0 en 1,0 niet-inclusief zijn. Geef `validation_data` op om validatiegegevens op te geven, anders in te stellen `n_cross_validations` of `validation_size` om validatiegegevens uit de opgegeven trainingsgegevens te extraheren. Gebruik `cv_split_column_names`voor aangepaste kruisvalidatievouw. Zie Gegevenssplitsingen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie.
n_cross_validations Vereist	int of str Hoeveel kruisvalidaties moeten worden uitgevoerd wanneer er geen gebruikersvalidatiegegevens zijn opgegeven. Geef `validation_data` op om validatiegegevens op te geven, anders in te stellen `n_cross_validations` of `validation_size` om validatiegegevens uit de opgegeven trainingsgegevens te extraheren. Gebruik `cv_split_column_names`voor aangepaste kruisvalidatievouw. Zie Gegevenssplitsingen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie.
y_min Vereist	float Minimumwaarde van y voor een regressieexperiment. De combinatie van `y_min` en `y_max` worden gebruikt om metrische gegevens van testsets te normaliseren op basis van het invoergegevensbereik. Deze instelling wordt afgeschaft. In plaats daarvan wordt deze waarde berekend op basis van de gegevens.
y_max Vereist	float Maximumwaarde van y voor een regressieexperiment. De combinatie van `y_min` en `y_max` worden gebruikt om metrische gegevens van testsets te normaliseren op basis van het invoergegevensbereik. Deze instelling wordt afgeschaft. In plaats daarvan wordt deze waarde berekend op basis van de gegevens.
num_classes Vereist	int Het aantal klassen in de labelgegevens voor een classificatieexperiment. Deze instelling wordt afgeschaft. In plaats daarvan wordt deze waarde berekend op basis van de gegevens.
featurization Vereist	str of FeaturizationConfig 'auto' / 'uit' / FeaturizationConfig-indicator voor het automatisch of niet uitvoeren van de featurization-stap, of of aangepaste featurization moet worden gebruikt. Opmerking: als de invoergegevens sparse zijn, kan featurization niet worden ingeschakeld. Het kolomtype wordt automatisch gedetecteerd. Op basis van het gedetecteerde kolomtype voorverwerking/featurization wordt als volgt uitgevoerd: Categorisch: Doelcodering, één hot codering, drop high cardinality categories, impute missing values. Numeriek: Ontbrekende waarden, clusterafstand, bewijsgewicht imputeeren. Datum/tijd: Verschillende functies, zoals dag, seconden, minuten, uren, enzovoort. Tekst: Zak woorden, vooraf getrainde Word-insluiting, tekstdoelcodering. Meer informatie vindt u in het artikel Geautomatiseerde ML-experimenten configureren in Python. Geef een FeaturizationConfig-object op om de stap featurizationconfig aan te passen. Aangepaste featurization ondersteunt momenteel het blokkeren van een set transformatoren, het bijwerken van kolomdoel, het bewerken van transformatieparameters en het verwijderen van kolommen. Zie Functie-engineering aanpassen voor meer informatie. Opmerking: Timeseries-functies worden afzonderlijk verwerkt wanneer het taaktype is ingesteld op prognose onafhankelijk van deze parameter.
max_cores_per_iteration Vereist	int Het maximum aantal threads dat moet worden gebruikt voor een bepaalde trainingsiteratie. Acceptabele waarden: Groter dan 1 en kleiner dan of gelijk aan het maximum aantal kernen op het rekendoel. Gelijk aan -1, wat betekent dat alle mogelijke kernen per iteratie per onderliggende uitvoering moeten worden gebruikt. Gelijk aan 1, de standaardwaarde.
max_concurrent_iterations Vereist	int Vertegenwoordigt het maximum aantal iteraties dat parallel wordt uitgevoerd. De standaardwaarde is 1. AmlCompute-clusters ondersteunen één interatie die per knooppunt wordt uitgevoerd. Voor meerdere experimenten die parallel worden uitgevoerd op één AmlCompute-cluster, moet de som van de `max_concurrent_iterations` waarden voor alle experimenten kleiner zijn dan of gelijk zijn aan het maximum aantal knooppunten. DSVM ondersteunt meerdere iteraties per knooppunt. `max_concurrent_iterations` moet kleiner zijn dan of gelijk zijn aan het aantal kernen op de DSVM. Voor meerdere experimenten die parallel worden uitgevoerd op één DSVM, moet de som van de `max_concurrent_iterations` waarden voor alle experimenten kleiner zijn dan of gelijk zijn aan het maximum aantal knooppunten. Databricks: `max_concurrent_iterations` moet kleiner zijn dan of gelijk zijn aan het aantal werkknooppunten op Databricks. `max_concurrent_iterations` is niet van toepassing op lokale uitvoeringen. Voorheen was deze parameter de naam `concurrent_iterations`.
iteration_timeout_minutes Vereist	int Maximale tijd in minuten waarvoor elke iteratie kan worden uitgevoerd voordat deze wordt beëindigd. Als dit niet is opgegeven, wordt een waarde van 1 maand of 43200 minuten gebruikt.
mem_in_mb Vereist	int Maximaal geheugengebruik waarvoor elke iteratie kan worden uitgevoerd voordat deze wordt beëindigd. Als dit niet is opgegeven, wordt een waarde van 1 PB of 1073741824 MB gebruikt.
enforce_time_on_windows Vereist	bool Of u een tijdslimiet wilt afdwingen voor modeltraining bij elke iteratie in Windows. De standaardwaarde is Waar. Als u een Python-scriptbestand (.py) uitvoert, raadpleegt u de documentatie voor het toestaan van resourcelimieten in Windows.
experiment_timeout_hours Vereist	float Maximale tijdsduur in uren dat de combinatie van alle iteraties voordat het experiment wordt beëindigd, kan duren. Dit kan een decimale waarde zijn, zoals 0,25 die 15 minuten vertegenwoordigt. Als dit niet is opgegeven, is de standaardtime-out voor het experiment 6 dagen. Als u een time-out wilt opgeven die kleiner is dan of gelijk is aan 1 uur, moet u ervoor zorgen dat de grootte van uw gegevensset niet groter is dan 10.000.000 (rijtijdenkolom) of een foutresultaat.
experiment_exit_score Vereist	float Doelscore voor experiment. Het experiment wordt beëindigd nadat deze score is bereikt. Als dit niet is opgegeven (geen criteria), wordt het experiment uitgevoerd totdat er geen verdere voortgang wordt gemaakt op de primaire metriek. Zie deze >>`article` https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria_<<voor meer informatie over afsluitcriteria.
enable_early_stopping Vereist	bool Of u vroegtijdige beëindiging wilt inschakelen als de score op korte termijn niet verbetert. De standaardwaarde is Waar. Logica voor vroegtijdig stoppen: Geen vroege stop voor de eerste 20 iteraties (oriëntatiepunten). Het eerdere stopvenster wordt gestart op de 21e iteratie en zoekt naar early_stopping_n_iters iteraties (momenteel ingesteld op 10). Dit betekent dat de eerste iteratie waar stoppen kan plaatsvinden de 31e is. AutoML plant nog steeds 2 ensemble iteraties NA vroege stop, wat kan leiden tot hogere scores. Vroeg stoppen wordt geactiveerd als de absolute waarde van de beste score berekend hetzelfde is voor eerdere early_stopping_n_iters iteraties, dat wil gezegd, als er geen verbetering in de score is voor early_stopping_n_iters iteraties.
blocked_models Vereist	list(str) of list(Classification) <xref:for classification task> of list(Regression) <xref:for regression task> of list(Forecasting) <xref:for forecasting task> Een lijst met algoritmen die moeten worden genegeerd voor een experiment. Als `enable_tf` onwaar is, worden TensorFlow-modellen opgenomen in `blocked_models`.
blacklist_models Vereist	list(str) of list(Classification) <xref:for classification task> of list(Regression) <xref:for regression task> of list(Forecasting) <xref:for forecasting task> Gebruik in plaats daarvan de afgeschafte parameter blocked_models.
exclude_nan_labels Vereist	bool Of u rijen wilt uitsluiten met NaN-waarden in het label. De standaardwaarde is Waar.
verbosity Vereist	int Het uitgebreidheidsniveau voor het schrijven naar het logboekbestand. De standaardwaarde is INFO of 20. Acceptabele waarden worden gedefinieerd in de Python-logboekregistratiebibliotheek.
enable_tf Vereist	bool Of u TensorFlow-algoritmen wilt in- of uitschakelen. De standaardwaarde is Onwaar.
model_explainability Vereist	bool Of u het beste AutoML-model aan het einde van alle AutoML-trainingsiteraties wilt inschakelen. De standaardwaarde is Waar. Zie Interpreteerbaarheid voor meer informatie: modeluitleg in geautomatiseerde machine learning.
allowed_models Vereist	list(str) of list(Classification) <xref:for classification task> of list(Regression) <xref:for regression task> of list(Forecasting) <xref:for forecasting task> Een lijst met modelnamen om naar een experiment te zoeken. Als dit niet is opgegeven, worden alle modellen die voor de taak worden ondersteund, gebruikt zonder opgegeven in `blocked_models` of afgeschafte TensorFlow-modellen. De ondersteunde modellen voor elk taaktype worden beschreven in de SupportedModels klasse.
allowed_models Vereist	Een lijst met modelnamen om naar een experiment te zoeken. Als dit niet is opgegeven, worden alle modellen die voor de taak worden ondersteund, gebruikt zonder opgegeven in `blocked_models` of afgeschafte TensorFlow-modellen. De ondersteunde modellen voor elk taaktype worden beschreven in de SupportedModels klasse.
whitelist_models Vereist	Gebruik in plaats daarvan allowed_models afgeschafte parameter.
enable_onnx_compatible_models Vereist	bool Of u het afdwingen van de ONNX-compatibele modellen wilt in- of uitschakelen. De standaardwaarde is Onwaar. Zie dit artikel voor meer informatie over Open Neural Network Exchange (ONNX) en Azure Machine Learning.
forecasting_parameters Vereist	ForecastingParameters Een object dat alle prognosespecifieke parameters bevat.
time_column_name Vereist	str De naam van de tijdkolom. Deze parameter is vereist bij het voorspellen om de datum/tijd-kolom op te geven in de invoergegevens die worden gebruikt voor het bouwen van de tijdreeks en het uitstellen van de frequentie. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
max_horizon Vereist	int De gewenste maximale prognose horizon in eenheden van tijdreeksfrequentie. De standaardwaarde is 1. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters. Eenheden zijn gebaseerd op het tijdsinterval van uw trainingsgegevens, bijvoorbeeld maandelijks, wekelijks dat de prognose moet voorspellen. Wanneer het taaktype een prognose is, is deze parameter vereist. Zie Een tijdreeksprognosemodel automatisch trainen voor meer informatie over het instellen van parameters voor prognoses.
grain_column_names Vereist	str of list(str) De namen van kolommen die worden gebruikt om een tijdreeks te groeperen. Het kan worden gebruikt om meerdere reeksen te maken. Als graan niet is gedefinieerd, wordt ervan uitgegaan dat de gegevensset één tijdreeks is. Deze parameter wordt gebruikt bij het voorspellen van taaktypen. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
target_lags Vereist	int of list(int) Het aantal eerdere perioden tot vertraging van de doelkolom. De standaardwaarde is 1. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters. Bij het voorspellen vertegenwoordigt deze parameter het aantal rijen om de doelwaarden te laten achterlopen op basis van de frequentie van de gegevens. Dit wordt weergegeven als een lijst of één geheel getal. Vertraging moet worden gebruikt wanneer de relatie tussen de onafhankelijke variabelen en afhankelijke variabelen niet standaard overeenkomt of correleert. Wanneer u bijvoorbeeld de vraag voor een product probeert te voorspellen, kan de vraag in elke maand afhankelijk zijn van de prijs van specifieke grondstoffen 3 maanden voordien. In dit voorbeeld wilt u het doel (de vraag) mogelijk met drie maanden negatief laten lopen, zodat het model wordt getraind op de juiste relatie. Zie Een tijdreeksprognosemodel automatisch trainen voor meer informatie.
feature_lags Vereist	str Vlag voor het genereren van vertragingen voor de numerieke functies. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
target_rolling_window_size Vereist	int Het aantal eerdere perioden dat wordt gebruikt voor het maken van een doorlopend venster gemiddelde van de doelkolom. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters. Bij het voorspellen vertegenwoordigt deze parameter n historische perioden die moeten worden gebruikt om voorspelde waarden te genereren, <= grootte van trainingssets. Als u dit weglaat, is n de volledige grootte van de trainingsset. Geef deze parameter op wanneer u alleen een bepaalde hoeveelheid geschiedenis wilt overwegen bij het trainen van het model.
country_or_region Vereist	str Het land/de regio die wordt gebruikt om vakantiefuncties te genereren. Dit moeten ISO 3166 tweeletterige land-/regiocodes zijn, bijvoorbeeld 'VS' of 'GB'. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
use_stl Vereist	str Configureer STL-decompositie van de doelkolom van de tijdreeks. use_stl kan drie waarden aannemen: Geen (standaard) - geen afsplitsing, 'seizoen' - alleen seizoenonderdeel genereren en season_trend - zowel seizoen- als trendonderdelen genereren. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
seasonality Vereist	int Tijdreeks seizoensgebondenheid instellen. Als seizoensgebondenheid is ingesteld op -1, wordt dit afgeleid. Als use_stl niet is ingesteld, wordt deze parameter niet gebruikt. Deze instelling wordt afgeschaft. Gebruik in plaats daarvan forecasting_parameters.
short_series_handling_configuration Vereist	str De parameter die definieert hoe autoML korte tijdreeksen moet verwerken. Mogelijke waarden: 'auto' (standaard), 'pad', 'drop' en None. automatische korte reeks wordt opgevuld als er geen lange reeks is, anders wordt korte reeks verwijderd. alle korte reeksen worden opgevuld. alle korte reeksen worden verwijderd". De korte reeks wordt niet gewijzigd. Als deze optie is ingesteld op pad, wordt de tabel opgevuld met de nullen en lege waarden voor de regressors en willekeurige waarden voor het doel met het gemiddelde gelijk aan de doelwaardemediaan voor een bepaalde tijdreeks-id. Als de mediaan meer of gelijk is aan nul, wordt de minimale gevulde waarde geknipt door nul: Invoer: Datum numeric_value snaar doeldoel 2020-01-01 23 groen 55 Uitvoer ervan uitgaande dat het minimale aantal waarden vier is: +————+—————+———-+— — – + \| Datum \| numeric_value \| tekenreeks \| doel \| +============+===============+==========+========+ \| 2019-12-29 \| 0 \| NA \| 55.1 \| +————+—————+———-+——–+ \| 2019-12-30 \| 0 \| NA \| 55.6 \| +————+—————+———-+——–+ \| 2019-12-31 \| 0 \| NA \| 54.5 \| +————+—————+———-+——–+ \| 2020-01-01 \| 23 \| groen \| 55 \| +————+—————+———-+——–+ Notitie: We hebben twee parameters short_series_handling_configuration en oudere short_series_handling. Wanneer beide parameters zijn ingesteld, worden deze gesynchroniseerd zoals wordt weergegeven in de onderstaande tabel (short_series_handling_configuration en short_series_handling voor breviteit worden gemarkeerd als respectievelijk handling_configuration en verwerking). behandeling handling_configuration resulterende verwerking resulterende handling_configuration Klopt Auto Klopt Auto Klopt opvullen Klopt Auto Klopt druppel Klopt Auto Klopt Geen Onwaar Geen Onwaar Auto Onwaar Geen Onwaar opvullen Onwaar Geen Onwaar druppel Onwaar Geen Onwaar Geen Onwaar Geen
freq Vereist	str of None Prognosefrequentie. Bij het voorspellen vertegenwoordigt deze parameter de periode waarmee de prognose gewenst is, bijvoorbeeld dagelijks, wekelijks, jaarlijks, enzovoort. De prognosefrequentie is standaard de frequentie van de gegevensset. U kunt deze desgewenst instellen op een grotere (maar niet minder) dan de frequentie van de gegevensset. We aggregeren de gegevens en genereren de resultaten met de prognosefrequentie. Voor dagelijkse gegevens kunt u bijvoorbeeld instellen dat de frequentie dagelijks, wekelijks of maandelijks is, maar niet per uur. De frequentie moet een pandas-offsetalias zijn. Raadpleeg de pandas-documentatie voor meer informatie: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Vereist	str of None De functie die moet worden gebruikt om de doelkolom van de tijdreeks te aggregeren om te voldoen aan een door de gebruiker opgegeven frequentie. Als de target_aggregation_function is ingesteld, maar de freq-parameter niet is ingesteld, wordt de fout gegenereerd. De mogelijke doelaggregatiefuncties zijn: 'sum', 'max', 'min' en 'mean'. Freq target_aggregation_function Mechanisme voor het corrigeren van gegevens regulariteit Geen (standaard) Geen (standaard) De aggregatie wordt niet toegepast. Als de geldige frequentie niet kan worden bepaald, wordt de fout gegenereerd. Een bepaalde waarde Geen (standaard) De aggregatie wordt niet toegepast. Als het aantal gegevenspunten dat aan het gegeven frequentieraster voldoet, kleiner is dan 90%these punten worden verwijderd, wordt anders de fout gegenereerd. Geen (standaard) Aggregatiefunctie De fout over ontbrekende frequentieparameteris die is gegenereerd. Een bepaalde waarde Aggregatiefunctie Aggregeren naar frequentie met behulp van de opgegeven aggregatiefunctie.
enable_voting_ensemble Vereist	bool Of u VotingEnsemble iteratie wilt in- of uitschakelen. De standaardwaarde is Waar. Zie Ensemble-configuratie voor meer informatie over ensembles.
enable_stack_ensemble Vereist	bool Of u StackEnsemble-iteratie wilt in- of uitschakelen. De standaardwaarde is Geen. Als enable_onnx_compatible_models vlag wordt ingesteld, wordt StackEnsemble-iteratie uitgeschakeld. Op dezelfde manier wordt stackEnsemble iteratie voor Timeseries-taken standaard uitgeschakeld om risico's van overfitting te voorkomen als gevolg van een kleine trainingsset die wordt gebruikt bij het aanpassen van de meta-cursist. Zie Ensemble-configuratie voor meer informatie over ensembles.
debug_log Vereist	str Het logboekbestand voor het schrijven van foutopsporingsgegevens naar. Als dit niet is opgegeven, wordt 'automl.log' gebruikt.
training_data Vereist	DataFrame of Dataset of DatasetDefinition of TabularDataset De trainingsgegevens die in het experiment moeten worden gebruikt. Deze moet zowel trainingsfuncties als een labelkolom bevatten (optioneel een kolom met steekproefgewichten). Als `training_data` dit is opgegeven, moet de `label_column_name` parameter ook worden opgegeven. `training_data` is geïntroduceerd in versie 1.0.81.
validation_data Vereist	DataFrame of Dataset of DatasetDefinition of TabularDataset De validatiegegevens die in het experiment moeten worden gebruikt. Deze moet zowel de trainingsfuncties als de labelkolom bevatten (optioneel een kolom met steekproefgewichten). Als `validation_data` dit is opgegeven, `training_data` moeten parameters `label_column_name` worden opgegeven. `validation_data` is geïntroduceerd in versie 1.0.81. Zie Gegevenssplitsingen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie.
test_data Vereist	Dataset of TabularDataset De functie Modeltest met behulp van testgegevenssets of gegevenssplitsingen is een functie in de preview-status en kan op elk gewenst moment worden gewijzigd. De testgegevens die moeten worden gebruikt voor een testuitvoering die automatisch wordt gestart nadat de modeltraining is voltooid. De testuitvoering ontvangt voorspellingen met behulp van het beste model en berekent metrische gegevens op basis van deze voorspellingen. Als deze parameter of parameter `test_size` niet is opgegeven, wordt er geen testuitvoering automatisch uitgevoerd nadat de modeltraining is voltooid. Testgegevens moeten zowel functies als labelkolom bevatten. Als `test_data` dit is opgegeven, moet de `label_column_name` parameter worden opgegeven.
test_size Vereist	float De functie Modeltest met behulp van testgegevenssets of gegevenssplitsingen is een functie in de preview-status en kan op elk gewenst moment worden gewijzigd. Welk deel van de trainingsgegevens moet worden opgeslagen voor testgegevens voor een testuitvoering die automatisch wordt gestart nadat de modeltraining is voltooid. De testuitvoering ontvangt voorspellingen met behulp van het beste model en berekent metrische gegevens op basis van deze voorspellingen. Dit moet tussen 0,0 en 1,0 niet-inclusief zijn. Als `test_size` de testgegevens op hetzelfde moment worden opgegeven als `validation_size`, worden de testgegevens gesplitst `training_data` voordat de validatiegegevens worden gesplitst. Als `validation_size=0.1test_size=0.1` de oorspronkelijke trainingsgegevens bijvoorbeeld 1000 rijen bevatten, hebben de testgegevens 100 rijen, bevatten de validatiegegevens 90 rijen en hebben de trainingsgegevens 810 rijen. Voor op regressie gebaseerde taken wordt willekeurige steekproeven gebruikt. Voor classificatietaken wordt gelaagde steekproeven gebruikt. Prognoses bieden momenteel geen ondersteuning voor het opgeven van een testgegevensset met behulp van een train/test split. Als deze parameter of parameter `test_data` niet is opgegeven, wordt er geen testuitvoering automatisch uitgevoerd nadat de modeltraining is voltooid.
label_column_name Vereist	Union[str, int] De naam van de labelkolom. Als de invoergegevens afkomstig zijn van een pandas. DataFrame dat geen kolomnamen heeft, kunnen in plaats daarvan kolomindexen worden gebruikt, uitgedrukt als gehele getallen. Deze parameter is van toepassing op `training_data`en `validation_datatest_data` parameters. `label_column_name` is geïntroduceerd in versie 1.0.81.
weight_column_name Vereist	Union[str, int] De naam van de kolom met de steekproefgewicht. Geautomatiseerde ML ondersteunt een gewogen kolom als invoer, waardoor rijen in de gegevens omhoog of omlaag worden gewogen. Als de invoergegevens afkomstig zijn van een pandas. DataFrame dat geen kolomnamen heeft, kunnen in plaats daarvan kolomindexen worden gebruikt, uitgedrukt als gehele getallen. Deze parameter is van toepassing op `training_data` en `validation_data` parameters. `weight_column_names` is geïntroduceerd in versie 1.0.81.
cv_split_column_names Vereist	list(str) Lijst met namen van de kolommen die een aangepaste kruisvalidatiesplitsing bevatten. Elk van de kolommen voor het splitsen van cv's vertegenwoordigt één CV-splitsing waarbij elke rij is gemarkeerd als 1 voor training of 0 voor validatie. Deze parameter is van toepassing op `training_data` de parameter voor aangepaste kruisvalidatiedoeleinden. `cv_split_column_names` is geïntroduceerd in versie 1.6.0 Gebruik een van beide: `cv_split_column_names` of `cv_splits_indices`. Zie Gegevenssplitsingen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie.
enable_local_managed Vereist	bool Parameter uitgeschakeld. Lokale beheerde uitvoeringen kunnen momenteel niet worden ingeschakeld.
enable_dnn Vereist	bool Of u DNN-modellen wilt opnemen tijdens het selecteren van modellen. De standaardwaarde in de init is Geen. De standaardwaarde is echter Waar voor DNN NLP-taken en is onwaar voor alle andere AutoML-taken.

Opmerkingen

De volgende code toont een eenvoudig voorbeeld van het maken van een AutoMLConfig-object en het verzenden van een experiment voor regressie:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Een volledig voorbeeld is beschikbaar bij Regressie

Voorbeelden van het gebruik van AutoMLConfig voor prognose bevinden zich in deze notebooks:

Voorbeelden van het gebruik van AutoMLConfig voor alle taaktypen vindt u in deze geautomatiseerde ML-notebooks.

Zie de artikelen voor achtergrondinformatie over geautomatiseerde ML:

Een machine learning-taak definiëren
Configureer geautomatiseerde ML-experimenten in Python. In dit artikel vindt u informatie over de verschillende algoritmen en primaire metrische gegevens die worden gebruikt voor elk taaktype.
Een tijdreeksprognosemodel automatisch trainen. In dit artikel vindt u informatie over welke constructorparameters en **kwargs worden gebruikt bij het voorspellen.

Zie Gegevens splitsen en kruisvalidatie configureren in geautomatiseerde machine learning voor meer informatie over verschillende opties voor het configureren van splitsingen/validatiegegevens en kruisvalidatie voor uw geautomatiseerde machine learning, AutoML, experimenten.

Methoden

as_serializable_dict	Converteer het object naar een woordenlijst.
get_supported_dataset_languages	Download ondersteunde talen en de bijbehorende taalcodes in ISO 639-3.

as_serializable_dict

Converteer het object naar een woordenlijst.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Download ondersteunde talen en de bijbehorende taalcodes in ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parameters

Name	Description
cls Vereist	Klasseobject van AutoMLConfig.
use_gpu Vereist	Booleaanse waarde die aangeeft of gpu-rekenkracht wordt gebruikt of niet.

Retouren

Type	Description
	woordenlijst van indeling {<taalcode>: <taalnaam>}. Taalcode voldoet aan de ISO 639-3-standaard. Raadpleeg https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes

Feedback

Is deze pagina nuttig?

Delen via

AutoMLConfig Klas

Constructor

Parameters

Opmerkingen

Methoden

as_serializable_dict

get_supported_dataset_languages

Parameters

Retouren

Feedback