BanditPolicy Klas

Definieert een beleid voor vroegtijdige beëindiging op basis van margecriteria en een frequentie- en vertragingsinterval voor evaluatie.

Initialiseer een BanditPolicy met margefactor, slack_amount en evaluatie-interval.

Constructor

BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)

Parameters

Name	Description
slack_factor	float De verhouding die wordt gebruikt om de toegestane afstand van de best presterende experimentuitvoering te berekenen. Default value: None
slack_amount	float De absolute afstand die is toegestaan vanaf de best presterende uitvoering. Default value: None
evaluation_interval	int De frequentie voor het toepassen van het beleid. Default value: 1
delay_evaluation	int Het aantal intervallen waarvoor de eerste beleidsevaluatie moet worden vertraagd. Indien opgegeven, is het beleid van toepassing op elk veelvoud `evaluation_interval` dat groter is dan of gelijk is aan `delay_evaluation`. Default value: 0
slack_factor Vereist	float De verhouding die wordt gebruikt om de toegestane afstand van de best presterende experimentuitvoering te berekenen.
slack_amount Vereist	float De absolute afstand die is toegestaan vanaf de best presterende uitvoering.
evaluation_interval Vereist	int De frequentie voor het toepassen van het beleid.
delay_evaluation Vereist	int Het aantal intervallen waarvoor de eerste beleidsevaluatie moet worden vertraagd. Indien opgegeven, is het beleid van toepassing op elk veelvoud `evaluation_interval` dat groter is dan of gelijk is aan `delay_evaluation`.

Opmerkingen

Het Bandit-beleid gebruikt de volgende configuratieparameters:

slack_factor: De hoeveelheid marge die is toegestaan met betrekking tot de best presterende trainingsuitvoering. Deze factor geeft de marge aan als een verhouding.
slack_amount: De hoeveelheid marge die is toegestaan met betrekking tot de best presterende trainingsuitvoering. Deze factor geeft de marge aan als een absoluut bedrag.
evaluation_interval: optioneel. De frequentie voor het toepassen van het beleid. Telkens wanneer het trainingsscript de primaire metrische gegevens registreert als één interval.
delay_evaluation: optioneel. Het aantal intervallen om de beleidsevaluatie te vertragen. Gebruik deze parameter om voortijdige beëindiging van trainingsuitvoeringen te voorkomen. Indien opgegeven, is het beleid van toepassing op elk veelvoud evaluation_interval dat groter is dan of gelijk is aan delay_evaluation.

Elke uitvoering die niet binnen de margefactor of de margehoeveelheid van de evaluatiemetriek valt met betrekking tot de best presterende uitvoering, wordt beëindigd.

Overweeg een Bandit-beleid met slack_factor = 0,2 en evaluation_interval = 100. Stel dat run X de best presterende uitvoering is met een AUC (prestatiemetriek) van 0,8 na 100 intervallen. Neem verder aan dat de beste AUC die voor een uitvoering is gerapporteerd, Y is. Met dit beleid wordt de waarde (Y + Y * 0,2) vergeleken met 0,8 en als dit kleiner is, wordt de uitvoering geannuleerd. Als delay_evaluation = 200, wordt het beleid voor het eerst toegepast op interval 200.

Overweeg nu een Bandit-beleid met slack_amount = 0,2 en evaluation_interval = 100. Als Run 3 de best presterende uitvoering is met een AUC (prestatiemetriek) van 0,8 na 100 intervallen, wordt elke uitvoering met een AUC kleiner dan 0,6 (0.8 - 0.2) na 100 iteraties beëindigd. Op dezelfde manier kan het delay_evaluation ook worden gebruikt om de evaluatie van het eerste beëindigingsbeleid voor een bepaald aantal reeksen uit te stellen.

Zie Hyperparameters voor uw model afstemmen voor meer informatie over het toepassen van beleid voor vroegtijdige beëindiging.

Kenmerken

delay_evaluation

Retourneert het aantal reeksen waarvoor de eerste evaluatie is vertraagd.

Retouren

Type	Description
int	De vertragingsevaluatie.

evaluation_interval

Retourneer de waarde van het evaluatie-interval.

Retouren

Type	Description
int	Het evaluatie-interval.

slack_factor

Retourneer de margefactor met betrekking tot de best presterende trainingsuitvoering.

Retouren

Type	Description
float	De margefactor.

POLICY_NAME

POLICY_NAME = 'Bandit'

Feedback

Is deze pagina nuttig?

Delen via

BanditPolicy Klas

Constructor

Parameters

Opmerkingen

Kenmerken

delay_evaluation

Retouren

evaluation_interval

Retouren

slack_factor

Retouren

POLICY_NAME

Feedback