Delen via


Een nauwkeurig afgestemd model implementeren voor deductie

Zodra uw model is afgestemd, kunt u het model implementeren en gebruiken in uw eigen toepassing.

Wanneer u het model implementeert, wordt het beschikbaar voor inferentie, wat een uurelijkse hostingvergoeding met zich meebrengt. Aangepaste modellen kunnen echter zonder kosten worden opgeslagen in Azure AI Foundry totdat u er klaar voor bent om ze te gebruiken.

Azure OpenAI biedt opties voor implementatietypen voor verfijnde modellen in de hostingstructuur die past bij verschillende bedrijfs- en gebruikspatronen: Standard, Global Standard (preview) en Ingerichte doorvoer (preview). Meer informatie over implementatietypen voor nauwkeurig afgestemde modellen en de concepten van alle implementatietypen.

Uw nauwkeurig afgestemde model implementeren

Als u uw aangepaste model wilt implementeren, selecteert u het aangepaste model dat u wilt implementeren en selecteert u Vervolgens Implementeren.

Het dialoogvenster Model implementeren wordt geopend. Voer in het dialoogvenster uw implementatienaam in en selecteer Vervolgens Maken om de implementatie van uw aangepaste model te starten.

Schermopname van het implementeren van een aangepast model in de Azure AI Foundry-portal.

U kunt de voortgang van uw implementatie bewaken in het deelvenster Implementaties in de Azure AI Foundry-portal.

De gebruikersinterface biedt geen ondersteuning voor implementatie in meerdere regio's, terwijl Python SDK of REST wordt ondersteund.

Important

Nadat u een aangepast model hebt geïmplementeerd, wordt de implementatie verwijderd als de implementatie langer dan vijftien (15) dagen inactief blijft. De uitrol van een aangepast model is inactief als het model meer dan vijftien (15) dagen geleden is uitgerold en er tijdens een aaneengesloten periode van 15 dagen geen voltooiingsoproepen of chatvoltooiingsoproepen zijn gedaan.

Het verwijderen van een inactieve implementatie is niet van invloed op het onderliggende aangepaste model en het aangepaste model kan op elk gewenst moment opnieuw worden geïmplementeerd. Zoals beschreven in Prijzen van Azure OpenAI in Azure AI Foundry Models brengt elk aangepast (fijn afgestemd) model dat wordt geïmplementeerd, een uurlijkse hostingkost met zich mee, ongeacht of er aanvragen voor voltooien of chatvoltooien naar het model worden gedaan. Raadpleeg de richtlijnen in Plan voor het beheren van kosten voor Azure OpenAI voor meer informatie over het plannen en beheren van kosten voor Azure OpenAI.

Het geïmplementeerde, nauwkeurig afgestemde model gebruiken

Nadat uw aangepaste model is geïmplementeerd, kunt u dit gebruiken zoals elk ander geïmplementeerd model. U kunt de Playgrounds in de Azure AI Foundry-portal gebruiken om te experimenteren met uw nieuwe implementatie. U kunt dezelfde parameters blijven gebruiken met uw aangepaste model, zoals temperature en max_tokens, zoals u kunt met andere geïmplementeerde modellen.

Schermopname van het deelvenster Playground in azure AI Foundry Portal, met secties gemarkeerd.

Prompt opslaan in cache

Het fine-tunen van Azure OpenAI ondersteunt het cachen van prompts met geselecteerde modellen. Met promptcaching kunt u de totale latentie van aanvragen en de kosten voor langere prompts met identieke inhoud aan het begin van de prompt verminderen. Zie Aan de slag met promptcaching voor meer informatie over het in de cache opslaan van prompts.

Implementatietypen

Azure OpenAI-afstemming ondersteunt de volgende implementatietypen.

Standard

Standaardimplementaties bieden een factureringsmodel voor betalen per token met gegevenslocatie die is beperkt tot de geïmplementeerde regio.

Models Oostelijke VS2 Noord-Centraal VS Zweden - centraal Switzerland West
o4-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4o
GPT-4o-mini
GPT-35-Turbo (1106)
GPT-35-Turbo (0125)

Algemene standaard

Globale standaardimplementaties bieden kostenbesparingen, maar aangepaste modelgewichten kunnen tijdelijk worden opgeslagen buiten de geografie van uw Azure OpenAI-resource.

Globale standaardimplementaties zijn beschikbaar in alle Azure OpenAI-regio's voor de volgende modellen:

  • o4-mini
  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • GPT-4o
  • GPT-4o-mini

Schermopname van de gebruikerservaring van de algemene standaardimplementatie met een nauwkeurig afgestemd model.

Ontwikkelaarslaag

Door ontwikkelaars afgestemde implementaties bieden een vergelijkbare ervaring als Global Standard zonder hostingkosten per uur, maar bieden geen SLA voor beschikbaarheid. Ontwikkelaarsimplementaties zijn ontworpen voor modelkandidaat-evaluatie en niet voor productiegebruik.

Ontwikkelaarsimplementaties zijn beschikbaar in alle Azure OpenAI-regio's voor de volgende modellen:

  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano

Geconfigureerde doorvoer

Models Noord-Centraal VS Zweden - centraal
GPT-4.1
GPT-4o
GPT-4o-mini

Verbeterde doorvoerimplementaties bieden voorspelbare prestaties voor latentiegevoelige agents en toepassingen. Ze gebruiken dezelfde regionale ingerichte doorvoercapaciteit (PTU) als basismodellen, dus als u al een regionaal PTU-quotum hebt, kunt u uw nauwkeurig afgestemde model implementeren in ondersteuningsregio's.

Maak uw implementatie schoon

Als u een implementatie wilt verwijderen, gebruikt u de implementaties - REST API verwijderen en verzendt u een HTTP DELETE naar de implementatieresource. Net als bij het maken van implementaties moet u de volgende parameters bevatten:

  • Azure-abonnements-id
  • Naam van Azure-resourcegroep
  • Azure OpenAI-resourcenaam
  • Naam van de implementatie die u wilt verwijderen

Hieronder ziet u het REST API-voorbeeld om een implementatie te verwijderen:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

U kunt ook een implementatie verwijderen in de Azure AI Foundry-portal of Azure CLI gebruiken.

Volgende stappen