Delen via


Voorbeelden van serverloze API-deductie voor Foundry-modellen

De Azure AI-modelcatalogus biedt een grote selectie Van Azure AI Foundry-modellen van een breed scala aan providers. U hebt verschillende opties voor het implementeren van modellen uit de modelcatalogus. In dit artikel vindt u voorbeelden van deductie voor serverloze API-implementaties.

Important

Modellen die in preview zijn, worden gemarkeerd als voorbeeld op hun modelkaarten in de modelcatalogus.

Als u inferentie wilt uitvoeren met de modellen, moeten sommige modellen, zoals TimeGEN-1 van Nixtla en Cohere rerank, aangepaste API's van de modelproviders gebruiken. Anderen ondersteunen deductie met behulp van de ModelDeductie-API. U vindt meer informatie over afzonderlijke modellen door hun modelkaarten te bekijken in de modelcatalogus voor Azure AI Foundry Portal.

Cohere

De cohere-serie modellen bevat verschillende modellen die zijn geoptimaliseerd voor verschillende gebruiksvoorbeelden, waaronder herrankering, chatvoltooiingen en insluitingsmodellen.

Voorbeelden van inferentie: commando Cohere en embedding

De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Cohere-modellen.

Description Language Sample
Webaanvragen Bash Command-RCommand-R+
cohere-embed.ipynb
Azure AI Inference pakket voor C# C# Link
Azure AI-inferencepakket voor JavaScript JavaScript Link
Azure AI-inferentiepakket voor Python Python Link
OpenAI SDK (experimenteel) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

Voorbeelden van Retrieval Augmented Generation (RAG) en gebruik van hulpprogramma's: Cohere-command en embedden

Description Packages Sample
Een lokale FAISS-vectorindex (Facebook AI similarity search) maken met cohere embeddings - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Cohere Command R/R+ gebruiken om vragen te beantwoorden van gegevens in de lokale FAISS-vectorindex - Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Cohere Command R/R+ gebruiken om vragen te beantwoorden van gegevens in de AI-zoekvectorindex - Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Cohere Command R/R+ gebruiken om vragen te beantwoorden van gegevens in de AI-zoekvectorindex - Cohere SDK cohere, azure_search_documents cohere-aisearch-rag.ipynb
Commando R+ hulpmiddel of functie oproepen, gebruikmakend van LangChain cohere, , langchainlangchain_cohere command_tools-langchain.ipynb

Cohere opnieuw rangschikken

Als u deductie wilt uitvoeren met cohere-rerankeringsmodellen, moet u de aangepaste rerank-API's van Cohere gebruiken. Zie Cohere rerankeren voor meer informatie over het cohere-herrankingsmodel en de mogelijkheden ervan.

Prijzen voor Cohere-herordeneringsmodellen

Query's, niet te verwarren met de query van een gebruiker, is een prijsmeter die verwijst naar de kosten die zijn gekoppeld aan de tokens die worden gebruikt als invoer voor deductie van een Cohere Rerank-model. Cohere telt één zoekeenheid als een query met maximaal 100 documenten die moeten worden gerangschikt. Documenten die langer zijn dan 500 tokens (voor Cohere-rerank-v3.5) of langer dan 4096 tokens (voor Cohere-rerank-v3-English en Cohere-rerank-v3-meertalig) worden, inclusief de lengte van de zoekquery, opgesplitst in meerdere segmenten waarbij elk segment als een afzonderlijk document wordt geteld.

Zie de Cohere-modelverzameling in het Azure AI Foundry-portaal.

Core42

De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Jais-modellen.

Description Language Sample
Azure AI Inference pakket voor C# C# Link
Azure AI-inferencepakket voor JavaScript JavaScript Link
Azure AI-inferentiepakket voor Python Python Link

DeepSeek

De DeepSeek-serie modellen bevat DeepSeek-R1, die uitblinkt in redeneringstaken met behulp van een stapsgewijs trainingsproces, zoals taal, wetenschappelijke redenering en coderingstaken, DeepSeek-V3-0324, een Mix-of-Experts-taalmodel (MoE) en meer.

De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van DeepSeek-modellen.

Description Language Sample
Azure AI-inferentiepakket voor Python Python Link
Azure AI-inferencepakket voor JavaScript JavaScript Link
Azure AI Inference pakket voor C# C# Link
Azure AI-inferencepakket voor Java Java Link

Meta

Meta Llama-modellen en -hulpprogramma's zijn een verzameling vooraf getrainde en verfijnde AI-tekst- en afbeeldingsredenmodellen. Metamodellen variëren in schaal om het volgende te omvatten:

  • Kleine taalmodellen (SLM's) zoals 1B en 3B Base en Instruct-modellen voor inferentie op het apparaat zelf en edge-computing
  • Middelgrote grote taalmodellen (LLM's) zoals 7B, 8B en 70B Base- en Instruct-modellen
  • Krachtige modellen zoals Meta Llama 3.1-405B Instruct voor gebruik bij het genereren en destilleren van synthetische data.
  • Hoogpresterende natuurlijke multimodale modellen, Llama 4 Scout en Llama 4 Maverick, maken gebruik van een architectuur met een mix van experts om toonaangevende prestaties te leveren in tekst- en afbeeldingsbegrip.

De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Meta Llama-modellen.

Description Language Sample
CURL-aanvraag Bash Link
Azure AI Inference pakket voor C# C# Link
Azure AI-inferencepakket voor JavaScript JavaScript Link
Azure AI-inferentiepakket voor Python Python Link
Python-webaanvragen Python Link
OpenAI SDK (experimenteel) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Microsoft-modellen omvatten verschillende modelgroepen, zoals MAI-modellen, Phi-modellen, AI-modellen voor gezondheidszorg en meer. Als u alle beschikbare Microsoft-modellen wilt zien, bekijkt u de Microsoft-modelverzameling in de Azure AI Foundry-portal.

De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Microsoft-modellen.

Description Language Sample
Azure AI Inference pakket voor C# C# Link
Azure AI-inferencepakket voor JavaScript JavaScript Link
Azure AI-inferentiepakket voor Python Python Link
LangChain Python Link
Llama-Index Python Link

Zie de Microsoft-modelverzameling in de Azure AI Foundry-portal.

Mistral AI (kunstmatige intelligentie)

Mistral AI biedt twee categorieën modellen, namelijk:

  • Premium-modellen: deze omvatten Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) en Ministral 3B-modellen en zijn beschikbaar als serverloze API's met betalen per gebruik-token gebaseerde facturering.
  • Open modellen: deze omvatten Mistral-small-2503, Codestral en Mistral Nemo (die beschikbaar zijn als serverloze API's met betalen per gebruik-token) en Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 en Mistral-7B-v01 (die beschikbaar zijn om te downloaden en te worden uitgevoerd op zelf-hostende beheerde eindpunten).

De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Mistral-modellen.

Description Language Sample
CURL-aanvraag Bash Link
Azure AI Inference pakket voor C# C# Link
Azure AI-inferencepakket voor JavaScript JavaScript Link
Azure AI-inferentiepakket voor Python Python Link
Python-webaanvragen Python Link
OpenAI SDK (experimenteel) Python Mistral - OpenAI SDK-voorbeeld
LangChain Python Mistral - LangChain-voorbeeld
Mistral AI (kunstmatige intelligentie) Python Mistral - Mistral AI-voorbeeld
LiteLLM Python Mistral - LiteLLM-voorbeeld

Nixtla

TimeGEN-1 van Nixtla is een generatief vooraf getraind voorspellend en anomaliedetectiemodel voor tijdreeksgegevens. TimeGEN-1 kan nauwkeurige prognoses produceren voor nieuwe tijdreeksen zonder training, waarbij alleen historische waarden en exogene covariaten als invoer worden gebruikt.

Als u deductie wilt uitvoeren, moet u voor TimeGEN-1 de aangepaste deductie-API van Nixtla gebruiken. Zie Nixtla voor meer informatie over het TimeGEN-1-model en de mogelijkheden ervan.

Het aantal benodigde tokens schatten

Voordat u een TimeGEN-1-implementatie maakt, is het handig om een schatting te maken van het aantal tokens waarvoor u van plan bent te gebruiken en te worden gefactureerd. Eén token komt overeen met één gegevenspunt in uw invoergegevensset of uitvoergegevensset.

Stel dat u de volgende gegevensset voor invoertijdreeksen hebt:

Unique_id Timestamp Doelvariabele Exogene variabele 1 Exogene variabele 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

Als u het aantal tokens wilt bepalen, vermenigvuldigt u het aantal rijen (in dit voorbeeld twee) en het aantal kolommen dat wordt gebruikt voor het voorspellen, zonder de kolommen unique_id en tijdstempel mee te rekenen (in dit voorbeeld drie), om zo op een totaal van zes tokens uit te komen.

Gegeven de volgende outputdataset:

Unique_id Timestamp Voorspelde doelvariabele
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

U kunt ook het aantal tokens bepalen door het aantal geretourneerde gegevenspunten te tellen na gegevensprognose. In dit voorbeeld is het aantal tokens twee.

Prijzen schatten op basis van tokens

Er zijn vier prijsmeters die de prijs bepalen die u betaalt. Deze meters zijn als volgt:

Prijsmeter Description
paygo-inference-input-tokens Kosten die zijn gekoppeld aan de tokens die worden gebruikt als invoer voor inferentie wanneer finetune_steps = 0
paygo-inference-output-tokens Kosten verbonden aan de tokens die worden gebruikt als uitvoer voor inferentie wanneer finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Kosten die verbonden zijn met de tokens die als invoer voor inferentie worden gebruikt wanneer finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Kosten die zijn gekoppeld aan de tokens die worden gebruikt voor de uitvoer van inferentie bij finetune_steps> 0

Zie de verzameling modellen van Nixtla in de Azure AI Foundry-portal.

Ai voor stabiliteit

Stability AI-modellen die via serverloze API zijn geïmplementeerd voeren de Modelinference-API uit op de route /image/generations. Zie de volgende voorbeelden voor voorbeelden van het gebruik van AI-modellen voor stabiliteit:

Gretel Navigator

Gretel Navigator maakt gebruik van een samengestelde AI-architectuur die speciaal is ontworpen voor synthetische gegevens, door de combinatie van top opensource kleine taalmodellen (SLM's) die zijn afgestemd op meer dan 10 branchedomeinen. Met dit speciaal gebouwde systeem worden diverse domeinspecifieke gegevenssets gemaakt op schaal van honderden tot miljoenen voorbeelden. Het systeem behoudt ook complexe statistische relaties en biedt meer snelheid en nauwkeurigheid in vergelijking met het handmatig maken van gegevens.

Description Language Sample
Azure AI-inferencepakket voor JavaScript JavaScript Link
Azure AI-inferentiepakket voor Python Python Link