Dela via


Exempel på serverlös API-slutsatsdragning för Foundry-modeller

Azure AI-modellkatalogen erbjuder ett stort urval av Azure AI Foundry Models från en mängd olika leverantörer. Du har olika alternativ för att distribuera modeller från modellkatalogen. Den här artikeln innehåller slutsatsdragningsexempel för serverlösa API-distributioner.

Important

Modeller som är i förhandsversion markeras som förhandsversioner på sina modellkort i modellkatalogen.

För att utföra slutsatsdragning med modellerna kräver vissa modeller som Nixtlas TimeGEN-1 - och Cohere-rerank att du använder anpassade API:er från modellprovidrar. Andra stöder slutsatsdragning med hjälp av API:et för modellinferens. Du hittar mer information om enskilda modeller genom att granska deras modellkort i modellkatalogen för Azure AI Foundry-portalen.

Cohere

Cohere-serien med modeller innehåller olika modeller som är optimerade för olika användningsfall, inklusive rerank, chattavslut och inbäddningsmodeller.

Slutsatsdragningsexempel: Cohere-kommando och inbäddning

Följande tabell innehåller länkar till exempel på hur du använder Cohere-modeller.

Description Language Sample
Webbbegäranden Bash Command-RCommand-R+
cohere-embed.ipynb
Azure AI-slutsatsdragningspaket för C# C# Link
Azure AI-slutsatsdragningspaket för JavaScript JavaScript Link
Azure AI-slutsatsdragningspaket för Python Python Link
OpenAI SDK (experimentell) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

Hämtningsförstärkt generering (RAG) och verktygsanvändnings-exempel: Cohere-kommando och inbäddning

Description Packages Sample
Skapa ett vektorindex för lokal Facebook AI-likhetssökning (FAISS) med hjälp av cohere-inbäddningar – Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Använd Cohere Command R/R+ för att besvara frågor från data i det lokala FAISS-vektorindexet – Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Använd Cohere Command R/R+ för att besvara frågor från data i AI-sökvektorindex – Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Använd Cohere Command R/R+ för att besvara frågor från data i AI-sökvektorindex – Cohere SDK cohere, azure_search_documents cohere-aisearch-rag.ipynb
Kommando R+ för verktyg/funktionsanrop med hjälp av LangChain cohere langchain langchain_cohere command_tools-langchain.ipynb

Cohere omrangordna

Om du vill utföra slutsatsdragning med Cohere rerank-modeller måste du använda Cohere:s anpassade omranknings-API:er. Mer information om cohere-omrankningsmodellen och dess funktioner finns i Cohere rerank.

Priser för Cohere-omrankningsmodeller

Frågor, som inte ska förväxlas med en användares fråga, är en prismätare som refererar till kostnaden som är associerad med de token som används som indata för slutsatsdragning av en Cohere Rerank-modell. En enda sökenhet räknas som en fråga med upp till 100 dokument som ska rangordnas. Dokument som är längre än 500 token (för Cohere-rerank-v3.5) eller längre än 4 096 token (för Cohere-rerank-v3-English och Cohere-rerank-v3-multilingual) när du inkluderar längden på sökfrågan delas upp i flera segment, där varje segment räknas som ett enda dokument.

Se cohere-modellsamlingen i Azure AI Foundry-portalen.

Core42

Följande tabell innehåller länkar till exempel på hur du använder Jais-modeller.

Description Language Sample
Azure AI-slutsatsdragningspaket för C# C# Link
Azure AI-slutsatsdragningspaket för JavaScript JavaScript Link
Azure AI-slutsatsdragningspaket för Python Python Link

DeepSeek

DeepSeek-familjen av modeller inkluderar DeepSeek-R1, som utmärker sig vid resonemangsuppgifter med en steg-för-steg träningsprocess, såsom språk, vetenskapligt resonemang och kodningsuppgifter, DeepSeek-V3-0324, en Mixture-of-Experts (MoE) språkmodell, och mer.

Följande tabell innehåller länkar till exempel på hur du använder DeepSeek-modeller.

Description Language Sample
Azure AI-slutsatsdragningspaket för Python Python Link
Azure AI-slutsatsdragningspaket för JavaScript JavaScript Link
Azure AI-slutsatsdragningspaket för C# C# Link
Azure AI-slutsatsdragningspaket för Java Java Link

Meta

Meta Llama-modeller och -verktyg är en samling förtränade och finjusterade generativa AI-modeller för text- och bildresonemang. Metamodellers intervall skalas så att det omfattar:

  • Små språkmodeller (SSM) som 1B och 3B bas- och instruktionsmodeller för inferens på enheter och i edge-miljöer.
  • Medelstora stora språkmodeller (LLM: er) som 7B-, 8B- och 70B-bas- och instruktionsmodeller
  • Högpresterande modeller som Meta Llama 3.1-405B Instruct för användning inom syntetisk datagenerering och destillation.
  • Högpresterande inbyggda multimodala modeller, Llama 4 Scout och Llama 4 Maverick, använder en blandning av expertarkitektur för att erbjuda branschledande prestanda inom text- och bildtolkning.

Följande tabell innehåller länkar till exempel på hur du använder Meta Llama-modeller.

Description Language Sample
CURL-begäran Bash Link
Azure AI-slutsatsdragningspaket för C# C# Link
Azure AI-slutsatsdragningspaket för JavaScript JavaScript Link
Azure AI-slutsatsdragningspaket för Python Python Link
Python webbfrågor Python Link
OpenAI SDK (experimentell) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Microsoft-modeller innehåller olika modellgrupper som MAI-modeller, Phi-modeller, AI-modeller för hälso- och sjukvård med mera. Om du vill se alla tillgängliga Microsoft-modeller kan du visa Microsofts modellsamling i Azure AI Foundry-portalen.

Följande tabell innehåller länkar till exempel på hur du använder Microsoft-modeller.

Description Language Sample
Azure AI-slutsatsdragningspaket för C# C# Link
Azure AI-slutsatsdragningspaket för JavaScript JavaScript Link
Azure AI-slutsatsdragningspaket för Python Python Link
LangChain Python Link
Llama-Index Python Link

Se Microsofts modellsamling i Azure AI Foundry-portalen.

Mistral AI

Mistral AI erbjuder två kategorier av modeller, nämligen:

  • Premiummodeller: Dessa inkluderar Modellerna Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) och Ministral 3B och är tillgängliga som serverlösa API:er med tokenbaserad betalning per användning.
  • Öppna modeller: Dessa inkluderar Mistral-small-2503, Codestral och Mistral Nemo (som är tillgängliga som serverlösa API:er med tokenbaserad betalning per användning) och Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 och Mistral-7B-v01 (som är tillgängliga för nedladdning och körning på hanterade slutpunkter med egen värd).

Följande tabell innehåller länkar till exempel på hur du använder Mistral-modeller.

Description Language Sample
CURL-begäran Bash Link
Azure AI-slutsatsdragningspaket för C# C# Link
Azure AI-slutsatsdragningspaket för JavaScript JavaScript Link
Azure AI-slutsatsdragningspaket för Python Python Link
Python webbfrågor Python Link
OpenAI SDK (experimentell) Python Mistral – OpenAI SDK-exempel
LangChain Python Mistral – LangChain-exempel
Mistral AI Python Mistral – Mistral AI-exempel
LiteLLM Python Mistral – LiteLLM-exempel

Nixtla

Nixtlas TimeGEN-1 är en generativ förtränad prognostiserings- och avvikelseidentifieringsmodell för tidsseriedata. TimeGEN-1 kan producera korrekta prognoser för nya tidsserier utan träning, med endast historiska värden och exogena samvariater som indata.

För att utföra slutsatsdragning kräver TimeGEN-1 att du använder Nixtlas anpassade slutsatsdragnings-API. Mer information om TimeGEN-1-modellen och dess funktioner finns i Nixtla.

Beräkna antalet token som behövs

Innan du skapar en TimeGEN-1-distribution är det bra att uppskatta antalet token som du planerar att använda och faktureras för. En token motsvarar en datapunkt i indatauppsättningen eller utdatauppsättningen.

Anta att du har följande datauppsättning för indatatidsserier:

Unique_id Timestamp Målvariabel Exogen variabel 1 Exogen variabel 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

För att fastställa antalet token multiplicerar du antalet rader (i det här exemplet två) och antalet kolumner som används för prognostisering– utan att räkna kolumnerna unique_id och tidsstämpel (i det här exemplet tre) för att få totalt sex token.

Givet följande utdatauppsättning:

Unique_id Timestamp Prognostiserad målvariabel
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

Du kan också fastställa antalet token genom att räkna antalet datapunkter som returneras efter dataprognoser. I det här exemplet är antalet token två.

Beräkna priser baserat på token

Det finns fyra prismätare som avgör vilket pris du betalar. Dessa mätare är följande:

Prismätare Description
paygo-inference-input-tokens Kostnader som är associerade med de token som används som indata för slutsatsdragning när finetune_steps = 0
paygo-inference-output-tokens Kostnader som är associerade med de token som används som utdata för slutsatsdragning när finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Kostnader som är associerade med de token som används som indata för slutsatsdragning när finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Kostnader som är associerade med de tokens som används som utdata för inferens när finetune_steps> 0

Se Nixtla-modellsamlingen i Azure AI Foundry-portalen.

Stabilitets-AI

Stabilitets-AI-modeller som distribueras via serverlös API-distribution implementerar API:et för modellinferens på vägen /image/generations. Exempel på hur du använder stabilitets-AI-modeller finns i följande exempel:

Gretel Navigator

Gretel Navigator använder en sammansatt AI-arkitektur som är särskilt utformad för syntetiska data genom att kombinera de bästa små språkmodellerna med öppen källkod (SLM) som finjusterats i mer än 10 branschdomäner. Det här specialbyggda systemet skapar olika, domänspecifika datamängder i skalor på hundratals till miljontals exempel. Systemet bevarar också komplexa statistiska relationer och ger ökad hastighet och noggrannhet jämfört med manuellt skapande av data.

Description Language Sample
Azure AI-slutsatsdragningspaket för JavaScript JavaScript Link
Azure AI-slutsatsdragningspaket för Python Python Link