Modellrouter för Azure AI Foundry (förhandsversion)

2025-09-11

Modellrouter för Azure AI Foundry är en distribuerad AI-chattmodell som tränas att välja den bästa stora språkmodellen (LLM) för att svara på en viss fråga i realtid. Genom att utvärdera faktorer som frågekomplexitet, kostnad och prestanda dirigerar den på ett intelligent sätt begäranden till den lämpligaste modellen. Därför ger den höga prestanda samtidigt som den sparar på beräkningskostnader där det är möjligt, allt paketerat som en enda modelldistribution.

Varför använda modellrouter?

Modellrouter väljer intelligent den bästa underliggande modellen för en viss fråga för att optimera kostnaderna samtidigt som kvaliteten bibehålls. Mindre och billigare modeller används när de räcker för uppgiften, men större och dyrare modeller är tillgängliga för mer komplexa uppgifter. Dessutom finns resonemangsmodeller tillgängliga för uppgifter som kräver komplexa resonemang, och icke-resonemangsmodeller används annars. Modellrouter ger en enda distributions- och chattupplevelse som kombinerar de bästa funktionerna från alla underliggande chattmodeller.

Versionshantering

Varje version av modellroutern är associerad med en specifik uppsättning underliggande modeller och deras versioner. Den här uppsättningen är fast – endast nyare versioner av modellroutern kan exponera nya underliggande modeller.

Om du väljer Automatisk uppdatering i distributionssteget (se Hantera modeller) uppdateras modellens routermodell automatiskt när nya versioner blir tillgängliga. När det händer ändras även uppsättningen underliggande modeller, vilket kan påverka modellens och kostnadernas övergripande prestanda.

Underliggande modeller

Modellrouterversion	Underliggande modeller	Modellversion
`2025-08-07`	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5` `gpt-5-mini` `gpt-5-nano` `gpt-5-chat`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07`
`2025-05-19`	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16`

Begränsningar

Resursbegränsningar

Se sidan Modeller för regionens tillgänglighets- och distributionstyper för modellrouter.

Tekniska begränsningar

Se Kvoter och gränser för information om hastighetsbegränsning.

Anmärkning

Den kontextfönstergräns som anges på sidan Modeller är gränsen för den minsta underliggande modellen. Andra underliggande modeller är kompatibla med större kontextfönster, vilket innebär att ett API-anrop med en större kontext endast lyckas om uppmaningen råkar dirigeras till rätt modell, annars misslyckas anropet. Om du vill förkorta kontextfönstret kan du göra något av följande:

Sammanfatta uppmaningen innan du skickar den till modellen
Trunkera prompten till mer relevanta delar
Använd dokumentinbäddningar och låt chattmodellen hämta relevanta avsnitt: se Azure AI Search

Modellroutern accepterar bildindata för visionsaktiverade chattar (alla underliggande modeller kan acceptera bildindata), men routningsbeslutet baseras endast på textinmatningen.

Modellrouter bearbetar inte ljudindata.

Faktureringsinformation

När du använder modellroutern idag debiteras du endast för användningen av de underliggande modellerna eftersom de används för att svara på uppmaningar: själva modellroutningsfunktionen medför inga extra avgifter. Från och med den 1 september 2025 debiteras även modellens routeranvändning.

Du kan övervaka kostnaderna för din modellrouterdistribution i Azure-portalen.

Nästa steg

Så här använder du modellrouter

Feedback

Var den här sidan till hjälp?