Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Modellrouter för Azure AI Foundry är en distribuerad AI-chattmodell som tränas att välja den bästa stora språkmodellen (LLM) för att svara på en viss fråga i realtid. Genom att utvärdera faktorer som frågekomplexitet, kostnad och prestanda dirigerar den på ett intelligent sätt begäranden till den lämpligaste modellen. Därför ger den höga prestanda samtidigt som den sparar på beräkningskostnader där det är möjligt, allt paketerat som en enda modelldistribution.
Varför använda modellrouter?
Modellrouter väljer intelligent den bästa underliggande modellen för en viss fråga för att optimera kostnaderna samtidigt som kvaliteten bibehålls. Mindre och billigare modeller används när de räcker för uppgiften, men större och dyrare modeller är tillgängliga för mer komplexa uppgifter. Dessutom finns resonemangsmodeller tillgängliga för uppgifter som kräver komplexa resonemang, och icke-resonemangsmodeller används annars. Modellrouter ger en enda distributions- och chattupplevelse som kombinerar de bästa funktionerna från alla underliggande chattmodeller.
Versionshantering
Varje version av modellroutern är associerad med en specifik uppsättning underliggande modeller och deras versioner. Den här uppsättningen är fast – endast nyare versioner av modellroutern kan exponera nya underliggande modeller.
Om du väljer Automatisk uppdatering i distributionssteget (se Hantera modeller) uppdateras modellens routermodell automatiskt när nya versioner blir tillgängliga. När det händer ändras även uppsättningen underliggande modeller, vilket kan påverka modellens och kostnadernas övergripande prestanda.
Underliggande modeller
| Modellrouterversion | Underliggande modeller | Modellversion | 
|---|---|---|
2025-08-07 | 
              gpt-4.1
              gpt-4.1-mini
              gpt-4.1-nano
              o4-mini
              gpt-5
              gpt-5-mini  gpt-5-nano gpt-5-chat | 
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 | 
2025-05-19 | 
              gpt-4.1
              gpt-4.1-mini
              gpt-4.1-nano
              o4-mini
             | 
2025-04-14 2025-04-14 2025-04-14 2025-04-16 | 
Begränsningar
Resursbegränsningar
Se sidan Modeller för regionens tillgänglighets- och distributionstyper för modellrouter.
Tekniska begränsningar
Se Kvoter och gränser för information om hastighetsbegränsning.
Anmärkning
Den kontextfönstergräns som anges på sidan Modeller är gränsen för den minsta underliggande modellen. Andra underliggande modeller är kompatibla med större kontextfönster, vilket innebär att ett API-anrop med en större kontext endast lyckas om uppmaningen råkar dirigeras till rätt modell, annars misslyckas anropet. Om du vill förkorta kontextfönstret kan du göra något av följande:
- Sammanfatta uppmaningen innan du skickar den till modellen
 - Trunkera prompten till mer relevanta delar
 - Använd dokumentinbäddningar och låt chattmodellen hämta relevanta avsnitt: se Azure AI Search
 
Modellroutern accepterar bildindata för visionsaktiverade chattar (alla underliggande modeller kan acceptera bildindata), men routningsbeslutet baseras endast på textinmatningen.
Modellrouter bearbetar inte ljudindata.
Faktureringsinformation
När du använder modellroutern idag debiteras du endast för användningen av de underliggande modellerna eftersom de används för att svara på uppmaningar: själva modellroutningsfunktionen medför inga extra avgifter. Från och med den 1 september 2025 debiteras även modellens routeranvändning.
Du kan övervaka kostnaderna för din modellrouterdistribution i Azure-portalen.