Lokalt gjuteriarkitektur

2025-10-01

Viktigt!

Foundry Local är tillgängligt i förhandsversionen. Offentliga förhandsversioner ger tidig åtkomst till funktioner som är i aktiv distribution.
Funktioner, metoder och processer kan ändra eller ha begränsade funktioner, före allmän tillgänglighet (GA).

Foundry Local möjliggör effektiv, säker och skalbar AI-modellinferens direkt på enheten. Den här artikeln beskriver huvudkomponenterna i Foundry Local och hur de arbetar tillsammans för att leverera AI-funktioner.

Foundry Local erbjuder följande viktiga fördelar:

Låg svarstid: Kör modeller lokalt för att minimera bearbetningstiden och leverera snabbare resultat.
Datasekretess: Bearbeta känsliga data lokalt utan att skicka dem till molnet, vilket hjälper till att uppfylla dataskyddskraven.
Flexibilitet: Med stöd för olika maskinvarukonfigurationer kan du välja den optimala konfigurationen för dina behov.
Skalbarhet: Distribuera mellan olika enheter, från bärbara datorer till servrar, för att passa olika användningsfall.
Kostnadseffektivitet: Minska kostnaderna för molnbaserad databehandling, särskilt för program med stora volymer.
Offlineåtgärd: Arbeta utan internetanslutning i fjärranslutna eller frånkopplade miljöer.
Sömlös integrering: Integrera enkelt i befintliga utvecklingsarbetsflöden för smidig implementering.

Viktiga komponenter

Den lokala foundry-arkitekturen består av följande huvudkomponenter:

Diagram över lokal gjuteriarkitektur.

Lokal tjänst för gjuteriverkstad

Foundry Local Service innehåller en OpenAI-kompatibel REST-server som tillhandahåller ett standardgränssnitt för att arbeta med slutsatsdragningsmotorn. Det är också möjligt att hantera modeller via REST. Utvecklare använder det här API:et för att skicka begäranden, köra modeller och hämta resultat programmatiskt.

Slutpunkt: Slutpunkten allokeras dynamiskt när tjänsten startas . Du hittar slutpunkten genom att foundry service status köra kommandot . När du använder Foundry Local i dina program rekommenderar vi att du använder SDK:t som automatiskt hanterar slutpunkten åt dig. Mer information om hur du använder Foundry Local SDK finns i artikeln Integrerad slutsatsdragnings-SDK:er med Foundry Local .
Användningsfall
- Ansluta Foundry Local till dina anpassade program
- Exekvera modeller via HTTP-begäranden

ONNX Runtime

ONNX Runtime är en kärnkomponent som kör AI-modeller. Den kör optimerade ONNX-modeller effektivt på lokal maskinvara som processorer, GPU:er eller NPU:er.

funktioner:

Fungerar med flera maskinvaruleverantörer (NVIDIA, AMD, Intel, Qualcomm) och enhetstyper (NPU:er, processorer, GPU:er)
Erbjuder ett konsekvent gränssnitt för att köra olika modeller med olika maskinvara
Ger bästa prestanda i klassen
Stöder kvantiserade modeller för snabbare slutsatsdragning

Modellhantering

Foundry Local innehåller robusta verktyg för att hantera AI-modeller, vilket säkerställer att de är lättillgängliga för slutsatsdragning och lätt att underhålla. Modellhantering hanteras via modellcachen och Command-Line-gränssnittet (CLI).

Modellcache

Modellcachen lagrar nedladdade AI-modeller lokalt på din enhet, vilket säkerställer att modeller är redo för slutsatsdragning utan att behöva ladda ned dem upprepade gånger. Du kan hantera cachen med antingen Foundry CLI eller REST API.

Syfte: Påskyndar slutsatsdragningen genom att hålla modeller lokalt tillgängliga
Nyckelkommandon:
- foundry cache list: Visar alla modeller i din lokala cache
- foundry cache remove <model-name>: Tar bort en specifik modell från cacheminnet
- foundry cache cd <path>: Ändrar lagringsplats för cachelagrade modeller

Modellivscykel

Ladda ned: Ladda ned modeller från Azure AI Foundry-modellkatalogen och spara dem på din lokala disk.
Läs in: Läs in modeller i Foundry Local Service-minnet för slutsatsdragning. Ange en TTL (time-to-live) för att styra hur länge modellen stannar i minnet (standard: 10 minuter).
Kör: Kör modellinferens för dina begäranden.
Ta bort: Ta bort modeller från minnet för att frigöra resurser när de inte längre behövs.
Ta bort: Ta bort modeller från din lokala cache för att frigöra diskutrymme.

Modellkompilering med olive

Innan modeller kan användas med Foundry Local måste de kompileras och optimeras i ONNX-format . Microsoft tillhandahåller ett urval av publicerade modeller i Azure AI Foundry Model Catalog som redan är optimerade för Foundry Local. Du är dock inte begränsad till dessa modeller – med hjälp av Olive. Olive är ett kraftfullt ramverk för att förbereda AI-modeller för effektiv slutsatsdragning. Den konverterar modeller till ONNX-format, optimerar deras grafstruktur och tillämpar tekniker som kvantisering för att förbättra prestanda på lokal maskinvara.

Tips/Råd

Mer information om hur du kompilerar modeller för Foundry Local finns i Kompilera Hugging Face-modeller som ska köras på Foundry Local.

Hårdvaruabstraktionslager

Maskinvaruabstraktionsskiktet säkerställer att Foundry Local kan köras på olika enheter genom att abstrahera den underliggande maskinvaran. För att optimera prestanda baserat på tillgänglig maskinvara stöder Foundry Local:

flera körningsleverantörer, till exempel NVIDIA CUDA, AMD, Qualcomm, Intel.
flera enhetstyper, till exempel CPU, GPU, NPU.

Anmärkning

För Intel NPU-stöd i Windows måste du installera Intel NPU-drivrutinen för att aktivera maskinvaruacceleration.

Anmärkning

För Support för Qualcomm NPU måste du installera Qualcomm NPU-drivrutinen. Om du stöter på felet Qnn error code 5005: "Failed to load from EpContext model. qnn_backend_manager." indikerar detta vanligtvis en inaktuell drivrutin eller konflikter med NPU-resurser. Prova att starta om för att rensa NPU-resurskonflikter, särskilt när du har använt Windows Copilot+-funktioner.

Utvecklarupplevelser

Foundry Local-arkitekturen är utformad för att ge en sömlös utvecklarupplevelse som möjliggör enkel integrering och interaktion med AI-modeller. Utvecklare kan välja mellan olika gränssnitt för att interagera med systemet, inklusive:

Command-Line Interface (CLI)

Foundry CLI är ett kraftfullt verktyg för att hantera modeller, slutsatsdragningsmotorn och den lokala cachen.

Exempel:

foundry model list: Visar en lista över alla tillgängliga modeller i den lokala cachen.
foundry model run <model-name>: Kör en modell.
foundry service status: Kontrollerar status för tjänsten.

Tips/Råd

Mer information om CLI-kommandon finns i Foundry Local CLI-referens.

Slutsatsdragning av SDK-integrering

Foundry Local stöder integrering med olika SDK:er på de flesta språk, till exempel OpenAI SDK, så att utvecklare kan använda välbekanta programmeringsgränssnitt för att interagera med den lokala slutsatsdragningsmotorn.

Tips/Råd

Mer information om att integrera med slutsatsdragnings-SDK:er finns i Integrera slutsatsdragnings-SDK:er med Foundry Local.

AI Toolkit för Visual Studio Code

AI Toolkit for Visual Studio Code tillhandahåller ett användarvänligt gränssnitt för utvecklare som interagerar med Foundry Local. Det gör att användare kan köra modeller, hantera den lokala cachen och visualisera resultat direkt i IDE.

funktioner:

Modellhantering: Ladda ned, läsa in och köra modeller från IDE:t.
Interaktiv konsol: Skicka begäranden och visa svar i realtid.
Visualiseringsverktyg: Grafisk representation av modellens prestanda och resultat.

Förutsättningar:

Du har installerat Foundry Local och har en modelltjänst igång.
Du har installerat AI Toolkit for Visual Studio Code extensionen.

Anslut Foundry Local-modellen till AI Toolkit:

Lägg till modell i AI Toolkit: Öppna AI Toolkit från aktivitetsfältet i Visual Studio Code. I panelen Mina modeller väljer du knappen Lägg till modell för fjärrgränssnitt och väljer sedan Lägg till en anpassad modell i listrutan.
Ange den chattkompatibla slutpunkts-URL:en: Ange http://localhost:PORT/v1/chat/completions var PORT ersätts med portnumret för din lokala Foundry-tjänstslutpunkt. Du kan se porten för din lokalt aktiva tjänst med hjälp av CLI-kommandot foundry service status. Foundry Local tilldelar dynamiskt en port, så den kanske inte alltid är densamma.
Ange modellnamn: Ange det exakta modellnamnet som du ska använda från Foundry Local, till exempel phi-3.5-mini. Du kan lista alla tidigare nedladdade och lokalt cachelagrade modeller med hjälp av CLI-kommandot foundry cache list eller använda foundry model list för att se alla tillgängliga modeller för lokal användning. Du uppmanas också att ange ett visningsnamn, som endast är för din egen lokala användning, så för att undvika förvirring rekommenderar vi att du anger samma namn som det exakta modellnamnet.
Autentisering: Om din lokala installation inte kräver autentisering (vilket är standardinställningen för en lokal Foundry-installation) kan du lämna autentiseringsfältet tomt och trycka på Enter.

När du har slutfört de här stegen visas din lokala Foundry-modell i listan Mina modeller i AI Toolkit och är redo att användas genom att högerklicka på din modell och välja 'Load in Playground'.

Feedback

Var den här sidan till hjälp?

Dela via

Lokalt gjuteriarkitektur

Viktiga komponenter

Lokal tjänst för gjuteriverkstad

ONNX Runtime

Modellhantering

Modellcache

Modellivscykel

Modellkompilering med olive

Hårdvaruabstraktionslager

Utvecklarupplevelser

Command-Line Interface (CLI)

Slutsatsdragning av SDK-integrering

AI Toolkit för Visual Studio Code

Relaterat innehåll

Feedback

Ytterligare resurser