Azure AI Speech-verktyg för Azure MCP Server

2025-10-27

Använd Azure MCP Server för att hantera Azure AI Speech-funktioner som tal till text (SST) med frågor om naturligt språk. Du behöver inte komma ihåg någon specifik kommandosyntax.

Anmärkning

Verktygsparametrar: Azure MCP Server-verktygen definierar parametrar för data som de behöver för att slutföra uppgifter. Vissa av dessa parametrar är specifika för varje verktyg och dokumenteras nedan. Andra parametrar är globala och delas av alla verktyg. Mer information finns i Verktygsparametrar.

Tal till text: Identifiera

Identifiera tal från en ljudfil med Hjälp av Azure AI Services Speech. Det här kommandot tar en ljudfil och konverterar den till text med hjälp av avancerade funktioner för taligenkänning. Ljudformat som stöds är WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A och AAC. Komprimerade format kräver att GStreamer installeras på systemet.

Exempel på frågor är:

Grundläggande konvertering: "Konvertera den här ljudfilen till text med Hjälp av Azure Speech Services"
Med språkidentifiering: "Identifiera tal från min ljudfil med språkidentifiering"
Med svordomsfiltrering: "Transkribera tal från ljudfil med svordomsfiltrering"
Ange slutpunkt: "Konvertera tal till text från ljudfil med hjälp av min cognitive services-slutpunkt"
Spanska: "Transkribera ljudfilen på spanska"
Detaljerade utdata: "Konvertera tal till text med detaljerat utdataformat från ljudfil"
Med frastips: "Identifiera tal med frastips för bättre noggrannhet"
Flera frastips: "Transkribera ljud med hjälp av flera frastips: 'Azure', 'cognitive services', 'machine learning'"
Kommaavgränsade tips: "Konvertera tal till text med kommaavgränsade frastips: 'Azure, cognitive services, API'"
Råa svordomsutdata: "Transkribera ljud med råa svordomar från filen"

Parameter	Obligatorisk eller valfri	Description
Slutpunkt	Krävs	Url:en för Azure AI Services-slutpunkten (till exempel `https://your-service.cognitiveservices.azure.com/`).
Arkiv	Krävs	Sökväg till den lokala ljudfilen som ska identifieras.
Språk	Valfritt	Språket för taligenkänning (till exempel `en-US`, `es-ES`). Standard är `en-US`.
Fraser	Valfritt	Frastips för att förbättra igenkänningens noggrannhet. Kan anges flera gånger eller som kommaavgränsade värden.
Format	Valfritt	Utdataformat: `simple` eller `detailed`. Standard är `simple`.
Svordomar	Valfritt	Svordomsfilter: `masked`, `removed`eller `raw`. Standard är `masked`.

Feedback

Var den här sidan till hjälp?

Dela via

Azure AI Speech-verktyg för Azure MCP Server

Tal till text: Identifiera

Relaterat innehåll

Feedback

Ytterligare resurser