Dela via


Azure AI Speech-verktyg för Azure MCP Server

Använd Azure MCP Server för att hantera Azure AI Speech-funktioner som tal till text (SST) med frågor om naturligt språk. Du behöver inte komma ihåg någon specifik kommandosyntax.

Anmärkning

Verktygsparametrar: Azure MCP Server-verktygen definierar parametrar för data som de behöver för att slutföra uppgifter. Vissa av dessa parametrar är specifika för varje verktyg och dokumenteras nedan. Andra parametrar är globala och delas av alla verktyg. Mer information finns i Verktygsparametrar.

Tal till text: Identifiera

Identifiera tal från en ljudfil med Hjälp av Azure AI Services Speech. Det här kommandot tar en ljudfil och konverterar den till text med hjälp av avancerade funktioner för taligenkänning. Ljudformat som stöds är WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A och AAC. Komprimerade format kräver att GStreamer installeras på systemet.

Exempel på frågor är:

  • Grundläggande konvertering: "Konvertera den här ljudfilen till text med Hjälp av Azure Speech Services"
  • Med språkidentifiering: "Identifiera tal från min ljudfil med språkidentifiering"
  • Med svordomsfiltrering: "Transkribera tal från ljudfil med svordomsfiltrering"
  • Ange slutpunkt: "Konvertera tal till text från ljudfil med hjälp av min cognitive services-slutpunkt"
  • Spanska: "Transkribera ljudfilen på spanska"
  • Detaljerade utdata: "Konvertera tal till text med detaljerat utdataformat från ljudfil"
  • Med frastips: "Identifiera tal med frastips för bättre noggrannhet"
  • Flera frastips: "Transkribera ljud med hjälp av flera frastips: 'Azure', 'cognitive services', 'machine learning'"
  • Kommaavgränsade tips: "Konvertera tal till text med kommaavgränsade frastips: 'Azure, cognitive services, API'"
  • Råa svordomsutdata: "Transkribera ljud med råa svordomar från filen"
Parameter Obligatorisk eller valfri Description
Slutpunkt Krävs Url:en för Azure AI Services-slutpunkten (till exempel https://your-service.cognitiveservices.azure.com/).
Arkiv Krävs Sökväg till den lokala ljudfilen som ska identifieras.
Språk Valfritt Språket för taligenkänning (till exempel en-US, es-ES). Standard är en-US.
Fraser Valfritt Frastips för att förbättra igenkänningens noggrannhet. Kan anges flera gånger eller som kommaavgränsade värden.
Format Valfritt Utdataformat: simple eller detailed. Standard är simple.
Svordomar Valfritt Svordomsfilter: masked, removedeller raw. Standard är masked.