Förstå extrahering av multimodala data
AI-baserade tekniker för informationsextrahering kan kombineras för att utföra dataextrahering på flera sätt för innehåll, från dokument till video och ljud. Användning av multimodala dataextrahering kan hjälpa dig med hantering av digitala tillgångar, arbetsflödesautomation, genererar ytterligare insikter med mera.
Orkestrering av extraheringstekniker kan omfatta syn- och dokumentintelligens och andra, inklusive:
- Bearbetning av naturligt språk kan användas för att hitta nyckelfraser, entiteter, sentiment osv. på skriftligt eller talat språk.
Anmärkning
De maskininlärningsbegrepp som är associerade med NLP beskrivs ingående i Introduktion till begrepp för bearbetning av naturligt språk.
- Taligenkänning tar det talade ordet och konverterar det till data som kan bearbetas – ofta genom att transkribera det till text. Talet kan vara i form av en inspelad röst i en ljudfil eller direktsänt ljud från en mikrofon.
Anmärkning
Taligenkänning beskrivs i Komma igång med tal i Azure.
- Generativ AI kan lägga till i dataextraheringsprocessen genom att låta användarna identifiera sina egna fält och fältbeskrivningar. Det kan vara särskilt användbart när du hanterar ostrukturerat innehåll. Ett exempel är fältet "sammanfattning" som lagts till av användaren. Värdet som är associerat med fältet måste genereras baserat på data i innehållet.
Anmärkning
Generativa AI-begrepp beskrivs ingående i Introduktion till generativ AI i Azure.
Pipelinen för innehållsbearbetning för extrahering av multimodal information kan innehålla lager av dessa extraheringstekniker. Ett exempel på pipelinens utdata är strukturerade insikter och ytterligare genererat innehåll.