Förstå extrahering av data från formulär
Formulär och andra dokument har textdata med semantisk betydelse. Semantisk betydelse refererar till den avsedda innebörden eller tolkningen av ord, fraser eller symboler i en viss kontext. Semantisk betydelse går utöver bara den literala definitionen av ett ord (syntax) och fokuserar på vad ordet eller meningen faktiskt förmedlar.
Dokumentinformation beskriver AI-funktioner som bearbetar text och bifogar semantisk betydelse i den extraherade texten. Som en förlängning av optisk teckenigenkänning (OCR) automatiserar dokumentinformation processen för att extrahera och förstå information.
Överväg en organisation som behöver bearbeta ett stort antal kvitton för utgiftsanspråk, projektkostnader och andra redovisningsändamål. Med hjälp av dokumentinformation kan företaget ta en skannad bild av ett kvitto, digitalisera texten med OCR och extrahera semantisk betydelse. Den semantiska betydelsen av data i formulär kan beskrivas i fält/värde-par.
- Fältnamnet är nyckeln eller typen av datainmatning.
- Fältbeskrivningen är definitionen av vad fältnamnet representerar.
- Värdet motsvarar fältnamnet och är de data som är specifika för innehållet.
I en faktura kan till exempel fälten som identifieras innehålla:
- Säljarens namn, adress och telefonnummer
- Datum och tid för köpet
- Namn, kvantitet och pris för varje köpt artikel
- Summa, delsummor och skattevärden
Data i formulär identifieras med avgränsningsrutor.
En skärmbild av ett skannat kvitto för inköp av en Surface Pro och en Surface Pen.
Adressinformationen i på kvittot sparas till exempel som en field name, address och en value, 123 Main Street med koordinaterna [4.1, 2.2], [4.3, 2.2], [4.3, 2.4], [4.1, 2.4]. Maskininlärningsmodeller kan tolka data i ett dokument eller formulär eftersom de tränas att identifiera mönster på avgränsningsrutans koordinatplatser.
Resultatet av extrahering av data associeras med konfidensnivåer för varje fält och datapar. Den här konfidensnivån är en procentandel mellan 0 och 1, vilket anger den sannolika noggrannhetsnivån. Data som extraheras med en hög konfidenspoäng (närmare 1) kan förlita sig på mer säkert för att faktiskt representera vad som finns i det ursprungliga innehållet.