Förstå dataextrahering för kunskapsutvinning
Kunskapsutvinningslösningar ger automatiserad informationsextrahering från stora mängder ofta ostrukturerade data. En grundläggande lösning för kunskapsutvinning är sökning, processen för att hämta relevant information från en stor datamängd som svar på en användarfråga. AI-baserad informationsextrahering stöder förbättringar i vad som kan sökas i ett sökindex.
I AI-baserad informationsextrahering för sökning bearbetas innehållet först genom dokumentanalysprocessen. Dokumentknackning beskriver processen att öppna dokumentformat som PDF-filer för att extrahera innehållet som ASCII-text för analys och indexering.
Innehållet flyttas sedan genom AI-berikning, som implementerar AI på ditt ursprungliga innehåll för att extrahera mer information. Exempel på AI-berikning är att lägga till bildtexter i ett foto och utvärdera textsentiment. AI-berikat innehåll kan skickas till ett kunskapslager, som lagrar utdata från en AI-berikningspipeline för oberoende analys eller vidare bearbetning.
Resulterande data serialiseras som JSON-data. JSON fyller i sökindexet. Det ifyllda sökindexet kan utforskas via frågor. När användarna gör en sökfråga som "kaffe" letar sökmotorn efter den informationen i sökindexet. Ett sökindex har en struktur som liknar en tabell, som kallas indexschemat. Ett typiskt sökindexschema innehåller fält, fältets datatyp (till exempel sträng) och fältattribut. Fälten lagrar sökbar text och fältattributen tillåter åtgärder som filtrering och sortering. Nedan visas ett exempel på ett sökindexschema:
Ett resultat är en söklösning som vanligtvis innehåller följande komponenter:
| Komponent | Funktion |
|---|---|
| API-lager | Accepterar användarfrågor och dirigerar dem till sökmotorn. |
| Sökmotor | Parsar och tolkar frågan. |
| Sökstrategier | Avgör hur du söker – t.ex. nyckelord, semantik, vektor eller hybrid. |
| Exekveringsmotor | Kör frågan i sökindexet. AI-baserad informationsextrahering lägger till data som är sökbara. |
| Resultataggregator | Kombinerar resultat från flera källor till en enhetlig lista. |
| Rangordningsmotor | Sorterar resultat baserat på relevans, färskhet, popularitet eller AI-signaler. |
| Svarsformaterare | Formaterar resultatet för visning i användargränssnittet. |