Inzicht in het indexeringsproces

Voltooid

Het indexeringsproces werkt door een document te maken voor elke geïndexeerde entiteit. Tijdens het indexeren bouwt een verrijkingspijplijn iteratief de documenten die metagegevens uit de gegevensbron combineren met verrijkte velden die zijn geëxtraheerd door cognitieve vaardigheden. U kunt elk geïndexeerd document beschouwen als een JSON-structuur, die in eerste instantie bestaat uit een document met de indexvelden die u hebt toegewezen aan velden die rechtstreeks uit de brongegevens zijn geëxtraheerd, zoals:

  • document
    • metadata_storage_name
    • metadata_author
    • inhoud

Wanneer de documenten in de gegevensbron afbeeldingen bevatten, kunt u de indexeerfunctie configureren om de afbeeldingsgegevens te extraheren en elke afbeelding in een normalized_images verzameling te plaatsen, zoals deze:

  • document
    • metadata_storage_name
    • metadata_author
    • inhoud
    • normalized_images
      • afbeelding0
      • afbeelding1

Door de afbeeldingsgegevens op deze manier te normaliseren, kunt u de verzameling afbeeldingen gebruiken als invoer voor vaardigheden waarmee informatie uit afbeeldingsgegevens wordt geëxtraheerd.

Elke vaardigheid voegt velden toe aan het document, dus bijvoorbeeld een vaardigheid waarmee de taal wordt gedetecteerd waarin een document wordt geschreven, kan de uitvoer in een taalveld worden opgeslagen, zoals:

  • document
    • metadata_storage_name
    • metadata_author
    • inhoud
    • normalized_images
      • afbeelding0
      • afbeelding1
    • Taal

Het document is hiërarchisch gestructureerd en de vaardigheden worden toegepast op een specifieke context binnen de hiërarchie, zodat u de vaardigheid voor elk item op een bepaald niveau van het document kunt uitvoeren. U kunt bijvoorbeeld een OCR-vaardigheid (Optical Character Recognition) uitvoeren voor elke afbeelding in de genormaliseerde afbeeldingenverzameling om eventuele tekst die ze bevatten te extraheren.

  • document
    • metadata_storage_name
    • metadata_author
    • inhoud
    • normalized_images
      • afbeelding0
        • Tekst
      • afbeelding1
        • Tekst
    • Taal

De uitvoervelden van elke vaardigheid kunnen later in de pijplijn worden gebruikt als invoer voor andere vaardigheden, die hun uitvoer op hun beurt opslaan in de documentstructuur. We kunnen bijvoorbeeld een samenvoegvaardigheid gebruiken om de oorspronkelijke tekstinhoud te combineren met de tekst die uit elke afbeelding is geëxtraheerd om een nieuw merged_content veld te maken dat alle tekst in het document bevat, inclusief afbeeldingstekst.

  • document
    • metadata_storage_name
    • metadata_author
    • inhoud
    • normalized_images
      • afbeelding0
        • Tekst
      • afbeelding1
        • Tekst
    • Taal
    • merged_content

De velden in de uiteindelijke documentstructuur aan het einde van de pijplijn worden op twee manieren toegewezen aan indexvelden door de indexeerfunctie:

  1. Velden die rechtstreeks uit de brongegevens zijn geëxtraheerd, worden allemaal toegewezen aan indexvelden. Deze toewijzingen kunnen impliciet zijn (velden worden automatisch toegewezen aan velden met dezelfde naam in de index) of expliciet (een toewijzing wordt gedefinieerd om een bronveld aan een indexveld te koppelen, vaak om de naam van het veld te wijzigen in iets nuttigers of om een functie toe te passen op de gegevenswaarde zoals deze is toegewezen).
  2. Uitvoervelden van de vaardigheden in het vaardighedenpakket worden uitdrukkelijk toegewezen vanuit hun hiërarchische locatie in de uitvoer naar het doelveld in de index.