Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Vectorarchieven worden gebruikt in talloze domeinen en situaties in analytische en generatieve AI, waaronder verwerking van natuurlijke taal, video- en afbeeldingsherkenning, aanbevelingssystemen en zoeken.
Wat is een vectoropslag?
Een vectorarchief (ook wel een vectordatabase genoemd) is een database waarin vector-insluitingen worden opgeslagen en beheerd. Vector embeddings zijn wiskundige representaties van gegevens in een hoogdimensionale ruimte.
In deze ruimte komt elke dimensie overeen met een functie van de gegevens. Tienduizenden dimensies kunnen worden gebruikt om geavanceerde gegevens weer te geven. De positie van een vector in deze ruimte vertegenwoordigt de kenmerken. Woorden, woordgroepen, volledige documenten, afbeeldingen, audio en andere typen gegevens kunnen allemaal worden gevectoriseerd.
Hoe werkt een vectoropslag?
In een vectorarchief gebruikt u vectorzoekalgoritmen om insluitingen te indexeren en op te vragen. Bekende vectorzoekalgoritmen zijn Disk Approximate Nearest Neighbor (DiskANN), Hierarchical Navigable Small World (HNSW) en Inverted File with Flat Compression (IVFFlat).
Vectorzoekopdrachten is een methode waarmee u vergelijkbare items kunt vinden op basis van hun gegevenskenmerken in plaats van door exacte overeenkomsten in een eigenschapsveld. Deze techniek is handig in toepassingen zoals het zoeken naar vergelijkbare tekst, het vinden van gerelateerde afbeeldingen, het maken van aanbevelingen of zelfs het detecteren van afwijkingen.
Vectorzoekopdrachten worden gebruikt om een query uit te voeren op de vector-insluitingen van uw gegevens die u hebt gemaakt met behulp van een machine learning-model, via een insluitings-API. Voorbeelden van insluitings-API's zijn Azure OpenAI Embeddings en Hugging Face in Azure.
Vectorzoekopdrachten meten de afstand tussen de gegevensvectoren en uw queryvector. De datavectoren die zich het dichtst bij uw queryvector bevinden, zijn de vectoren die semantisch het meest vergelijkbaar zijn.
Wanneer u Azure Database for PostgreSQL als vectorarchief gebruikt, kunt u insluitingen opslaan, indexeren en query's uitvoeren naast de oorspronkelijke gegevens. Deze aanpak elimineert de extra kosten voor het repliceren van gegevens in een afzonderlijke, pure vectordatabase.
Deze architectuur houdt ook de vector insluitingen en oorspronkelijke gegevens bij elkaar. Het bijhouden van de insluitingen en de gegevens samen vergemakkelijkt multimodale gegevensbewerkingen. Het maakt ook meer gegevensconsistentie, schaal en prestaties mogelijk.